Hadoop-2.6.5完整安装配置过程_随笔

Hadoop-2.6.5完整安装配置过程

记录Hadoop-2.6.5完整安装配置过程

前言
一、Hadoop是什么？
二、Hadoop-2.6.5安装配置
- 1. 修改主机名
- 2. 配置环境变量
- 3. 修改主要Hadoop主要配置文件
- 4. Web端口测试
总结

前言

一、Hadoop是什么？

Hadoop系统最初的源头来自于Apache Lucene项目下的搜索引擎子项目Nutch，该项目的负责人是Doug Cutting。
2003年，Google为了解决其搜索引擎中大规模Web网页数据的处理，研究发明了一套称为MapReduce的大规模数据并行处理技术。
2004年，在OSDI会议上发表了题为：“MapReduce: Simplified Data Processing on Large Clusters”的论文，简要介绍了MapReduce的基本设计思想。
Doug Cutting发现Google MapReduce所解决的大规模搜索引擎数据处理问题，正是他同样面临并急需解决的问题。因此，他尝试模仿Google MapReduce的设计思路，用Java设计实现了一套新的MapReduce并行处理系统，并将其与Nutch分布式文件系统NDFS结合，用以支持Nutch搜索引擎的数据处理。
2006年，将NDFS和MapReduce从Nutch项目中分离出来，成为一套独立的软件系统，并用Doug Cutting小儿子当时牙牙学语称呼自己玩具小象的名字“Hadoop”命名了这个系统。

二、Hadoop-2.6.5安装配置

下面我们将以Hadoop-2.6.5（下载地址请见这里）为例，说明它的安装配置过程。

1. 修改主机名

我们需要在Linux CentOS的两个配置文件中修改关于主机名的设置，主要包括以下两个步骤：

（1）修改/etc/sysconfig下的network文件，将其中HOSTNAME的值修改为用户指定的主机名。

*** 作如下（示例）：

（a）打开network文件：

vi /etc/sysconfig/network

（b）修改network文件中HOSTNAME的值：

NETWORKING=yes
HOSTNAME=shengyphadoop

其中，shengyphadoop是我们指定的主机名。

（2）修改/etc下的hosts文件，增加一条IP地址到主机名的映射信息。

*** 作如下（示例）：

192.168.238.101   localhost shengyphadoop

其中，192.168.238.101是CentOS所在主机的静态IP地址，shengyphadoop是我们指定的主机名。

待上述修改完成后，我们需要通过hostname命令使之生效：

hostname  shengyphadoop

最后，我们可以选择ping命令或hostname命令检查修改后的主机名，如下所示。

2. 配置环境变量

（1）进入hadoop-2.6.5.tar.gz包所在的目录（这里是：/home/shengyp/tools），通过tar -zxf命令对其进行解压：

*** 作如下（示例）：

[root@shengyphadoop tools]tar -zxf  ./hadoop-2.6.5.tar.gz

（2）进入/etc/profile文件，在该文件的末尾处创建JAVA_HOME和HADOOP_HOME环境变量，并将它们进行赋值。
*** 作如下（示例）：

（1）打开/etc/profile文件：

[root@shengyphadoop tools]vi  /etc/profile

export JAVA_HOME=/home/shengyp/tools/jdk1.8.0_191
export HADOOP_HOME=/home/shengyp/tools/hadoop-2.6.5
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$PATH

修改如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
ssl._create_default_https_context = ssl._create_unverified_context

3. 修改主要Hadoop主要配置文件

（1）
修改如下（示例）：


	
		fs.default.name
        hdfs://shengyphadoop:9000
	
	
		hadoop.tmp.dir
		/home/shengyp/tools/hadoop-2.6.5/tmp
	
	
		dfs.namenode.secondary.http-address
		shengyphadoop:9001

其中，。。。


	
		dfs.namenode.name.dir
        /home/shengyp/tools/hadoop-2.6.5/dfs/name
	
	
		dfs.datanode.data.dir
		/home/shengyp/tools/hadoop-2.6.5/dfs/data
	
	
		dfs.replication
		1

分析：


	
		mapreduce.framework.name
		yarn
	
	
		mapreduce.cluster.local.dir
		/home/shengyp/tools/hadoop-2.6.5/mapred/local
	
	
		mapreduce.jobtracker.system.dir
		/home/shengyp/tools/hadoop-2.6.5/mapred/system

其中，。。。
在yarn-site.xml


	
		yarn.resourcemanager.hostname
		shengyphadoop
	
	
		yarn.nodemanager.aux-services
		mapreduce_shuffle

其中，

4. Web端口测试

（1）在50070端口测试

（2）在8088端口测试

（3）在8042端口测试

（4）在19888端口测试Jobhistory守护进程

关于常用hadoop和yarn的端口，请见以下链接：

常用hadoop和yarn的端口

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

【彩蛋来了】

看完作者写的这篇博文，或许读者还想再找找描述类似内容的博文。预料之中，作者已将它们附上，请参见：

centOS 6.4主机名的修改和网络配置ip、DNS等配置

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/zaji/5668991.html

Hadoop-2.6.5完整安装配置过程

发表评论

评论列表（0条）