
- 前言
- 一、Hadoop是什么?
- 二、Hadoop-2.6.5安装配置
- 1. 修改主机名
- 2. 配置环境变量
- 3. 修改主要Hadoop主要配置文件
- 4. Web端口测试
- 总结
前言
一、Hadoop是什么?
- Hadoop系统最初的源头来自于Apache Lucene项目下的搜索引擎子项目Nutch,该项目的负责人是Doug Cutting。
- 2003年,Google为了解决其搜索引擎中大规模Web网页数据的处理,研究发明了一套称为MapReduce的大规模数据并行处理技术。
- 2004年,在OSDI会议上发表了题为:“MapReduce: Simplified Data Processing on Large Clusters”的论文,简要介绍了MapReduce的基本设计思想。
- Doug Cutting发现Google MapReduce所解决的大规模搜索引擎数据处理问题,正是他同样面临并急需解决的问题。因此,他尝试模仿Google MapReduce的设计思路,用Java设计实现了一套新的MapReduce并行处理系统,并将其与Nutch分布式文件系统NDFS结合,用以支持Nutch搜索引擎的数据处理。
- 2006年,将NDFS和MapReduce从Nutch项目中分离出来,成为一套独立的软件系统,并用Doug Cutting小儿子当时牙牙学语称呼自己玩具小象的名字“Hadoop”命名了这个系统。
下面我们将以Hadoop-2.6.5(下载地址请见这里)为例,说明它的安装配置过程。
1. 修改主机名我们需要在Linux CentOS的两个配置文件中修改关于主机名的设置,主要包括以下两个步骤:
(1)修改/etc/sysconfig下的network文件,将其中HOSTNAME的值修改为用户指定的主机名。
*** 作如下(示例):
(a)打开network文件:
vi /etc/sysconfig/network
(b)修改network文件中HOSTNAME的值:
NETWORKING=yes HOSTNAME=shengyphadoop
其中,shengyphadoop是我们指定的主机名。
(2)修改/etc下的hosts文件,增加一条IP地址到主机名的映射信息。
*** 作如下(示例):
192.168.238.101 localhost shengyphadoop
其中,192.168.238.101是CentOS所在主机的静态IP地址,shengyphadoop是我们指定的主机名。
待上述修改完成后,我们需要通过hostname命令使之生效:
hostname shengyphadoop
最后,我们可以选择ping命令或hostname命令检查修改后的主机名,如下所示。
(1)进入hadoop-2.6.5.tar.gz包所在的目录(这里是:/home/shengyp/tools),通过tar -zxf命令对其进行解压:
*** 作如下(示例):
[root@shengyphadoop tools]tar -zxf ./hadoop-2.6.5.tar.gz
(2)进入/etc/profile文件,在该文件的末尾处创建JAVA_HOME和HADOOP_HOME环境变量,并将它们进行赋值。
*** 作如下(示例):
(1)打开/etc/profile文件:
[root@shengyphadoop tools]vi /etc/profile
export JAVA_HOME=/home/shengyp/tools/jdk1.8.0_191 export HADOOP_HOME=/home/shengyp/tools/hadoop-2.6.5 export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$PATH
修改如下(示例):
import numpy as np import pandas as pd import matplotlib.pyplot as plt ssl._create_default_https_context = ssl._create_unverified_context3. 修改主要Hadoop主要配置文件
(1)
修改如下(示例):
fs.default.name hdfs://shengyphadoop:9000 hadoop.tmp.dir /home/shengyp/tools/hadoop-2.6.5/tmp dfs.namenode.secondary.http-address shengyphadoop:9001
其中,。。。
dfs.namenode.name.dir /home/shengyp/tools/hadoop-2.6.5/dfs/name dfs.datanode.data.dir /home/shengyp/tools/hadoop-2.6.5/dfs/data dfs.replication 1
分析:
mapreduce.framework.name yarn mapreduce.cluster.local.dir /home/shengyp/tools/hadoop-2.6.5/mapred/local mapreduce.jobtracker.system.dir /home/shengyp/tools/hadoop-2.6.5/mapred/system
其中,。。。
在yarn-site.xml
yarn.resourcemanager.hostname shengyphadoop yarn.nodemanager.aux-services mapreduce_shuffle
其中,
4. Web端口测试
(1)在50070端口测试
(2)在8088端口测试
(3)在8042端口测试
(4)在19888端口测试Jobhistory守护进程
关于常用hadoop和yarn的端口,请见以下链接:
常用hadoop和yarn的端口
总结提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
【彩蛋来了】
看完作者写的这篇博文,或许读者还想再找找描述类似内容的博文。预料之中,作者已将它们附上,请参见:
centOS 6.4主机名的修改和网络配置ip、DNS等配置
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)