澳门美高梅手机网站搭建五个节点的大数量集群-1.hdfs集群

备份节点提供除了和检查点节点一样,能够提供检查点成效,仍是可以够实时同步1个和主节点一样的系统命名空间(在内部存款和储蓄器中,并且状态是活动)。备份节点从主节点通过流的不二法门接受主节点上的编辑日志,并把这个日记保存在磁盘中,同时这一个编辑日志一样会被利用到内部存款和储蓄器中,那样备份节点内部存款和储蓄器中的称号空间就和主节点完全相同。

        <value>
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>

1.目的

</property>

译注:那个片段的剧情和2.8.0总体文书档案中关于文件操作的齐驱并骤。hdfs
dfs的下令就算和hadoop fs 基本一致,但2.8.0的文书档案基本只介绍hadoop
fs。那大概是文书档案没有妥善更新的原因。

<property>

18.数额节点热调换磁盘

其次,重新格式化之后,并没有去除掉原来的元数据目录。

译注:越来越多细节参阅hadoop文书档案,可能看帮衬,本文的目标不在于这么些细节。

 

hadoop当前能够创设二个众多节点的集群。那一个页面powerdBy列出了著名的用户。

依照单机的布局即可。

-upgrade -renameReserved .snapshot=.my-snapshot,.reserved=.my-reserved

    <name> dfs.datanode.data.dir</name>

对此重命名进程,有部分警告。大家建议,假设只怕,应该在晋级前保存名称空间(通过
hdfs dfsadmin -saveNamespace).

[hadoop@bigdata sbin]$ hadoop fs -copyFromLocal -f  start-dfs.sh 
hdfs://bigdata.lzf:9001/tmp
17/07/21 17:35:29 DEBUG util.NativeCodeLoader: Trying to load the
custom-built native-hadoop library…
17/07/21 17:35:29 DEBUG util.NativeCodeLoader: Loaded the native-hadoop
library

听大人说暗中同意设置,名称节点的主页是http://namenode-name:50070/.它会列出集群中的名称节点和集群的基本统计信息。web界面也可以用于浏览文件系统

透过那么些最简便易行的安排,驾驭hadoop中集群的总结工作原理。

  • hadoop,包罗hdfs,很适用于分布式存款和储蓄,并运用普通的配备开始展览分布式总括。它有容错,可伸缩,极其简单扩充。mapreduce,以简单和可用于大批量分布式应用有名,是hadoop的一部分。
  • HDFS是可观可配,并有一个暗许的计划,能够有为数不少的装置情势。绝超越53%时候,唯有在尤其大的集群中才须要调优(译注:应该是指节点多,数据多啊?)。
  • hadoop使用java编写,支持全部重庆大学的平台
  • hadoop协助类似于shell的通令,能够用来互动hdfs目录
  • 名称节点和数码节点都有内建的web服务器,用户很简单检查集群当前情景
  • HDFS中部分新特点和升高会定期达成,以下几点是部分实惠的表征:(译注,这是依照2.8.0编纂的)

* <description>namenode上地点的hadoop临时文件夹</description>*

而外运营的时候,自动安装为平安形式,也足以显式(手工业)把集群设置为平安情势–
hdfs dfsadmin -safemode

<property>

  1. 假设有新的囤积目录,那么用户应该格式化和挂载
  2. 修改dfs.datanode.data.dir设置,到场新的路线
  3. 推行dfsadmin -reconfig datanode host:port
    start,以运维重配置路径。然后,使用dfsadmin -reconfig datanode
    host:port status查询重配置职务的情事
  4. 假使重新配置达成,用户就能够安全的卸载有关目录,并物理移除磁盘

备份节点不供给从主节点下载印象文件和编写制定日志,因为它的内存中有个和主节点一样的称谓空间。备份节点的检查点进程进一步火速,因为它只须求把称呼空间保存到地头的印象文件,并充值编辑日志。

1.6 修改种种env.sh和日志

备份节点的岗位它的web界面通过dfs.namenode.backup.address
和dfs.namenode.backup.http-address来布置。

<property>

文件系统的权限类似linux的。近来,安全仅限于简单的公文权限。运转名称节点的用户被当做HDFS的超级用户。

 

  1. 假定有备份节点,那么先移除
  2. 截止集群,并安顿新本子的hadoop
  3. 运行sbin/start-dfs.sh -upgrade
  4. 大部年华,集群运转优秀。一旦认为新的HDFS运营卓绝(恐怕进步几天过后),结束升级。注意,除非集群认定升级完成,不然删除升级前的文件不会真的自由数据节点上的长空
  5. 设若要回滚到老版本

<property>

15.fetchdt-获得委托令牌

本条是在3上进行的,前面创立目录和上传是在2执行的。

第叁称谓节点把最新的检查点存款和储蓄在当地目录,那些目录结构同主名称节点。那样,假若有必不可少,主名称节点总是能够读取检查点印象。(译注:那就是背后说的导入检查点)

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 0600 ~/.ssh/authorized_keys

不过,假如唯有2个银行,且坏了,我们能如何做?
在那种处境下,有多个专程的称呼节点运行方式,称为复苏情势,那几个形式恐怕让大家复苏超过1/3的数据。

  chmod 600
~/.ssh/authorized_keys  

6.DFSAdmin 命令

export HADOOP_YARN_HOME=$HADOOP_HOME

19.文本权限和安全

 

基于2.8.0文档

   
<description>副本个数,配置暗中认可是3,应低于datanode机器数量</description>

     http://bigdata.lzf:50070 能够看数据节点和文书

</property>

hdfs dfsadmin命令帮助部分hDFS管理。使用hdfs dfsadmin
-help能够看看dfsadmin的详细支持。

17/07/21 17:28:44 DEBUG util.NativeCodeLoader: Trying to load the
custom-built native-hadoop library…
17/07/21 17:28:44 DEBUG util.NativeCodeLoader: Loaded the native-hadoop
library
Starting namenodes on [bigdata.lzf]
bigdata.lzf: starting namenode, logging to
/home/hadoop/hadoop-2.8.0/logs/hadoop-hadoop-namenode-bigdata.lzf.out
bigdata.dn1.lzf: starting datanode, logging to
/home/hadoop/hadoop-2.8.0/logs/hadoop-hadoop-datanode-bigdata.dn1.lzf.out
bigdata.lzf: starting datanode, logging to
/home/hadoop/hadoop-2.8.0/logs/hadoop-hadoop-datanode-bigdata.lzf.out
Starting secondary namenodes [bigdata.dn1.lzf]
bigdata.dn1.lzf: starting secondarynamenode, logging to
/home/hadoop/hadoop-2.8.0/logs/hadoop-hadoop-secondarynamenode-bigdata.dn1.lzf.out
17/07/21 17:29:05 DEBUG util.NativeCodeLoader: Trying to load the
custom-built native-hadoop library…
17/07/21 17:29:05 DEBUG util.NativeCodeLoader: Loaded the native-hadoop
library

  1. 听新闻说参数dfs.namenode.name.dir的安装,创立1个空间的目录
  2. 规定dfs.namenode.checkpoint.dir设定的检查点路径
  3. 起步名称节点,大必须带上-importCheckpoint选项。

在2节点上实施

13.安全格局

  成功,则能够一而再了。

http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html#Balancer

    <value>/home/hadoop/data_hadoop/hdfs/name</value>

切切实实参考:http://www.cnblogs.com/lzfhope/p/7000456.html

2.搭建ha-hadoop集群

14.fsck-文件检查

       cd .ssh

客户端连接名称节点获得文件系统元数据仍然文件修改,然后和数据节点开始展览直接的文本i/o。

       cat id_rsa.pub_sl>> authorized_keys 

hadoop包蕴各种类shell命令,能够用来交互HDFS和hadoop帮忙的别的文件系统。

* <value>*</value>*

金榜题名地,大家会安顿八个元数据存储地点。然后,即便四个仓库储存点坏了,那么大家得以从任何存款和储蓄点读取。

查看

以下部分鲜明的特色对只怕然许多用户感兴趣:

</property>

当升级到3个新本子hdfs的时候,有必不可少删除在新版hdfs中保存的的途径(也得以重新命名).若是名称节点在晋级历程蒙受四个保留的门径,那么它会输入类似如下的错误信息:

6.相罹难点

通过rpc大概https(通过kerberos)获取令牌的工具,它们供给提供kerberos票。HDFS的fetchdt命令并非hadoop
shell命令(译注:同fsck一样,尽管说不是hadoop
shell命令,但大家一般都以那么职责的,只然而命令是以hdfs 起初).

 

 

 

假定编辑日志和影象文件的有着别的备份都不行(大概丢失),那么能够把新型的检查点导入到名称节点中。为了那样做,应当:

* <description>HDFS的ULX570I,文件系统://namenode标识:端口号,暗中认可是八千</description>*

dfs.namenode.checkpoint.period:暗中认可是1小时(单位是秒),设定了多个一而再检查点之间的最大延迟

[hadoop@bigdata sbin]$ ./start-dfs.sh

因为苏醒方式或然引致数据丢失,所以理应在实践前备份编辑日志和影象文件。

出于个中的主节点原来是负责了富有的角色,而且ip地址和水保的也不相同。

以后版本的HDFS会补助互联网利用协议,例如用户的kerberos授权和多少传输加密。详细的新闻加入权力教导
译注:用户的kerberos授权,好像很早版本就有了,是还是不是原作整理的时候没有核查?

export JAVA_HOME=/usr/local/jdk1.8.0_131

名称节点和数码节点都有运维内部的web服务器,它们能够体现关于当前集群状态的主导音信。

</property>

dfs.namenode.backup.address
和dfs.namenode.backup.http-address可以用于配置检查点(或许备份)节点的地点,包蕴http地址。

1.4 安装软件

HDFS fsck命令并不是hadoop shell命令。

        <description>用于管理节点,能够透过浏览器访问
</description>

dfs.namenode.checkpoint.txns:暗中认可是1百万(译注:单位是个),设定未检查的事务数,操作这么些数,就会触发检查点操作。

* <description>namenode上地点的hadoop一时半刻文件夹</description>*

不一致于古板文件系统的反省工具,那些命令并不勘误发现的错误。平常名称节点自动修改绝超过二分一能够恢复的难题。

bigdata.dn1.lzf

5.shell命令

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.8.0/etc/hadoop

12.机栈敏感
多少个HDFS集群能够分辨机栈拓扑(机栈–节点存放的地点)。为了优化数据的储存和利用,正确配置拓扑依旧很要紧的。

    <name>dfs.replication</name>

HDFS的多少或然并不一而再均匀分布在各种数据节点上。3个平淡无奇的原故是新节点的插手。

*  丰富以下内容:*

能够经过设定 -upgrade
-renameReserved来绕过上述难点。例如,如若想重新命名全数.snapshot的路子为.my-snapshot,用户能够如下操作:

* <value>/home/hadoop/data_hadoop/tmp</value>*

hdfs有1个称号节点。近年来数据节点上的可用内部存款和储蓄器是重庆大学的伸缩限制。在丰硕大的集群上,提高平均文件大小会提高集群的大小。暗中认可的配备或然不适用于那些大集群。FAQ
WIKI
提供了巨型集群的提出配置。

yarn-site.xml

用作hadoop的骨干,精晓hdfs是绝无仅有首要的工作。mr在很多小型的集群恐怕hadoop应用中,成效并不是十分大。在今日的硬件意况下,mr越发没有价值。

<property>

16.复苏格局

        <description>能源管理器节点名称 </description>

经过利用备份节点,就能够在在非持久设备上运营名称节点,并把状态的有始有终义务全体寄托给备份节点。为了达到那些目标,能够在开发银行名称节点的时候带上-importCheckpoint参数,同时dfs.namenode.edits.dir参数中能够设定1个非持久存款和储蓄目录。
为了能够周详研商创设备份节点和检查点节点背后的想法,请参阅
https://issues.apache.org/jira/browse/HADOOP-4539

*  <name>ipc.client.connect.retry.interval</name>*

正文的剩下部分都会假使用户能够配备并运转至少有一个数码节点的HDFS。假使名称节点和数量节点运转在单一机器也是能够的。

* <value>*</value>*

命令: hdfs namenode -recover

<property>

The NameNode will upload the checkpoint from the
dfs.namenode.checkpoint.dir directory and then save it to the NameNode
directory(s) set in dfs.namenode.name.dir. The NameNode will fail if a
legal image is contained in dfs.namenode.name.dir. The NameNode verifies
that the image in dfs.namenode.checkpoint.dir is consistent, but does
not modify it in any way.

*  <value>100</value>*

  1. 文件权限和授权
  2. 机栈敏感:在调度职务和分配存款和储蓄的时候,会考虑二个节点的物理地方。
  3. 安然形式(safemode):用于维护的可管理方式(译注:能够通过命令设置为那种情景)
  4. fsck:用于诊断文件系统的例行,查找丢失的文件恐怕块。
  5. fetchdt:用户获得委托令牌(?delegationToken),并把令牌存款和储蓄到地面文件系统
  6. 均衡器(balancer):均衡集群的工具
  7. 晋升和回滚:在软件升级之后,有或许回滚到升高以前的场地(若是有不行测的标题)
  8. 其次称呼节点:执行年限的名号空间检查点,并扶持名称节点中涵盖hdfs修改的日记文件保持在一定大小
  9. 检查点节点:执行名称空间定期的检查点,并帮忙名称节点中隐含HDFS变更日志的文书保持在细微状态。能够替代第一称号节点,纵然那不是威吓的。只要系统中从未备份节点,那么名称节点允许存在多个检查点节点。
  10. 备份节点:是检查点节点的扩大(升级)。除了能够做检查点,它也从名称节点接受编辑日志流,并在协调的内部存款和储蓄器中维护名称空间,这一个空间是和称号节点的称号空间同步的。只好有三个备份节点。

mkdir -p /home/hadoop/data_hadoop/tmp

3.前提

接下来能够在2,3上利用jps,分别能够看到以下内容 

本文翻译自:http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

http访问 

译注:hadoop也在不断升级中。

        <value>mapreduce_shuffle</value>

8.检查点节点

        <name>yarn.nodemanager.aux-services</name>

11.均衡器

   
<description>datanode上数据块的物理存款和储蓄地点</description>

若是不想被唤起,能够给出-force选项。那种状态下,即便有选取,程序也只会采用第1个项目。平时状态下,那说不定是最合情合理的抉择。

 

当存放新数据块的时候,名称节点考虑八个状态以便选取1个足以接受多少的数额节点,那个情状包括:

*  <description>连接间隔1分钟,暗中认可是0.1秒</description>*

9.备份节点

 

纵然有多少个目录,能够如下:

5.测试

hdfs允许管理员回退到更早的hadoop版本和升级前的意况。hdfs升级的故事情节在hadoop升级wiki页面有更详细的证实。

* <name>fs.defaultFS</name>*

/.reserved is a reserved path and .snapshot is a reserved path component in this version of HDFS. Please rollback and delete or rename this path, or upgrade with the -renameReserved [key-value pairs] option to automatically rename these paths during upgrade.

1.5 环境变量配置

下边简要描述热沟通磁盘进度:

* <name>fs.defaultFS</name>*

HDFS援助fetchdet命令,以便获取委托令牌,并把令牌存储在该半夏件系统。

</property>

例如http://bigdata.lzf:8099可以看集群配置文件

七个节点:

详见参考

50075 用户访问具体的数目节点

 

 

http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/SingleCluster.html

   b.至于使用rsa依然dsa看具体情状。

名称节点从检查点路径下载元数据到当地的dfs.namenode.name.dir,名称节点会检查影像文件的一致性,但不做任何修改。

 

    • 停下集群,并布置早版本的hadoop
    • 在称呼节点上推行hdfs namenode -rollback
    • 以回滚格局运营集群 sbin/start-dfs.sh -rollback

* <name>hadoop.proxyuser.hadoop.hosts</name>*

名称节点只扶助三个备份节点。备份节点和检查点节点是不共存的。明日会支撑同时选用三个备份节点(毫无疑问那是那几个有必不可少的,apache已经意识到了)
备份节点的铺排形式同检查点节点— hdfs namenode -backup.

<property>

数量节点协理热调换磁盘。用户能够添加或许更换磁盘,而不用闭馆数据节点。

    <value>2</value>

命令 bin/hdfs dfs -help列出hadoop shell援救的吩咐。其余,bin/hdfs -help
命令名称 能够来得越多的细节。

<property>

  1. 在写入数据块的节点上保留2个复制(译注:理所当然)
  2. 把部分复制放在分化机栈,幸免全部机栈失效的时候,数据不会丢掉
  3. 足足有四个复制在同3个机栈,那样能够减掉网络I/O
  4. 在集群数据节点之间均匀分布HDFS数据

  
a.就算有更加多的节点,操作时类似的,正是把全部的id_rsa.pub合并在联合,然后追加到主机的
authorized_keys ,最终把主机authorized_keys复制到各种节点上即可。

译注:这一个小节告诉大家,配置二个单机的时候,存款和储蓄数据的磁盘应该和操作系统磁盘有只怕的话,依旧分别。即一台总结机上极其有两块硬盘,而且最好帮衬热拔插。

<property>

HDFS一个时刻只可以有1个备份。在晋级在此以前,管理员须求移除现存的备份,命令是hdfs
dfsadmin -finalizeUpgrade.

 

访问 https://wiki.apache.org/hadoop/FAQ ,能够博得过多大概有利于的支援。

 

本文能够当做以下人士的入门指导:使用hdfs的用户,可能仅仅使用分布式文件系统的用户。纵然hdfs设计的指标是在七个环境中能够用,但至于Hdfs的行事规律依然很有助于配置和确诊特定集群。

*  <name>ipc.client.connect.max.retries</name>*

-upgrade -renameReserved .snapshot=.my-snapshot

始建目录

以下文书档案描述怎么着设置配置一个hadoop集群:

* <value>*</value>*

鉴于每趟节点只在开发银行的时候组成日志文件和印象文件,随着岁月的推移,日志文件就或许变得卓殊了不起。巨大文件的一个震慑是,下三遍名称节点运转的时候,会消耗越多日子。

当远在复苏形式的时候,名称节点以交互格局提醒大家输入一些音讯,做出一些选项。

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=DEBUG

名称节点运维的时候,首先至于安全格局,指标是反省复制景况,检查时期名称节点可读不可修改,那代表时期随意文件都不得修改。

 

20.可伸缩

<property>

17.升官和回滚
当升级三个集群的时候,也许会油但是生2个新的bug或然部分不般配现有软件的景况。在其余的正规化安装中,肯定是采纳尊敬数量,所以必须重启hdfs。

</property>

7.次之名称节点

hdfs-site.xml中改配置如下

鉴于那个存在必然互斥的设想,数据就或许不能够在节点见均匀分布。HDFS给管理员提供了2个工具,能够分析块的分布,并在挨家挨户数据节点之间重新均衡数据块。

<property>

能够通过8042,8099,50070端口访问,若是不改动暗中同意配置的话。

* <name>hadoop.proxyuser.hadoop.groups</name>*

这是因为数量恐怕差别,即使编辑日志操作实践三个机动改名的文书。

</property>

10.导入检查点

 

鉴于备份几点维持了八个内存中的名称空间备份,所以它对于内部存款和储蓄器的急需同名称节点。

 

译注:

比方有须要resourceManager也得以配备四个。

http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

 

调动为健康方式之后,会把有些尚无健康复制的数据块重新补充复制下。

接下来在节点3上实行:start-yarn.sh

4.web界面

<property>

其次名称节点上检查点进度的启航受到多个可配参数的决定:

译注: 或者以往的版本不须求如此了!

中有关名称节点部分剧情。

0.规划

译注:五个标准化之一满意就会接触检查点操作

* <name>hadoop.proxyuser.hadoop.hosts</name>*

hdfs balancer
          [-threshold <threshold>]
          [-policy <policy>]
          [-exclude [-f <hosts-file> | <comma-separated list
of hosts>]]
          [-include [-f <hosts-file> | <comma-separated list
of hosts>]]
          [-source [-f <hosts-file> | <comma-separated list
of hosts>]]
          [-blockpools <comma-separated list of blockpool
ids>]
          [-idleiterations <idleiterations>]

</property>

译注:由于那么些事物和第贰称号节点的机能类似,所以原来的书文的多方能够大致。

*  <value>10000</value>*

2.概述

mkdir -p   /home/hadoop/data_hadoop/hdfs/data

hdfs namenode -checkpoint  –运营物检疫查点节点

* <value>hdfs://bigdata.lzf:9001</value>*

那些命令帮忙类似普通文件系统绝大多数的操作,例如复制文件,修改权限,等等。hdfs也会支撑部分hdfs特定的操作,诸如修改文件复制。

        <value>bigdata.dn1.lzf</value>

名称节点使用当麻芋果件系统来记录文件系统的改动,那几个文件称为编辑日志。当名称节点运维的时候,会从印象文件(fsimage-本麻芋果件)获取状态,然后把编辑日志总的事务应用到影象文件中,然后生成新的印象文件,而现有的编撰日志被清空。

持续的研讨,包含:

HDFS是Hadoop应用的重庆大学分布式存款和储蓄。三个hDFS集群首要含有1个称谓节点(管理文件系统元数据)和一个多少个数据节点(存款和储蓄实际的数额)。HDFS框架辅导详细地叙述了HDFS。本教导主要描述有关用户交互和HDFS集群众管理理。HDFS框架图简要示意了名称节点,数据节点和客户端的并行。

core-site.xml

私下认可情状下,fsck会忽略打开的公文,但大家能够在履行那几个命令的时候经过选项决定是不是忽略打开的文书。

     

下边简要描述典型的提高过程:

4069 DataNode
4261 Jps
4167 SecondaryNameNode

 

</property>

令牌能够让用户从3个不安全的客户端访问安全的(secure)服务器(例如名称节点)。

<property>

第①名号节点的功效之一正是期限联合编辑日志和印象文件,以便日志文件的深浅保持在一个限度下。第②称谓节点经常运营在单身的机械上,因为它对内部存储器的要求同主名称节点一样。

   1.2.4 把2的authorized_keys复制到到3的/home/hadoop/.ssh/下

当通过工具得到令牌之后,就能够不须要kerberos票就足以运作hdfs命令,前提是设置HADOOP_TOKEN_FILE_LOCATION环境变量。HADOOP_TOKEN_FILE_LOCATION指向令牌的囤积地方。

 <description>汉兰达PC address that handles all clients
requests。有人说需求和fs.defaultFS 一样端口</description>

fsck专门检查各样文件的题材。例如块丢失,也许块复制不足。

</property>

倘使没有备份节点,那么能够设定多个检查点节点。

 

*  –为了权限,例如通过beeline之类的通过拜访*

只顾:3节点才是安顿为能源管理器节点的,所以只好从3起首,而不是从2

ip
部署的程序
备注
192.168.56.2/bigdata.lzf
namenode,datanode,NodeManager,hive,presto,mysql,hive-metastore,presto-cli
主节点
192.168.56.3/bigdata.dn1.lzf
secondarynode,resourceManager,NodeManager,hive,presto,presto-cli
资源管理节点

<property>

    <name> dfs.namenode.name.dir</name>

http://bigdata.lzf:50070/explorer.html\#/tmp  能够平昔访问
hdfs://bigdata.lzf:9001/tmp在的公文。

 <name>dfs.namenode.rpc-address</name>

  在2下执行ssh bigdata.dn1.lzf

</property>

    <name> dfs.datanode.data.dir</name>

 

</property>

hdfs namenode -format 

上传文件

slaves

2.2 .192.168.56.3  配置

<property>

hdfs-site.xml 

</property>

*  <description>默许11遍,未来布局九拾柒次</description>*

<property>

useradd hadoop -G hadoop

1.日增数据节点

 

</property>

 

<property>

    <description>namenode上囤积hdfs名字空间元数据
</description>

        <description>调度器类 </description>

* <name>hadoop.tmp.dir</name>*

*  <value>100</value>*

使用rsa的互通

export HADOOP_HOME=/home/hadoop/hadoop-2.8.0

 

 

 

<property>

 

</property>

 

4.2 启动yarn

 

<property>

17/07/24 11:44:04 INFO mapreduce.Job: Counters: 29
    File System Counters
        FILE: Number of bytes read=604458
        FILE: Number of bytes written=1252547
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
        HDFS: Number of bytes read=1519982
        HDFS: Number of bytes written=0
        HDFS: Number of read operations=12
        HDFS: Number of large read operations=0
        HDFS: Number of write operations=5
    Map-Reduce Framework
        Combine input records=0
        Combine output records=0
        Reduce input groups=0
        Reduce shuffle bytes=0
        Reduce input records=0
        Reduce output records=0
        Spilled Records=0
        Shuffled Maps =0
        Failed Shuffles=0
        Merged Map outputs=0
        GC time elapsed (ms)=0
        Total committed heap usage (bytes)=169222144
    Shuffle Errors
        BAD_ID=0
        CONNECTION=0
        IO_ERROR=0
        WRONG_LENGTH=0
        WRONG_MAP=0
        WRONG_REDUCE=0
    File Output Format Counters 
        Bytes Written=0

<property>

1.集体操作

    <value>/home/hadoop/data_hadoop/hdfs/data</value>

    <value>2</value>

* <value>hdfs://bigdata.lzf:9001</value>*

  注:

 

[hadoop@bigdata ~]$ hadoop fs -tail hdfs://bigdata.lzf:9001/tmp/start-dfs.sh
17/07/21 17:41:18 DEBUG util.NativeCodeLoader: Trying to load the custom-built native-hadoop library...
17/07/21 17:41:18 DEBUG util.NativeCodeLoader: Loaded the native-hadoop library
----------------------------------------
# quorumjournal nodes (if any)

SHARED_EDITS_DIR=$($HADOOP_PREFIX/bin/hdfs getconf -confKey dfs.namenode.shared.edits.dir 2>&-)

case "$SHARED_EDITS_DIR" in
qjournal://*)
  JOURNAL_NODES=$(echo "$SHARED_EDITS_DIR" | sed 's,qjournal://\([^/]*\)/.*,\1,g; s/;/ /g; s/:[0-9]*//g')
  echo "Starting journal nodes [$JOURNAL_NODES]"
  "$HADOOP_PREFIX/sbin/hadoop-daemons.sh" \
      --config "$HADOOP_CONF_DIR" \
      --hostnames "$JOURNAL_NODES" \
      --script "$bin/hdfs" start journalnode ;;
esac

#---------------------------------------------------------
# ZK Failover controllers, if auto-HA is enabled
AUTOHA_ENABLED=$($HADOOP_PREFIX/bin/hdfs getconf -confKey dfs.ha.automatic-failover.enabled)
if [ "$(echo "$AUTOHA_ENABLED" | tr A-Z a-z)" = "true" ]; then
  echo "Starting ZK Failover Controllers on NN hosts [$NAMENODES]"
  "$HADOOP_PREFIX/sbin/hadoop-daemons.sh" \
    --config "$HADOOP_CONF_DIR" \
    --hostnames "$NAMENODES" \
    --script "$bin/hdfs" start zkfc
fi

# eof

#resourceManager,nodemanager

export
PATH=$PATH:$HOME/.local/bin:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin


2.1 192.168.56.2   配置

* <description>HDFS的UOdysseyI,文件系统://namenode标识:端口号,私下认可是九千</description>*

<property>

 

        <name>yarn.resourcemanager.hostname</name>

6.1 ip地址变更的题材  

bigdata.dn1.lzf

<property>
 <name>dfs.namenode.http-address</name>
 <value>bigdata.lzf:50070</value>
 <description>
 The address and the base port where the dfs namenode web ui will listen
on.
 If the port is 0 then the server will start on a free port.
 </description>
</property>
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>bigdata.dn1.lzf:50090</value>
</property>

  在3下执行ssh bigdata.lzf

<property>

 

 <value>bigdata.lzf:9001</value>

 

[hadoop@bigdata sbin]$ hadoop fs -mkdir /tmp
17/07/21 17:33:03 DEBUG util.NativeCodeLoader: Trying to load the
custom-built native-hadoop library…
17/07/21 17:33:03 DEBUG util.NativeCodeLoader: Loaded the native-hadoop
library
[hadoop@bigdata sbin]$ hadoop fs -ls /
17/07/21 17:33:16 DEBUG util.NativeCodeLoader: Trying to load the
custom-built native-hadoop library…
17/07/21 17:33:16 DEBUG util.NativeCodeLoader: Loaded the native-hadoop
library
Found 1 items
drwxr-xr-x   – hadoop supergroup          0 2017-07-21 17:33 /tmp

   1.2.2 把3的id_rsa.pub 复制到 2的id_rsa.pub_sl

    <value>/home/hadoop/data_hadoop/hdfs/data</value>

 

core-site.xml

4.启动

* <value>/home/hadoop/data_hadoop/tmp</value>*

 

5620 Jps
5239 NameNode
5373 DataNode

 

 

</property>

rm -Rf   /home/hadoop/data_hadoop/hdfs/name
rm -Rf   /home/hadoop/data_hadoop/hdfs/data
rm -Rf   /home/hadoop/data_hadoop/hdfs/tmp
mkdir -p  /home/hadoop/data_hadoop/hdfs/name
mkdir -p   /home/hadoop/data_hadoop/hdfs/data
mkdir -p /home/hadoop/data_hadoop/tmp

#有三个节点

        <value>mapreduce_shuffle</value>

slaves

<property>

        
假诺在2上进行start-yarn.sh也足以运维yarn集群,但rm就是2,而不是3了。

<property>
 <name>dfs.namenode.http-address</name>
 <value>bigdata.lzf:50070</value>
 <description>
 The address and the base port where the dfs namenode web ui will listen
on.
 If the port is 0 then the server will start on a free port.
 </description>
</property>
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>bigdata.dn1.lzf:50090</value>
</property>

在/home/haoop下安装

* <value>*</value>*

  

3.搭建基于yarn的presto集群

</property>

之所以,只能手动删除掉

2.节点陈设

</property>

<property>

 

   
<description>datanode上数据块的大体存款和储蓄地点</description>

 

以hadoop身份实施

    <value>/home/hadoop/data_hadoop/hdfs/name</value>

 

       cd .ssh

</property>

6.2 区分namenode和secondarynamenode 的关键

*  <description>暗中同意拾一回,未来陈设一百遍</description>*

#只是用于nodemanager

*  <name>ipc.client.connect.max.retries</name>*

#有七个节点

<property>

*  <name>ipc.client.connect.retry.interval</name>*

 

 

1.2 设置ssh互通

yarn-site.xml

 

       ssh bigdata.dn1.lzf

        <value>bigdata.dn1.lzf:8042</value>

 <description>汉兰达PC address that handles all clients
requests。有人说须求和fs.defaultFS 一样端口</description>

<property>

       scp id_rsa.pub
hadoop@bigdata.lzf:~/.ssh/id_rsa.pub_sl

    <name> dfs.namenode.name.dir</name>

hadoop-2.8.0

http://bigdata.lzf:50075,http://bigdata.dn1.lzf:50075

bigdata.lzf

export HADOOP_MAPRED_HOME=$HADOOP_HOME

3.初始化

        <name>yarn.nodemanager.aux-services</name>

 

</property>

 

50070  默许是造访集群中的数据节点

        <value>bigdata.dn1.lzf:8099</value>

1.3 目录

 

 

hdfs-site.xml 

修改 etc/hadoop/log4j.properties 添加如下:

 

</property>

4.1启动dfs

   之后展开认证:

bigdata.lzf

</configuration>

hadoop 的 wordcount 测试

        <name>yarn.resourcemanager.scheduler.class</name>

 <name>dfs.namenode.rpc-address</name>

</property>

hive由于不设有主从的难点,尽管metastore也足以配备七个。

 

        <name>yarn.nodemanager.webapp.address</name>

</property>

 

   
<description>副本个数,配置暗中认可是3,应低于datanode机器数量</description>

</property>

不必要执行hdfs secondarynamenode -format

</property>

   1.2.1 分别在2,3机器上实施如下(hadoop用户下)

在主节点2行执行start-dfs.sh即可:

<property>
 <name>dfs.namenode.http-address</name>
 <value>bigdata.lzf:50070</value>
 <description>
 The address and the base port where the dfs namenode web ui will listen
on.
 If the port is 0 then the server will start on a free port.
 </description>
</property>
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>bigdata.dn1.lzf:50090</value>
</property> 

        <description>用于管理集群的能源,能够经过浏览器访问
</description>

*  <value>10000</value>*

* <name>hadoop.tmp.dir</name>*

    <description>namenode上囤积hdfs名字空间元数据
</description>

 

<configuration>

group add hadoop

*  –为了权限,例如通过beeline之类的经过访问*

        <name>yarn.resourcemanager.webapp.address</name>

 

</property>

<configuration>

hadoop jar
/home/hadoop/hadoop-2.8.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar
grep hdfs://bigdata.lzf:9001/tmp/hadoop-hadoop-namenode-bigdata.lzf.log 
output ‘(lzf)’

   1.2.3 把2的 id_rsa.pub_sl 追加都2的authorized_keys

*  丰盛以下内容:*

export HADOOP_PREFIX=$HADOOP_HOME

    <name>dfs.replication</name>

*  <description>连接间隔1分钟,暗许是0.1秒</description>*

 依据测试,输出的剧情会放在/user/hadoop/output目录下,事先不创立也没有关联。

1.1 创制用户

 <property>
   <name>yarn.resourcemanager.address</name>
   <value>bigdata.dn1.lzf:8032</value>
   <description>能源管理器地址</description>
 </property>

 

mkdir -p  /home/hadoop/data_hadoop/hdfs/name

 <value>bigdata.lzf:9001</value>

* <name>hadoop.proxyuser.hadoop.groups</name>*

  chmod 700 ~/.ssh

发表评论

电子邮件地址不会被公开。 必填项已用*标注