实时搜索: hadoop 几个datanode

hadoop 几个datanode

847条评论 1813人喜欢 1942次阅读 693人点赞
而且,现在没运行一次程序,就在datanode的日志中出现一次

运行比较大的文件,还会出现下面的情况:

急求高手帮忙!!灰常感谢~~~~~~~~~~~~~~~~~ , 格式化namenode,start-dfs.sh之后输入jps指令,可以看到SecondaryNmaeNode,JPS,NameNode,但是看不到datanode。进文件夹里发现datanode对应的文件夹是空的,而Namenode对应的文件夹里有生成current文件夹,文件夹里有一些文件,secondarynamenode里面也有,这是什么问题,我的hdfs-site.xml文件配置应...

配置hadoop的ganglia监控,为什么datanode节点的监控没有: Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。
  Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够通过一台服务端收集到它下属的所有客户端数据。这个体系设计表示一台服务器能够通过不同的分层能够管理上万台机器。这个功能是其他mrtg,nagios,cacti所不能比拟。转载,仅供参考。
  因为hadoop的支持问题,我们推荐安装ganglia3.0.3。

如何删除 hadoop spark 历史application: hadoop 添加删除datanode及tasktracker

首先:

建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。

1、删除datanode

修改namenode上的hdfs-site.xml

<property>
<name>dfs.hosts</name>
<value>/usr/local/hadoop/conf/datanode-allow-list</value>
</property>

<property>
<name>dfs.hosts.exclude</name>
<value>/usr/local/hadoop/conf/datanode-deny-list</value>
</property>

其中dfs.host列出了连入namenode的节点,如果为空,则所有的datanode都可以连入namenode。如果不为空,则文件中存在的datanode可以连入。
dfs.hosts.exclude列出了禁止连入namenode的节点。
如果一个节点同时存在于dfs.hosts和dfs.hosts.exclude,则禁止连入。

具体步骤

(1)将要删除的datanode加入到dfs.hosts.exclude指定的文件中。(最好使用主机名,IP有时可能不生效)

(2)动态刷新配置,不需要重启namenode

hadoop dfsadmin -refreshNodes

(3)通过hadoop dfsadmin -report或webui,可以看到,该datanode的状态为Decommissioning

(4)等待一段时间,该节点为dead状态。

(5)删除dfs.hosts文件中该节点 即下架目标机器后,再次编辑dfs.hosts.exclude,把刚才下架的机器的ip或机器名移走

(6)

hadoop dfsadmin -refreshNodes

注:按照上面的操作后,如果你想要重新启用该节点为datanode,从dfs.hosts.exclude中删除该节点,refreshNodes,然后,到该节点上,重启启动该datanode:

/usr/local/hadoop/bin/hadoop-daemon.sh stop datanode
/usr/local/hadoop/bin/hadoop-daemon.sh start datanode

注:正确的删除datanode的方法应该是按照上面的方法,使用exclude文件,而不应该直接去datanode上去sotp datanode,这样会造出数据丢失,而且stop以后,webui和hadoop dfsadmin -report都仍然显示该datanode节点。除非重新启动namenode。
之所以重新启用exclude的节点时可以stop datanode,因为此时该datanode不包含在cluster中,所以,stop后不会造成数据丢失。

2、添加datanode
如果存在dfs.hosts文件,且不为空,则添加新的datanode到该文件中,refreshNodes。
到新节点上,启动即可

/usr/local/hadoop/bin/hadoop-daemon.sh start datanode

如果不存在dfs.hosts文件,或文件为空,直接启动新节点即可。

3、删除tasktracker
原理和步骤与删除datanode一样。
<property>
<name>mapred.hosts</name>
<value>/usr/local/hadoop/conf/tasktracker-allow-list</value>
</property>

<property>
<name>mapred.hosts.exclude</name>
<value>/usr/local/hadoop/conf/tasktracker-deny-list</value>
</property>

动态刷新配置的命令为:
hadoop mradmin -refreshNodes
立刻生效,可以在webui中看到,nodes节点数量的变化,以及Excluded Nodes节点的变化。
具体的步骤参考上面的删除datanode的步骤

注:按照上面的操作后,如果你想要重新启用该节点为tasktracker,从mapred.hosts.exclude中删除该节点,refreshNodes,然后,到该节点上,重启启动该tasktracker:

/usr/local/hadoop/bin/hadoop-daemon.sh stop tasktracker
/usr/local/hadoop/bin/hadoop-daemon.sh start tasktracker

注:正确的删除tasktracker的方法应该是按照上面的方法,使用exclude文件,而不应该直接去tasktracker上去sotp tasktracker,这样会造成job失败,而且stop以后,webui上仍然显示该tasktracker节点。除非重新启动jobtracker。

我遇到的一个问题:
在exclude文件中,我使用了IP,发现tasktracker仍然参与计算。
在webui中发现,Excluded Nodes中存在该IP,Nodes中仍然存在该tasktracker的hostname。
解决的办法就是,在exclude中使用hostname而不使用IP。
判断是否真正生效:如果exclued文件中正确的填写了要失效的node,则总得nodes数量应该减小。

4、添加tasktracker
如果存在mapred.hosts文件,且不为空,则添加新的tasktracker到该文件中,refreshNodes。
到新节点上,启动即可

/usr/local/hadoop/bin/hadoop-daemon.sh start tasktracker

如果不存在mapred.hosts文件,或文件为空,直接启动新节点即可。

6、添加或删除datanode后,平衡磁盘利用率
运行bin/start-balancer.sh,这个会很耗时间
备注:
如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低mr的工作效率;

/usr/local/hadoop/bin/start-balancer.sh -threshold 0.1
7下架目标机器后,再次编辑mapred.hosts.exclude,把刚才下架的机器的ip或机器名移走

threshold 是平衡阈值,默认是10%,值越低各节点越平衡,但消耗时间也更长。
balancer也可以在有mr job的cluster上运行,默认dfs.balance.bandwidthPerSec很低,为1M/s。在没有mr job时,可以提高该设置加快负载均衡时间。
在namenode的hdfs-site.xml中增加设置balance的带宽,默认只有1M:

<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>10485760</value><description>Specifies themaximum bandwidth that each datanode can utilize for the balancing purpose interm of the number of bytes per second.</description>
</property>

hadoop启动datanode在克隆里没有: ,就当是抛砖引玉了。
相信楼主知道,hadoop的文件系统叫做hdfs,就是hadoop分布式分布式文件系统的中文简写。这个系统是对google的gfs的开源实现。下面来回答问题。
首先是节点故障:
google在他们那篇gfs的论文中说,google在使用gfs曾说过,google在使用gfs时遇到过各种各样的问题,主要有:应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效。在一个大型的系统中,硬盘内存等等组件的老化,过度使用(因为数据读写非常频繁)等问题也是不容忽视的。hadoop的hdfs是需要考虑这些问题的。
然后是备份恢复的处理:
备份恢复因为我没有做过,不过我可以提供给楼主一个方法实验。
楼主可以先搭建一个只有3台datanode的小集群,设置数据备份为2。首先清空已有数据,然后在其中一台datanode上上传数据,默认时,hadoop是会在上传数据的datanode存入一个数据备份的。然后在down掉这台datanode,这样,你就少了一个数据备份,之后,你在另一台机器上读取数据,这时,你可以查看剩下的两台datanode中的dfs文件夹(也就是你存储hdfs数据的文件夹),打开其中block开头的文件看,这时应该就可以看到两台机器都有备份了。(推测)
根据gfs的论文,hadoop应该在数据被再次使用时进行检查,如果发现少了一个备份,会进行数据恢复工作。另一个时间是,机器空闲时会在后台监测数据备份情况。也就是说,数据恢复是自动,这也是hadoop的强大之处嘛。
至于namenode的恢复,没有处理过类似的问题,不过猜想和secondary namenode 有关,应该是将secondary namenode 存储的数据copy到namenode上,或是直接将secondary namenode 变成namenode 。
至于节点问题,down的节点经过恢复后,可以直接链接进入hadoop集群,而不用重新启动集群。命令是
bin/hadoop-daemon.sh start datanode

hadoop nfs gateway 可以在datanode吗: 含义解读:
1)hadoop.proxyuser.hadoop.groups:第二个和执行Hadoop的用户名一致,本测试用的名称为Hadoop。
2)hadoop.proxyuser.hadoop.hosts:第二个和执行Hadoop的用户名一致,本测试用的名称为Hadoop。

启动hadoop完全分布式,在datanode日志中出现下面错误,求高手指点!!准备答辩了,急~~!!: 看信息像是hadoop版本跟namenode不一致,你的datanode和namenode的hadoop安装包一致吗

顺便说下楼上是在逗比吗 ip比主机名更好些

Hadoop2.7.5伪分布式datanode不能启动: 在 /usr/local/hadoop/ 下面启动,找到是/opt/Hadoop/下面的hadoop安装包,是不是HADOOP_HOME环境变量配置的有问题。

namenode 和 datanode 上hadoop的目录结构一定要一样吗: 作为hadoop软件核心功能的本身是要求所有机器是一样的,hdfs上的目录是全局统一的。当然登录的用户也要求一样的。目录hadoop主要是运行在同构的集群中,对异构环境支持并不好,所以结论是所有环境尽可能一致。

伪分布式hadoop能否添加datanode: 是添加一个datanode节点吗? 如果你之前是伪分布式的话,这个datanode节点可不能还是在这一台机器上,一台机器只能设置一个datanode。 添加一个datanode节点在salves文件下添加上这个节点的ip或者主机名,然后到新加的datanode主机下启动datanode进程就可以了。具体可以参考该文章:
http://blog.csdn.net/kongxx/article/details/6896230

  • 昆明在哪办暂住证

    问个菜鸟问题,davince调色里的pivot是啥意思?: 应该先看看色彩理论的书,还有davinci的官方说明书 查看原帖>> ...

    434条评论 1149人喜欢 6010次阅读 750人点赞
  • mc怎么去

    Ki yo pu da是什么意思呀: 吉普普达翻译过来 ...

    610条评论 4323人喜欢 3815次阅读 902人点赞
  • ipad pro有哪些型号

    红枣泥辅食怎么去枣皮: 宝宝吃的红枣泥用料 大红枣 适量 温水 适量 宝宝辅食--红枣泥的做法 取适量大红枣,洗干净之后放在蒸锅中蒸30分钟。我用了大概30多颗枣,取决于自己想做多少枣泥。蒸好后放入冷水中过一遍,...

    647条评论 1660人喜欢 6208次阅读 852人点赞
  • max绑定几个账号

    宝宝不爱吃南瓜泥,可以跳过这个辅食给他吃其它的饿吗: 您好,可以给宝宝吃胡萝卜泥、蔬菜泥、水果泥等等哦,营养都是可以均衡补充的。 ...

    819条评论 2070人喜欢 5293次阅读 480人点赞
  • hsv治疗需要多少钱

    关于电吉他?(请直接回答问题,别抒发感想。): Ibanez RG470(含470DX 470BK)Ibanez出品的RG470电吉他 官方主页:http://www.ibanez.com/特色/特点:8.6音质:8.3手感/安装/完成度:8.4...

    236条评论 4419人喜欢 6325次阅读 945人点赞
  • ed是什么

    德语 Wer ist denn die Frau da?中的da是什么意思: da 有很多意思 这里应该指 “那边,那个” 就是那边那个女的到底是谁 ...

    754条评论 6517人喜欢 3049次阅读 313人点赞
  • m码的衣服是多少

    雅迪电动车电机16W7247312Y64DA17661C30H是什么意思: 这个应该是厂家的电机编号。例如16,估计是标识某个电机厂。W应该是无刷电机的意思。后面的72估计是指电压。之后的就是流水号跟年月日了,这个得看厂家怎么编码的。最后的30H表示这个电机磁钢是30mm。 ...

    386条评论 2670人喜欢 3619次阅读 663人点赞