注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

和申的个人主页

专注于java开发,1985wanggang

 
 
 

日志

 
 

整理的一些关于nutch分布式的配置  

2010-10-24 21:20:14|  分类: java分布 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

首先需要新建filesystem文件夹  mkdir filesystem

 在nutch的conf里面找到hadoop-env.sh进行编辑:

export HADOOP_HOME=home/admin5/nutch
export JAVA_HOME=/home/admin5/usr/java/jdk1.5.0_06  //根据具体的环境进行设置
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves
 设置ssh免密码验证 ssh-keygen -t rsa

 cd /home/.ssh
cp id_rsa.pub authorized_keys

scp /home/.ssh/authorized_keys nutch@admin5 :/home/.ssh/authorized_keys

把nutchbin目录下的所有文件权限改成777

bin/nutch
bin/hadoop
bin/hadoop dfs

执行上面的三个命令,测试配置是否正确

配置hadoop-site.xml 文件确定主机端口号及存储的位置

bin/hadoop namenode -format  节点的格式化

bin/start-all.sh  启动所有的服务

bin/stop-all.sh 停止所有的服务

bin/hadoop dfs -put urls urls  把url放进dfs系统中

bin/hadoop dfs -rmr urls  删除dfs中的文件

bin/hadoop dfs -ls 可以使用此命令查看dfs

之后就可以使用crawl 进行抓取了

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/zfrong/archive/2009/12/24/5069053.aspx

  评论这张
 
阅读(741)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016