注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

和申的个人主页

专注于java开发,1985wanggang

 
 
 

日志

 
 

nutch爬虫学习笔记  

2010-08-29 23:11:13|  分类: 搜索 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

建立索引
CLASSPATH=.;D:\java\lucene\lucene-demos-2.3.0.jar;D:\java\lucene\lucene-core-2.3.0.jar

>java org.apache.lucene.demo.IndexHTML -create -index "F:\64\apache-tomcat-6.0.29-windows-x64\apache-tomcat-

6.0.29\webapps\luceneweb\index" "F:\64\apache-tomcat-6.0.29-windows-x64\apache-tomcat-6.0.29\webapps\luceneweb

\docs"

cygwin
www.cygwin.com/setup.exe
cygwin>bin/nutch
parse-mp3/lib,parse-rtf/lib由于license  不兼容,需单独下载

nutch 网络爬虫
admin 用来创建一个新的Web数据库。建成的数据包含目录和数据存储结构,初始数据状态为空,需要后续命令来填充内容。其中的

url数据库,用来存放相关信息。
inject 添加数据下载的入口链接。首先读取给定的纯文本格式文件,获取URL列表,作为入口地址添加到已有的WEB数据库中。
generate 生成待下载URL列表。按照Web数据库格式提取未下载的url,以fetchlist形式给出,为下载做好准备。
fetch 按照http协议访问互联网,获取网页数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。
updatedb 用来添加网页下一层链接的url。从已经下载文件中获取url链接,更新web数据库,添加到已有的web数据库。
下载后的数据存储主要以目录文件形式存放。具体内容包括web数据库,数据段和数据索引。

-----------------------------------------
weburls.txt------------------
http://localhost:8888/index.html

----------------------------------------------------------
conf/crawl-urlfilter.txt---------------

 

# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://localhost:8888/
-------------------------------------------------
conf/nutch-site.xml----------------------------------

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
 <name>http.agent.name</name>
 <value>localweb.com</value>
 <description>localweb.com</description>
</property>
</configuration>
--------------------------
$ bin/nutch crawl weburls.txt -dir localweb -depth 3 -topN 100 -threads 1
-------------------------------------
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&下载多个网站
######################################################################
multiurls.txt-------------------------
http://auto.sina.com.cn
http://www.xcar.com.cn/
http://auto.sohu.com/
http://car.autohome.com.cn/
http://www.pcauto.com.cn/
http://www.cheshi.com/
http://www.chinacars.com/

-----------------------------------------------------
crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
#+^http://localhost:8888/
+^   //默认允许所有网站的链接
---------------------------------------------------------
 bin/nutch crawl multiurls.txt -dir multiweb -depth 2 -topN 100 -threads 5
---------
crawl started in: multiweb
rootUrlDir = multiurls.txt
threads = 5
depth = 2
indexer=lucene
topN = 100
Injector: starting
Injector: crawlDb: multiweb/crawldb
Injector: urlDir: multiurls.txt
Injector: Converting injected urls to crawl db entries.

###################################################
###搜索
nutch-site.xml-------------

<configuration>
<property>
 <name>http.agent.name</name>
 <value>localweb.com</value>
 <description>localweb.com</description>
</property>
<!-- file properties -->
<property>
 <name>searcher.dir</name>
 <value>D:\java\apache-nutch-1.1-bin\multiweb</value>
 <description></description>
</property>
</configuration>
---------------------------------------

$ bin/nutch org.apache.nutch.searcher.NutchBean SUV
------------------------
Total hits: 62
 0 20100829212407/http://auto.sina.com.cn/suv/
 ... 别查询 国产SUV 进口SUV 全部SUV车型>> 狮跑 CR ... 是SUV ...
 1 20100829212338/http://auto.sina.com.cn/
 ... 购 图解 谍报 SUV 用车 ??油耗 交 ... 豪华型车 MPV SUV 跑车 选择子 ...
 2 20100829212338/http://auto.sohu.com/
 ... 动轿车/跑车 SUV/越野车 MPV/厢 ... 车 MPV商务车 SUV越野车 跑车 ...
 3 20100829212338/http://www.cheshi.com/
 ... 片 论坛 更多 SUV及其它 吉姆 ... 片 论坛 更多 SUV及其它 途胜 ...
 4 20100829212338/http://www.chinacars.com/
 ... 诺基 Q - 庆铃SUV Q - 丘比特 R ... 天籁 T - 天马SUV T - 天马英雄 ...
 5 20100829212338/http://www.xcar.com.cn/
 ... 型车 豪华车 SUV MPV 跑车 5万 ...
 6 20100829212407/http://news.cheshi.com/
 ... 光 · 华晨将推SUV车型 全新家 ... 全新经济型SUV 广州车展上 ...
 7 20100829212407/http://info.xcar.com.cn/
 ... 27日 ??跨界!SUV!小钢炮! 9月 ... 27日 ??跨界!SUV!小钢炮! 9月 ...
 8 20100829212407/http://price.pcauto.com.cn/cars/
 ... 三厢轿车 (2494) SUV/CRV/CUV (1262) 两厢 ... 车 MPV商务车 SUV越野车 跑车 ...
#############################################################
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&Nutch互联网抓取


############下载列表获取
dmozparser工具提供对开放式互联网DMOZ目录库的支持。
使用DmozParser工具可以从文件中随机抽取部分数据,生成列表
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 3000 > dmozurls
############下载大量网站
1:nutch下 新建vipcrawl目录
2:复制vipurls.txt文件(互联网网站大全或网站排行榜url)
bin/nutch inject vipcrawl/crawldb vipurls.txt
3:修改conf/nutch-site.xml
设置http.agent.name属性
<property>
<name>http.agent.name</name>
<value>bookagent</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
</description>
</property>
4:利用crawldb中已经注入的url列表,调用generate命令创建一个新的数据段,存放到vipcrawl目录下。
$ bin/nutch generate vipcrawl/crawldb vipcrawl/segments
Generator: Selecting best-scoring urls due for fetch.
Generator: starting
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: vipcrawl/segments/20100829222950
Generator: done.
5:查看segments上目录下最新生成的文件夹。修改命令中的目录参数,根据文件夹下生成的下载列表获取页面内容
例如:目录20100829222950  20100829223320 bin/nutch fetch vipcrawl/segments/20100829225206
bin/nutch fetch vipcrawl/segments/20100829222950   
6:从已经下载的段数据列表里获取url链接,更新crawldb库里的内容。
bin/nutch updatedb vipcrawl/crawldb vipcrawl/segments/20100829222950

7:循环调用4,5,6下载页面,直到crawldb的列表完成或者全部达到网页深度。
此处的深度控制通过循环次数来控制。
8:调用analyze命令分析已经下载网页的内容
bin/nutch updatedb vipcrawl/crawldb vipcrawl/segments/20100818
bin/nutch analyze ...
9:根据webdb内容,修改分段的权值和外部链接
bin/nutch updatesegs
10:索引页面内容
bin/nutch index

#########################
网页内容形式检索
部署nutch-09.war至tomcat
修改Web-inf/classes下的nutch-site.xml
nutch-site.xml-------------

<configuration>
<property>
 <name>http.agent.name</name>
 <value>localweb.com</value>
 <description>localweb.com</description>
</property>
<!-- file properties -->
<property>
 <name>searcher.dir</name>
 <value>D:\java\apache-nutch-1.1-bin\multiweb</value>
 <description></description>
</property>
</configuration>
------------
通过Web检索
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&】
admin命令:net.nutch.tools.WebDBAdminTool
inject : net.nutch.db.WebDBInjector
generate: net.nutch.tools.FetchListTool
fetch: net.nutch.fetcher.Fetcher
updatedb: net.nutch.tools.UpdateDatabaseTool
analyze : net.nutch.tools.LinkAnalysisTool

  评论这张
 
阅读(1521)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016