本站首页    管理页面    写新日志    退出


«November 2025»
1
2345678
9101112131415
16171819202122
23242526272829
30


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:
日志总数:111
评论数量:190
留言数量:-24
访问次数:642606
建立时间:2007年4月21日




[搜索引擎]Nutch0.9配置笔记 
原创空间,  软件技术,  电脑与网络,  科学研究

赵勇 发表于 2007/8/16 15:10:57

 配置环境:Debian 4 (kernel 2.4) 配置软件:1,  Java jdk-1.51,1 下载安装 apt-get install sun-java5-jdk1,2 修改环境变量 vi /etc/profile 在末尾加上 QUOTE: JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10 CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin export PATH export JAVA_HOME export CLASSPATH 1,3 测试 java -version2,  tomcat-5.52,1 下载 from: http://tomcat.apache.org/ wget http://mirror.olnevhost.net/pub/ ... omcat-5.5.23.tar.gz2,2 在/opt目录下解压(顺便哪都行,放到/opt下比较整齐) 安装目录:/opt/tomcat5.52,3 修改配置 vi conf/server.xml QUOTE:   <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->     <Connector port="8080" maxHttpHeaderSize="8192"             maxThreads="150" minSpareThreads="25" maxSpareThreads="75"                enableLookups="false" redirectPort="8443" acceptCount="100"                c disableUploadTimeout="true"                URIEncoding="UTF-8" useBodyEncodingForURI="true" />    默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色) 如果配置后nutch出现中文乱码问题,则增加编码配置(红色)2,4 启动服务 /opt/tomcat5.5/bin/startup.sh2,5 题外话 Debian下可通过 apt-get install tomcat5.5 来安装, 默认安装后路径为 /usr/share/tomcat5.5 并且增加到服务 /etc/init.d/tomcat5.5 注意,此时webapps目录并不在安装路径,而在/var/lib/tomcat5.5/webapps/ 初始时该目录并无内容,所以访问时会出现 http 400 错误的请求,只需在该路径放置web应用就可。 (在使用这种方式安装tomcat后,nutch老是没法运行,改成上面的安装就可以,不知是什么问题)3,  nutch-0.93,1 下载 http://lucene.apache.org/nutch/3,2  解压后,建立目录,建 urls/nutch.txt文件,指定爬取列表 mkdir urls vi urls/nutch.txt 写入要爬取的网站,这里实验南开bbs QUOTE: http://bbs.nankai.edu.cn 3,3  指定爬虫规则 vi conf/crawl-urlfilter.txt QUOTE: # accept hosts in MY.DOMAIN.NAME #+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 把这里改成你要的域名 如 +^http://bbs.nankai.edu.cn/ 如果爬取网站的url含有以下过滤字符,如 ? 和 = ,而你又需要这些访问,可以更改过滤表 QUOTE: # skip URLs containing certain characters as probable queries, etc. -[?*!@=] 改为 -[*!@]3,4 修改 conf/nutch-site.xml QUOTE: <configuration>         <property>                 <name>http.agent.name</name>                 <value>HD nutch agent</value>         </property>         <property>                 <name>http.agent.version</name>                 <value>1.0</value>         </property> </configuration> 如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。3.5 开始爬取 可以指定不同的抓去深度,线程数, bin/nutch crawl urls -dir NKBBS -depth 50 -threads 5 -topN 1000 爬取索引完成后,结果生成在设定的目录中,这里是NKBBS3,6 部署web前端 将 nutch-0.9.war 拷贝到webapps目录下 cp nutch-0.9.war /opt/tomcat5.5/webapps/ 通过浏览器访问 http://localhost:8080/nutch-0.9/ 后,war包自解压。3,7 修改nutch的web配置 vi /opt/tomcat5.5/webapps/nutch-0.9/WEB-INF/classes/nutch-site.xml 将内容更改为索引生成的目录。 QUOTE: <nutch-conf>         <property>                 <name>searcher.dir</name>                 <value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value>         </property> </nutch-conf>


阅读全文(8091) | 回复(2) | 编辑 | 精华
 


回复:Nutch0.9配置笔记
原创空间,  软件技术,  电脑与网络,  科学研究

alexwan(游客)发表评论于2009/2/23 15:37:42

按照博主的思路最后的配置文件应该是这样的 <configuration>         <property>                <name>searcher.dir</name>                <value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value>        </property> </configuration>


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:Nutch0.9配置笔记
原创空间,  软件技术,  电脑与网络,  科学研究

han(游客)发表评论于2007/11/22 15:31:42

很全面啊..顶

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 2.578 second(s), page refreshed 144794451 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号