| « | November 2025 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | | | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:111 评论数量:190 留言数量:-24 访问次数:642606 建立时间:2007年4月21日 |

| |
|
[搜索引擎]Nutch0.9配置笔记  原创空间, 软件技术, 电脑与网络, 科学研究
赵勇 发表于 2007/8/16 15:10:57 |
| 配置环境:Debian 4 (kernel 2.4)
配置软件:1, Java jdk-1.51,1 下载安装
apt-get install sun-java5-jdk1,2 修改环境变量
vi /etc/profile
在末尾加上
QUOTE:
JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
export PATH
export JAVA_HOME
export CLASSPATH
1,3 测试
java -version2, tomcat-5.52,1 下载
from:
http://tomcat.apache.org/
wget
http://mirror.olnevhost.net/pub/
... omcat-5.5.23.tar.gz2,2 在/opt目录下解压(顺便哪都行,放到/opt下比较整齐)
安装目录:/opt/tomcat5.52,3 修改配置
vi conf/server.xml
QUOTE:
<!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
<Connector port="8080"
maxHttpHeaderSize="8192"
maxThreads="150"
minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
c
disableUploadTimeout="true"
URIEncoding="UTF-8"
useBodyEncodingForURI="true" />
默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色)
如果配置后nutch出现中文乱码问题,则增加编码配置(红色)2,4 启动服务
/opt/tomcat5.5/bin/startup.sh2,5 题外话
Debian下可通过 apt-get install tomcat5.5 来安装,
默认安装后路径为 /usr/share/tomcat5.5
并且增加到服务 /etc/init.d/tomcat5.5
注意,此时webapps目录并不在安装路径,而在/var/lib/tomcat5.5/webapps/
初始时该目录并无内容,所以访问时会出现 http 400 错误的请求,只需在该路径放置web应用就可。
(在使用这种方式安装tomcat后,nutch老是没法运行,改成上面的安装就可以,不知是什么问题)3, nutch-0.93,1 下载
http://lucene.apache.org/nutch/3,2 解压后,建立目录,建 urls/nutch.txt文件,指定爬取列表
mkdir urls
vi urls/nutch.txt
写入要爬取的网站,这里实验南开bbs
QUOTE:
http://bbs.nankai.edu.cn
3,3 指定爬虫规则
vi conf/crawl-urlfilter.txt
QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
把这里改成你要的域名
如
+^http://bbs.nankai.edu.cn/
如果爬取网站的url含有以下过滤字符,如 ? 和 = ,而你又需要这些访问,可以更改过滤表
QUOTE:
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
改为
-[*!@]3,4 修改 conf/nutch-site.xml
QUOTE:
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。3.5 开始爬取
可以指定不同的抓去深度,线程数,
bin/nutch crawl urls -dir NKBBS -depth 50 -threads 5 -topN 1000
爬取索引完成后,结果生成在设定的目录中,这里是NKBBS3,6 部署web前端
将 nutch-0.9.war 拷贝到webapps目录下
cp nutch-0.9.war /opt/tomcat5.5/webapps/
通过浏览器访问
http://localhost:8080/nutch-0.9/
后,war包自解压。3,7 修改nutch的web配置
vi /opt/tomcat5.5/webapps/nutch-0.9/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value>
</property>
</nutch-conf>
|
|
|
回复:Nutch0.9配置笔记 原创空间, 软件技术, 电脑与网络, 科学研究
alexwan(游客)发表评论于2009/2/23 15:37:42 |
| 按照博主的思路最后的配置文件应该是这样的
<configuration>
<property> <name>searcher.dir</name> <value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value> </property>
</configuration> |
|
» 1 »
|