| « | November 2025 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | | | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:111 评论数量:190 留言数量:-24 访问次数:642598 建立时间:2007年4月21日 |

| |
|
[搜索引擎]Heritri学习 软件技术, 科学研究
赵勇 发表于 2007/6/10 15:59:43 |
|
Heritix是一款使用纯java语言开发的、功能强大的网络爬虫,用户可以使用它从网络抓取想要的资源。它来自于www.archive.org
Heritix的优点是功能极其强大、可扩展性好、且文档丰富,缺点是配置较为复杂,且源代码不好理解。
目前最新版为1.12.1(2007-05-06发布)
主页: http://crawler.archive.org/
下载: http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980
用户手册: http://crawler.archive.org/articles/user_manual/index.html
Java文档: http://crawler.archive.org/apidocs/index.html
对Heritix的学习记录:
1.1 安装和配置Heritrix
1.2 抓取搜狐新闻
1.3 抓取太平洋手机网
1.4 抓取网易手机频道
1.5 抓取清华大学 |
|
|
回复:Heritri学习 软件技术, 科学研究
搜索爱好者(游客)发表评论于2008/11/23 21:03:15 |
|
|
Changing Heritrix Port 软件技术, 科学研究
赵勇发表评论于2007/6/13 12:07:36 |
| By default, Heritrix starts on port 8080. If the default port is not acceptable, it can be changed by editing the heritrix.cmdline.port property in $HERITRIX_HOME/conf/heritrix.properties. |
|
|
Heritix安装 软件技术, 科学研究
赵勇发表评论于2007/6/10 18:12:45 |
|
Linux安装:http://crawler.archive.org/articles/user_manual/install.html
windows下安装:http://www.cip.ifi.lmu.de/~schoefma/howto/run_heritrix_on_windows/
heritirx博客:http://wa.archive.org/blog/category/heritrix/
康奈尔大学关于heritrix的实践:
http://weblab.tc.cornell.edu/tools_amazon/heritrixweblab_docs.aspx |
|
» 1 »
|