« | September 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | |
| 公告 |
暂无公告... |
Blog信息 |
blog名称: 日志总数:111 评论数量:190 留言数量:-24 访问次数:639265 建立时间:2007年4月21日 |

| |
[搜索引擎]垂直搜索,可以燎原【转载】 网上资源, 软件技术, 电脑与网络
赵勇 发表于 2008/1/15 14:10:38 |
垂直搜索,可以燎原 http://blog.sina.com.cn/tliu7221
刘挺
哈尔滨工业大学信息检索研究室
2007年12月27日
在百度、谷歌称雄的搜索时代,不愿臣服的草莽英雄们揭竿而起,他们的旗帜五色杂陈,但都印着四个大字——“垂直搜索”。他们呼朋引类,啸聚山林,在生活、
旅游、职位、汽车等各个领域割据自立,不断地蚕食着通用搜索的领地。这,究竟是一场怎样的大戏?是史诗,还是闹剧,是燎原星火,还是一现昙花。网络上,充
斥着各种各样的说法,肯定者称垂直搜索“渐成主流需求”,“是重大机遇”,“已成为搜索市场的第三极”,否定者说垂直搜索“不靠谱”,“是忽悠人的伪概
念”,“是注定被扼杀的幼苗”等等。这些言论中不乏客观的评论,但更多的是传舌,是炒作,是枪文,弄得旁观者云里雾里,弄得投资人观望犹疑。
要看清垂直搜索未来的方向,我们先逐一分 |
|
[搜索引擎]Nutch0.9配置笔记  原创空间, 软件技术, 电脑与网络, 科学研究
赵勇 发表于 2007/8/16 15:10:57 |
配置环境:Debian 4 (kernel 2.4)
配置软件: 1, Java jdk-1.5 1,1 下载安装
apt-get install sun-java5-jdk
1,2 修改环境变量
vi /etc/profile
在末尾加上
QUOTE:
JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.ja |
|
[搜索引擎]Heritri学习 软件技术, 科学研究
赵勇 发表于 2007/6/10 15:59:43 |
Heritix是一款使用纯java语言开发的、功能强大的网络爬虫,用户可以使用它从网络抓取想要的资源。它来自于www.archive.org
Heritix的优点是功能极其强大、可扩展性好、且文档丰富,缺点是配置较为复杂,且源代码不好理解。
目前最新版为1.12.1(2007-05-06发布)
主页: |
|
[搜索引擎]nutch重要学习资料 网上资源, 电脑与网络
赵勇 发表于 2007/5/22 10:21:25 |
nutch官方网站:http://lucene.apache.org/nutch/
nutch中文论坛:http://www.nutchchina.com/bbs/index.php
由于nutch是架构在lucene上的,所以学习nutch最好对lucene有所了解:
lucene官方网站: |
|
[搜索引擎]开源搜索引擎列表  网上资源, 电脑与网络
赵勇 发表于 2007/5/22 10:13:52 |
开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。
搜索引擎的工作流程主要分为三步:从互联网抓取网页→创建抓取网页的索引库→从索引库中进行搜索。
首先需要一个能访问网络的爬虫器程序,依据URL之间的关联性自动爬行整个互联网,并对爬行过的网页进行抓取收集。当网页被收集回来后,采用索引分析程序进行网页信息的分析,依据一定的相关度算法(如超链接算法)进行大量 |
|
[搜索引擎]Nutch安装(linux+windows)  原创空间, 电脑与网络
赵勇 发表于 2007/5/15 0:22:14 |
Nutch在Windows安装(nutch0.7.2): 本机配置: CPU: AMD Athon(tm) 64 Processor 3000+ 1.8G 内存: 1.00G 可用硬盘空间: 20G 操作系统: windows XP
安装文件:
jdk5.0: http://developers.sun.com/downloads/
|
|
[搜索引擎]开发自己的搜索引擎——Lucene2.0+Heritrix 网上资源
赵勇 发表于 2007/5/12 15:53:14 |
开发自己的搜索引擎——Lucene2.0+Heritrix(爬虫)
http://lucenebook.spaces.live.com/
书的目录
目录 第一篇 搜索引擎入门 第1章 搜索引擎与信息检索 1
第二篇 Lucene开发详解 第2章 Lucene入门实例 16 第3章 索引的建立 42第
4章 Lucene搜索  |
|
« 1 ›
|