本站首页    管理页面    写新日志    退出


«September 2025»
123456
78910111213
14151617181920
21222324252627
282930


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:
日志总数:111
评论数量:190
留言数量:-24
访问次数:639265
建立时间:2007年4月21日




[搜索引擎]垂直搜索,可以燎原【转载】
网上资源,  软件技术,  电脑与网络

赵勇 发表于 2008/1/15 14:10:38

垂直搜索,可以燎原
http://blog.sina.com.cn/tliu7221

刘挺
哈尔滨工业大学信息检索研究室
2007年12月27日

在百度、谷歌称雄的搜索时代,不愿臣服的草莽英雄们揭竿而起,他们的旗帜五色杂陈,但都印着四个大字——“垂直搜索”。他们呼朋引类,啸聚山林,在生活、 旅游、职位、汽车等各个领域割据自立,不断地蚕食着通用搜索的领地。这,究竟是一场怎样的大戏?是史诗,还是闹剧,是燎原星火,还是一现昙花。网络上,充 斥着各种各样的说法,肯定者称垂直搜索“渐成主流需求”,“是重大机遇”,“已成为搜索市场的第三极”,否定者说垂直搜索“不靠谱”,“是忽悠人的伪概 念”,“是注定被扼杀的幼苗”等等。这些言论中不乏客观的评论,但更多的是传舌,是炒作,是枪文,弄得旁观者云里雾里,弄得投资人观望犹疑。

要看清垂直搜索未来的方向,我们先逐一分


阅读全文(2961) | 回复(0) | 编辑 | 精华 | 删除
 


[搜索引擎]Nutch0.9配置笔记 
原创空间,  软件技术,  电脑与网络,  科学研究

赵勇 发表于 2007/8/16 15:10:57

 配置环境:Debian 4 (kernel 2.4)
配置软件:
1,  Java jdk-1.5
1,1 下载安装
apt-get install sun-java5-jdk

1,2 修改环境变量
vi /etc/profile
在末尾加上

QUOTE: JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.ja


阅读全文(8061) | 回复(2) | 编辑 | 精华 | 删除
 


[搜索引擎]Google 的秘密- PageRank 彻底解说 中文版【转载】
网上资源

赵勇 发表于 2007/8/3 16:17:04

http://www.kreny.com/pagerank_cn.htm Google 的秘密- PageRank 彻底解说 中文版 本文对作为评价甚高的搜索引擎 Google 的核心技术之一 PageRank (网页等级)的基本的概念和评价原理进行解释。    

阅读全文(2553) | 回复(0) | 编辑 | 精华 | 删除
 


[搜索引擎]Heritri学习
软件技术,  科学研究

赵勇 发表于 2007/6/10 15:59:43

  Heritix是一款使用纯java语言开发的、功能强大的网络爬虫,用户可以使用它从网络抓取想要的资源。它来自于www.archive.org Heritix的优点是功能极其强大、可扩展性好、且文档丰富,缺点是配置较为复杂,且源代码不好理解。 目前最新版为1.12.1(2007-05-06发布) 主页:       

阅读全文(9471) | 回复(2) | 编辑 | 精华 | 删除
 


[搜索引擎]17个最具创新价值但Google不具有的功能
网上资源,  电脑与网络,  科学研究

赵勇 发表于 2007/5/22 10:32:49

在网上看到一篇不错的文章, 阐述了未来搜索引擎的一些方向,提出了目前Google不具有或不完全具有的17个功能:
Natural Language Processing
阅读全文(2797) | 回复(1) | 编辑 | 精华 | 删除
 


[搜索引擎]nutch重要学习资料
网上资源,  电脑与网络

赵勇 发表于 2007/5/22 10:21:25

  nutch官方网站:http://lucene.apache.org/nutch/ nutch中文论坛:http://www.nutchchina.com/bbs/index.php   由于nutch是架构在lucene上的,所以学习nutch最好对lucene有所了解: lucene官方网站:

阅读全文(2052) | 回复(0) | 编辑 | 精华 | 删除
 


[搜索引擎]开源搜索引擎列表 
网上资源,  电脑与网络

赵勇 发表于 2007/5/22 10:13:52

开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。  搜索引擎的工作流程主要分为三步:从互联网抓取网页→创建抓取网页的索引库→从索引库中进行搜索。  首先需要一个能访问网络的爬虫器程序,依据URL之间的关联性自动爬行整个互联网,并对爬行过的网页进行抓取收集。当网页被收集回来后,采用索引分析程序进行网页信息的分析,依据一定的相关度算法(如超链接算法)进行大量

阅读全文(3274) | 回复(1) | 编辑 | 精华 | 删除
 


[搜索引擎]Nutch安装(linux+windows) 
原创空间,  电脑与网络

赵勇 发表于 2007/5/15 0:22:14

Nutch在Windows安装(nutch0.7.2):
本机配置:
CPU: AMD Athon(tm) 64 Processor 3000+ 1.8G
内存: 1.00G
可用硬盘空间: 20G
操作系统: windows XP 安装文件: jdk5.0: http://developers.sun.com/downloads/

阅读全文(4764) | 回复(0) | 编辑 | 精华 | 删除
 


[搜索引擎]开发自己的搜索引擎——Lucene2.0+Heritrix
网上资源

赵勇 发表于 2007/5/12 15:53:14

开发自己的搜索引擎——Lucene2.0+Heritrix(爬虫) http://lucenebook.spaces.live.com/ 书的目录 目录
第一篇  搜索引擎入门
第1章  搜索引擎与信息检索 1
第二篇  Lucene开发详解
第2章  Lucene入门实例 16
第3章  索引的建立 42第 4章  Lucene搜索 

阅读全文(12140) | 回复(2) | 编辑 | 精华 | 删除
 


« 1



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.078 second(s), page refreshed 144809135 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号