本站首页    管理页面    写新日志    退出


«October 2025»
1234
567891011
12131415161718
19202122232425
262728293031


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:技术以人为本
日志总数:7
评论数量:28
留言数量:0
访问次数:92888
建立时间:2005年8月8日




[技术未来]中文分词之于搜索(1)
原创空间,  软件技术,  科学研究

eng2chi 发表于 2005/8/17 11:36:08

中文分词(WORD SEGMENTATION)是中文信息处理需要掌握的技术, 这源于中文文不加空格的传统[想想如果没有五四时引进的标点, 中文断句还会是种要解决的问题]. 英文文本处理没有这个问题, 每个单词都被分割开, 而且每个单词在表达词的意义上来得强, 而中文单字不能说具有词的意味, 多以二到四字成词居多. 中文分词的处理的研究和应用, 也有了多个年头, 基本上可以认为, 达到了可以应用的层次. 因为最好的分词正确率已经超过了90%,有的甚至好过95%. 中文分词的技术,从简单到复杂, 应该可以列举出许多: 最简单的一种,是N-GRAM. 这个在英文里面也有, 因为要从中找出英文词组, 选定一个N的具体数值, 比如2~4, 然后将每每N个字抽取出来当做一个词. 这是很偷懒但也有些效用的做法, 虽然运用在中文处理上会带来许多垃圾词, 和错误的词. 然后就是最长匹配, 可以顺着来,也可以倒着来. 从一个字开始, 检查词库中有没有这个字做为词, 然后推进一个字, 看这两个字组成的词能否在词库种找到, 就这样继续,直到一个最大的长度, 再进一步便无法在词库中找到词为止. 比较好的分词,则是最长匹配的加强. 词库中的词配套有相应的统计频度或者似然/机率. 在一系列不同长度的词长中, 挑选具有最大机率的词作为结果. 这就是统计的做法,已经成为各种高性能分词的主要法门. 分词还要处理一些细节问题,比如新词的辨认, 人名/地名/其他专有名词的辨认, 以及一些专门的任务比如电话号码等等的抽取等..... 下节谈谈一些已成型的分词程序.    


阅读全文(3978) | 回复(1) | 编辑 | 精华
 


回复:中文分词之于搜索(1)
原创空间,  软件技术,  科学研究

毕设ing(游客)发表评论于2006/3/27 22:29:52

2呢?


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:中文分词之于搜索(1)
原创空间,  软件技术,  科学研究

xin(游客)发表评论于2005/11/4 18:07:00

(2)呢?

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.033 second(s), page refreshed 144789291 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号