技术以人为本--中文分词之于搜索(1)

本站首页管理页面写新日志退出

« October 2025 »
日一二三四五六
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

公告

暂无公告...

我的分类（专题）

首页(7)
技术未来(3)
点评议论(0)
网络资源(1)
生活点滴(2)

日志更新

成功学书籍(1)
学纵横码
行与言与思
中文分词之于搜索(1)
语音识别初探(2)
语音识别初探(1)
好得不得了的电子书搜索平台

留言板

签写新留言

链接

Blog信息

blog名称:技术以人为本
日志总数:7
评论数量:28
留言数量:0
访问次数:92888
建立时间:2005年8月8日

[技术未来]中文分词之于搜索(1)
原创空间, 软件技术, 科学研究

eng2chi 发表于 2005/8/17 11:36:08

中文分词(WORD SEGMENTATION)是中文信息处理需要掌握的技术, 这源于中文文不加空格的传统[想想如果没有五四时引进的标点, 中文断句还会是种要解决的问题]. 英文文本处理没有这个问题, 每个单词都被分割开, 而且每个单词在表达词的意义上来得强, 而中文单字不能说具有词的意味, 多以二到四字成词居多. 中文分词的处理的研究和应用, 也有了多个年头, 基本上可以认为, 达到了可以应用的层次. 因为最好的分词正确率已经超过了90%,有的甚至好过95%. 中文分词的技术,从简单到复杂, 应该可以列举出许多: 最简单的一种,是N-GRAM. 这个在英文里面也有, 因为要从中找出英文词组, 选定一个N的具体数值, 比如2~4, 然后将每每N个字抽取出来当做一个词. 这是很偷懒但也有些效用的做法, 虽然运用在中文处理上会带来许多垃圾词, 和错误的词. 然后就是最长匹配, 可以顺着来,也可以倒着来. 从一个字开始, 检查词库中有没有这个字做为词, 然后推进一个字, 看这两个字组成的词能否在词库种找到, 就这样继续,直到一个最大的长度, 再进一步便无法在词库中找到词为止. 比较好的分词,则是最长匹配的加强. 词库中的词配套有相应的统计频度或者似然/机率. 在一系列不同长度的词长中, 挑选具有最大机率的词作为结果. 这就是统计的做法,已经成为各种高性能分词的主要法门. 分词还要处理一些细节问题,比如新词的辨认, 人名/地名/其他专有名词的辨认, 以及一些专门的任务比如电话号码等等的抽取等..... 下节谈谈一些已成型的分词程序.

阅读全文(3978) | 回复(1) | 编辑 | 精华

回复:中文分词之于搜索(1)
原创空间, 软件技术, 科学研究

毕设ing(游客)发表评论于2006/3/27 22:29:52

2呢？

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:中文分词之于搜索(1)
原创空间, 软件技术, 科学研究

xin(游客)发表评论于2005/11/4 18:07:00

(2)呢？

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

» 1 »

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.033 second(s), page refreshed 144789291 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号