« | August 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | | | | | | |
| 公告 |
暂无公告... |
Blog信息 |
blog名称:技术以人为本 日志总数:7 评论数量:28 留言数量:0 访问次数:92176 建立时间:2005年8月8日 |

| |
[技术未来]中文分词之于搜索(1) 原创空间, 软件技术, 科学研究
eng2chi 发表于 2005/8/17 11:36:08 |
中文分词(WORD SEGMENTATION)是中文信息处理需要掌握的技术, 这源于中文文不加空格的传统[想想如果没有五四时引进的标点, 中文断句还会是种要解决的问题].
英文文本处理没有这个问题, 每个单词都被分割开, 而且每个单词在表达词的意义上来得强, 而中文单字不能说具有词的意味, 多以二到四字成词居多.
中文分词的处理的研究和应用, 也有了多个年头, 基本上可以认为, 达到了可以应用的层次. 因为最好的分词正确率已经超过了90%,有的甚至好过95%.
中文分词的技术,从简单到复杂, 应该可以列举出许多:
最简单的一种,是N-GRAM. 这个在英文里面也有, 因为要从中找出英文词组, 选定一个N的具体数值, 比如2~4, 然后将每每N个字抽取出来当做一个词. 这是很偷懒但也有些效用的做法, 虽然运用在中文处理上会带来许多垃圾词, 和错误的词.
然后就是最长匹配, 可以顺着来,也可以倒着来. 从一个字开始, 检查词库中有没有这个字做为词, 然后推进一个字, 看这两个字组成的词能否在词库种找到, |
|
[技术未来]语音识别初探(1) 原创空间, 软件技术, 科学研究
eng2chi 发表于 2005/8/16 15:24:32 |
语音识别(speech recognition)行之有年, 但进展缓慢. BILL GATES 预测
speech recognition will go mainstream in three to four years
, 但明显挑战大过机会,这点他自己也 |
|
« 1 ›
|