技术以人为本

本站首页管理页面写新日志退出

« June 2026 »
日一二三四五六
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

公告

暂无公告...

我的分类（专题）

首页(7)
技术未来(3)
点评议论(0)
网络资源(1)
生活点滴(2)

日志更新

成功学书籍(1)
学纵横码
行与言与思
中文分词之于搜索(1)
语音识别初探(2)
语音识别初探(1)
好得不得了的电子书搜索平台

留言板

签写新留言

链接

Blog信息

blog名称:技术以人为本
日志总数:7
评论数量:28
留言数量:0
访问次数:95722
建立时间:2005年8月8日

[技术未来]中文分词之于搜索(1)
原创空间, 软件技术, 科学研究

eng2chi 发表于 2005/8/17 11:36:08

中文分词(WORD SEGMENTATION)是中文信息处理需要掌握的技术, 这源于中文文不加空格的传统[想想如果没有五四时引进的标点, 中文断句还会是种要解决的问题]. 英文文本处理没有这个问题, 每个单词都被分割开, 而且每个单词在表达词的意义上来得强, 而中文单字不能说具有词的意味, 多以二到四字成词居多. 中文分词的处理的研究和应用, 也有了多个年头, 基本上可以认为, 达到了可以应用的层次. 因为最好的分词正确率已经超过了90%,有的甚至好过95%. 中文分词的技术,从简单到复杂, 应该可以列举出许多: 最简单的一种,是N-GRAM. 这个在英文里面也有, 因为要从中找出英文词组, 选定一个N的具体数值, 比如2~4, 然后将每每N个字抽取出来当做一个词. 这是很偷懒但也有些效用的做法, 虽然运用在中文处理上会带来许多垃圾词, 和错误的词. 然后就是最长匹配, 可以顺着来,也可以倒着来. 从一个字开始, 检查词库中有没有这个字做为词, 然后推进一个字, 看这两个字组成的词能否在词库种找到,

阅读全文(4185) | 回复(1) | 编辑 | 精华 | 删除

[技术未来]语音识别初探(2)
原创空间, 软件技术, 科学研究

eng2chi 发表于 2005/8/16 16:05:24

Microsoft® Speech SDK 5.1 是微软比较为人所知的语音处理包, 支持TTS和语音识别(SPEECH RECOGNITION). 为了能支持中文, 还必须下载5.1 Language Pack. [不知微软的Microsoft Speech Server (MSS) 2004 R2 和
阅读全文(6577) \| 回复(4) \| 编辑 \| 精华 \| 删除

[技术未来]语音识别初探(1)
原创空间, 软件技术, 科学研究

eng2chi 发表于 2005/8/16 15:24:32

　语音识别(speech recognition)行之有年, 但进展缓慢. BILL GATES 预测 speech recognition will go mainstream in three to four years , 但明显挑战大过机会,这点他自己也

阅读全文(3474) | 回复(0) | 编辑 | 精华 | 删除

« 1 ›

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.016 second(s), page refreshed 144852775 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号