本站首页    管理页面    写新日志    退出


«August 2025»
12
3456789
10111213141516
17181920212223
24252627282930
31


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:技术以人为本
日志总数:7
评论数量:28
留言数量:0
访问次数:92176
建立时间:2005年8月8日




[技术未来]中文分词之于搜索(1)
原创空间,  软件技术,  科学研究

eng2chi 发表于 2005/8/17 11:36:08

中文分词(WORD SEGMENTATION)是中文信息处理需要掌握的技术, 这源于中文文不加空格的传统[想想如果没有五四时引进的标点, 中文断句还会是种要解决的问题]. 英文文本处理没有这个问题, 每个单词都被分割开, 而且每个单词在表达词的意义上来得强, 而中文单字不能说具有词的意味, 多以二到四字成词居多. 中文分词的处理的研究和应用, 也有了多个年头, 基本上可以认为, 达到了可以应用的层次. 因为最好的分词正确率已经超过了90%,有的甚至好过95%. 中文分词的技术,从简单到复杂, 应该可以列举出许多: 最简单的一种,是N-GRAM. 这个在英文里面也有, 因为要从中找出英文词组, 选定一个N的具体数值, 比如2~4, 然后将每每N个字抽取出来当做一个词. 这是很偷懒但也有些效用的做法, 虽然运用在中文处理上会带来许多垃圾词, 和错误的词. 然后就是最长匹配, 可以顺着来,也可以倒着来. 从一个字开始, 检查词库中有没有这个字做为词, 然后推进一个字, 看这两个字组成的词能否在词库种找到,


阅读全文(3946) | 回复(1) | 编辑 | 精华 | 删除
 


[技术未来]语音识别初探(2)
原创空间,  软件技术,  科学研究

eng2chi 发表于 2005/8/16 16:05:24

Microsoft® Speech SDK 5.1 是微软比较为人所知的语音处理包, 支持TTS和语音识别(SPEECH RECOGNITION).  为了能支持中文, 还必须下载5.1 Language Pack.
[不知微软的Microsoft Speech Server (MSS) 2004 R2 和

阅读全文(6181) | 回复(4) | 编辑 | 精华 | 删除
 


[技术未来]语音识别初探(1)
原创空间,  软件技术,  科学研究

eng2chi 发表于 2005/8/16 15:24:32

 语音识别(speech recognition)行之有年, 但进展缓慢. BILL GATES 预测 speech recognition will go mainstream in three to four years , 但明显挑战大过机会,这点他自己也

阅读全文(3347) | 回复(0) | 编辑 | 精华 | 删除
 


« 1



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.031 second(s), page refreshed 144751076 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号