首页(175) 数据挖掘研究(27) 数据挖掘实践(53) 数据挖掘介绍(25) 杂谈(59) 管理页面   写新日志   退出   关于IDMer

 Blog信息
 
blog名称:IDMer (数据挖掘者)
日志总数:175
评论数量:848
留言数量:119
访问次数:2497005
建立时间:2005年6月24日

 日志更新
 

 我的相册
 

It's me!


 最新评论
 

 留言板
 

 链接
 

 联系方式

 日志搜索





 公告
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com
我的新浪微博:
@张磊IDMer
 网络日志
留言板(签写留言)

web文本挖掘
Ivy(游客)发表留言于2008/3/13 13:52:50
张博士,您好!我是一名情报学的研究生,想写有关数据挖掘方面的毕业论文。向您请教一下:目前在web文本挖掘方面比较常用的模型(就是解决问题的方法)是哪些呢,我在网上搜索的结果都不具有代表性。谢谢!

以下为blog主人的回复:

你可以参考一下韩家炜、孟小峰在《计算机研究与发展》上发表的“Web挖掘研究”一文,人大的孟小峰老师在这方面的研究较多。

另外,有篇博士论文也不错,上海交通大学的张岭博士的“智能信息检索中的Web挖掘研究”(http://zhling.googlepages.com/Zhang_Ling_Ph.D._Dissertation_2002.pdf)。如果我记得没错的话,原来我在清华大学申请研究基金时还和张岭博士聊过,不知道他现在怎么样了。

| 编辑 | 主人回复 | 删除
向您请教
yinrenxingzhe(游客)发表留言于2008/3/1 22:20:47
您好,想分析一下Weka的设计框架及其架构方法,来设计一个类似Weka的数据挖掘工具(仅仅实现几个算法),但具有Weka的Explorer下面的功能,但不太知道应该从哪里入手,请给些宝贵建议!谢谢

以下为blog主人的回复:

Weka是开源项目,你可以查找它的项目网址,并展开分析研究。在blog左下角的链接中有Weka中文论坛链接。

| 编辑 | 主人回复 | 删除
计算相似度时如何确定向量的维数
Willa(游客)发表留言于2008/2/25 13:26:55
谢谢您对问题“求高人指教自动分类中待分类文档的向量表示方法”的回复,终于搞明白这个问题了。另外我还有一个问题不太确定,想请您指教:分类训练完成后,比如对于分类A,我得到了一个100维的类向量(特征词100个)。这时候来了一篇新文章,通过分词后我取了50个特征词(根据TF由大到小排列后取的,不知道对不对?)。然后对这50个词分别去类特征词表中查找是否存在,如果我查到有30个词在类特征词表中,这时候需要计算相似度了,两个向量的维数应该相同可以计算,我不知道这个维数到底应该是30(即两个向量都包含的特征词个数),还是100(即类的特征词个数),还是120(即两个向量相同特征词个数加上两个向量中所有不同的特征词个数)?

以下为blog主人的回复:

这个依赖于训练时所建立的分类关键词的维度空间大小。例如,假设我们建立了10个分类(IT、体育、经济、政治、娱乐等等),用于区分这10个分类的特征关键词共有1000个,则向量空间的维度就是1000。

对新文档的分类,只会在这1000个关键词所组成的向量空间中与这10个分类进行比较,计算距离,并将新文档分配到距离新文档最近的类别。因此,对于新文档来说,不在这1000个关键词列表之内的其它词将会被忽略。

| 编辑 | 主人回复 | 删除
求高人指教自动分类中待分类文档的向量表示方法
willa(游客)发表留言于2008/2/20 15:45:38
在文本自动分类中,类的特征向量可以用特征词的权重(比如TF-IDF)表示。当一篇待分类文档进入系统后,该文档的特征向量如何表示呢?因为在TF-IDF公式中,涉及到了训练文档总是N这样的参数,可是现在只有一篇文档,这个N怎么取值呢?每个特征词的权重怎样计算呢?这个问题一直困扰着我,看了很多文献,都只是介绍理论但不知道具体怎么实现的,恳请给予指导!

以下为blog主人的回复:

文本分类常用的算法大多是用向量空间模型来表示文档,并计算出文档之间的相似度(距离)。每篇文档是用特征向量来表示,即关键词组成的向量,每个关键词作为一个维度,该维度相应的数值则是常用TFIDF来计算得出。

TF是Term Frequency(词频),IDF是Inverted Document Frequency(文档频率的倒数),每个关键词对应的权重就是TFxIDF。

你问的情况是当分类模型已经训练完成之后,如何判别一篇新文档应该归属到哪个分类的问题。对于新文档来说,其中每个关键词的词频(TF)可以统计得出,而IDF是如何计算的呢?因为只有一篇文档,是不是IDF就是1呢?

当然不是,否则IDF就完全失去了意义。其实在分类训练时会生成一张关键词表,每个关键词及其DF都被记录到这张关键词表中了,因此在对新文档分类时,直接读取这张关键词表,就可以查到对应的IDF了。

| 编辑 | 主人回复 | 删除
留言数:135  « 11 12 13 14 15 16 17 18 19 20 »
给idmer签写留言:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写留言内容!)


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.043 second(s), page refreshed 144757782 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号