首页(175) 数据挖掘研究(27) 数据挖掘实践(53) 数据挖掘介绍(25) 杂谈(59) 管理页面   写新日志   退出   关于IDMer

 Blog信息
 
blog名称:IDMer (数据挖掘者)
日志总数:175
评论数量:848
留言数量:119
访问次数:2507064
建立时间:2005年6月24日

 日志更新
 

 我的相册
 

It's me!


 最新评论
 

 留言板
 

 链接
 

 联系方式

 日志搜索





 公告
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com
我的新浪微博:
@张磊IDMer
 网络日志
留言板(签写留言)

求教一个问题
生飞(游客)发表留言于2007/10/19 17:38:24
在创建一个ARFF文件时,如何将excel电子表格文件转换成CSV文件在转换成ARFF文件

以下为blog主人的回复:

查手册,或者上weka论坛查查。

| 编辑 | 主人回复 | 删除
关于多维关联分类算法
Forestme(游客)发表留言于2007/9/30 12:10:24

IDMer:你好,

我是一名研究生,多次到您的博客淘宝,受益匪浅,深表感谢。

现在,我正做一个学生就业信息的分析,我看了些文献,觉得关联规则分类准确率较高,而且研究的也好像比较热,我想学习这个算法。

可我只有这种方法的简单理论,不知张博士有这方面的资料吗,算法程序或算法的详细介绍。

谢谢!

以下为blog主人的回复:

关联规则怎么做分类,我还真没听说过。我常用的分类算法一般是决策树、Logistic Regression或者神经网络。

| 编辑 | 主人回复 | 删除
请教一个问题
马(游客)发表留言于2007/9/29 13:39:45

张老师

  你好。

  很感谢你,从你的blog中学习到以及将要学习到很多东西。对你的奉献精神与诲人不倦的精神深表敬意。

 我是来自哈尔滨医科大学的一名研究生,下面我想问一个问题,望不吝赐教。

  这是一个数据挖掘中的分类问题,首先真阳性集(GSP)446个基因,真阴性集(GSN)有3895个基因。我用到一个特征,但这个特征是无法直接用的,首先需要利用GSP 446给这个特征打一个分(称为f吧)。其实这个f指标越高,某个基因阳性的可能性越大。于是我利用这446+3895(在后面将不再提及GSN 3895,特此说明)个基因,利用这个f特征构建了决策树(C4.5)。使用10 fold cross validation进行验证。算出分类准确率acc,以及阳性的precisionrecall以及F-score。这些指标都比我期望的高(简称“错指标”吧)。其实我感觉这是逻辑循环(循环论证)造成的。可是别人都不认同这是错的……

我想到的正确做法是:利用一部份的GSP(可能1/3 GSP或其他比例)去给这个特征打分f,然后利用剩下的部分构建决策树,使用10 fold cross validation进行验证计算出了分类准确率指标(简称“对指标”吧)。我认为这样的结果才是正确地评价了这个特征的分类能力。请问,我的这个想法对吗?这个方法应该称之为什么呢?

  之后怎么做呢?我的目的是要对未知样本分类。这个特征通过以上证明是有很好分类能力的。我下面用于实际分类时是不是应该用所有的GSP 446构建决策树分类器呢?我想应该是吧? 那这个利用所有GSP 446构建的决策树的准确率到底是多少呢?我觉得应该用“对指标”,这是一种保守估计,比实际偏低。

我的想法还不成熟,请老师帮我分析一下,我应该如何做?

非常感谢!能否加我qq 112493828

以下为blog主人的回复:

对你的问题还不是很清楚。这个f指标是你根据GSP算出来的,那么必然是基于某些属性找到一个计算公式。而你又提到用f来构造决策树,是只用f这个指标吗?为什么不直接用构成f的那些属性呢?在实际的项目中,基本上不会只拿一个变量来构造决策树的。

此外,你谈到准确率、精度和召回率都很高,为什么会认为是个“错指标”呢?

我的感觉是你找这个f指标的过程,有点类似于统计学中的主成分分析。如果是的话,我倒是建议你直接用主成分分析就好了。

| 编辑 | 主人回复 | 删除
中秋快乐
数据挖掘青年发表留言于2007/9/24 8:33:34

前辈,好久不见,祝您中秋快乐!

以下为blog主人的回复:

呵呵,也祝大家都节日快乐!

| 编辑 | 主人回复 | 删除
留言数:135  « 11 12 13 14 15 16 17 18 19 20 »
给idmer签写留言:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写留言内容!)


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.313 second(s), page refreshed 144760965 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号