张老师
你好。
很感谢你,从你的blog中学习到以及将要学习到很多东西。对你的奉献精神与诲人不倦的精神深表敬意。
我是来自哈尔滨医科大学的一名研究生,下面我想问一个问题,望不吝赐教。
这是一个数据挖掘中的分类问题,首先真阳性集(GSP)共446个基因,真阴性集(GSN)有3895个基因。我用到一个特征,但这个特征是无法直接用的,首先需要利用GSP 446给这个特征打一个分(称为f吧)。其实这个f指标越高,某个基因阳性的可能性越大。于是我利用这446+3895(在后面将不再提及GSN 3895,特此说明)个基因,利用这个f特征构建了决策树(C4.5)。使用10 fold cross validation进行验证。算出分类准确率acc,以及阳性的precision和recall以及F-score。这些指标都比我期望的高(简称“错指标”吧)。其实我感觉这是逻辑循环(循环论证)造成的。可是别人都不认同这是错的……
我想到的正确做法是:利用一部份的GSP(可能1/3 GSP或其他比例)去给这个特征打分f,然后利用剩下的部分构建决策树,使用10 fold cross validation进行验证计算出了分类准确率指标(简称“对指标”吧)。我认为这样的结果才是正确地评价了这个特征的分类能力。请问,我的这个想法对吗?这个方法应该称之为什么呢?
之后怎么做呢?我的目的是要对未知样本分类。这个特征通过以上证明是有很好分类能力的。我下面用于实际分类时是不是应该用所有的GSP 446构建决策树分类器呢?我想应该是吧? 那这个利用所有GSP 446构建的决策树的准确率到底是多少呢?我觉得应该用“对指标”,这是一种保守估计,比实际偏低。
我的想法还不成熟,请老师帮我分析一下,我应该如何做?
非常感谢!能否加我qq 112493828
马
以下为blog主人的回复:
对你的问题还不是很清楚。这个f指标是你根据GSP算出来的,那么必然是基于某些属性找到一个计算公式。而你又提到用f来构造决策树,是只用f这个指标吗?为什么不直接用构成f的那些属性呢?在实际的项目中,基本上不会只拿一个变量来构造决策树的。
此外,你谈到准确率、精度和召回率都很高,为什么会认为是个“错指标”呢?
我的感觉是你找这个f指标的过程,有点类似于统计学中的主成分分析。如果是的话,我倒是建议你直接用主成分分析就好了。 | |