首页(175) 数据挖掘研究(27) 数据挖掘实践(53) 数据挖掘介绍(25) 杂谈(59) 管理页面   写新日志   退出   关于IDMer

 Blog信息
 
blog名称:IDMer (数据挖掘者)
日志总数:175
评论数量:848
留言数量:119
访问次数:2502779
建立时间:2005年6月24日

 日志更新
 

 我的相册
 

It's me!


 最新评论
 

 留言板
 

 链接
 

 联系方式

 日志搜索





 公告
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com
我的新浪微博:
@张磊IDMer
 网络日志
留言板(签写留言)

无题
至今思项羽(游客)发表留言于2007/4/11 14:02:00

晕,数据挖掘青年 即 至今思项羽

以下为blog主人的回复:

祝贺数据挖掘青年开博!

| 编辑 | 主人回复 | 删除
真正意义的数据挖掘不是一般人随随便便就可以了解的
数据挖掘青年发表留言于2007/4/11 13:58:20

  前辈说的好“大家所看到的数据挖掘的成果大多停留在一些表面,而某些企业真正的数据挖掘成果很少会对外界公开”这一层次我确实没有想到,在书上、互联网上也没有看到过这个层次的见解。

  注:长篇留言的内容是我自己写的,针对网上流传的《数据挖掘是“大忽悠还是“懵懂少年”》,根据自己的想法评价了一下。驽钝浅见啊,看来不去实践,只是坐在校园的实验室里,真是难以了解数据挖掘“令人激动人心的进步”啊!

| 编辑 | 主人回复 | 删除
见谅
至今思项羽(游客)发表留言于2007/4/9 19:33:11
前辈,真不好意思,把您的版面弄成这个样子了,有必要的话,可以删除我的“长篇留言”。Sorry

以下为blog主人的回复:

呵呵,没关系,留言板本来就是留给大家畅所欲言的,我也很喜欢看到大家独特的见解,开卷有益,真理越辩越明啊

| 编辑 | 主人回复 | 删除
数据挖掘绝非“大忽悠”,也不是“懵懂少年”
至今思项羽(游客)发表留言于2007/4/9 19:23:07
读《数据挖掘是“大忽悠还是“懵懂少年”》浅见。
原文地址:http://blogger.org.cn/blog/more.asp?name=DMman&id=23840

 

正如所有受到常用注目的新兴技术一样,数据挖掘的运用也是极其多样化的。言过其实的报导声称可以建立算法,在数据的海洋里发现秘密。但事实上机器学习中没有魔术,没有隐藏的力量,没有炼金术。有的只是一些可以将有用的信息从原始数据中提炼出来的清晰明了的实用技术。

————摘自《数据挖掘:实用机器学习技术》

 

讨论数据挖掘是“大忽悠”还是“懵懂少年”,实质上就是指数据挖掘“要不要”和“行不行”的问题。对数据挖掘持“大忽悠”态度的人,是因为他们没有认识到数据挖掘的价值,才认为数据挖掘是没有必要的;对数据挖掘持“懵懂少年”态度的人,是因为他们没有学会对数据挖掘的正确运用,才认为数据挖掘的结果是没有价值的,是不成熟的。事实真的如他们所云吗?

自然法则的原则:生存即有意义,需求推动发展。话不多说,数据挖掘近年来在研究和应用中的突飞猛进,绝非若干人心血来潮的结果。所以,数据挖掘虽不是企业的“救世主”,但也绝非“大忽悠”。


何以出现“大企业成功案例少;中小企业需求小”的尴尬处境?


数据挖掘在中国的现状以此形容确也不甚为过。但是,凭此就可以否定数据挖掘的作用和前景吗?

之所以出现如此的境况,原因是多方面的:企业面临着障碍,软件存在着缺陷,关键还是缺少人才,复合式人才,懂数据挖掘的人才。其中,个人认为,软件本身的缺陷是次要的。软件固然不完美,但在某些方面已经趋于成熟,使用者不能通过它得出有价值的结论,关键还是自己有问题吧。俗语云:拉不出屎来不能怨茅坑,要怨就怨自己便秘。

 

数据挖掘有三个步骤: 准备——输入数据收集和整理;实现——统计建模和数据分析;可信度——输出结果的评价和整理。中国人向来有眼高手低的传统,也许挖掘人员把大部分精力和注意力放在中间阶段(其实这个阶段的工作中,机器是主体,人是辅助体),而没有更优的进行繁琐无味而又至关重要的输入准备。

“即便在大型企业,由于数据搜集起步普遍比较晚,数据可得性和完备性都不高。很多行业的生产、财务、销售等敏感数据,由于用户的选择性输入或漏输、错输,难以为数据挖掘工具所用。数据是数据挖掘应用的依据,数据挖掘前期几乎80%的工作都是在准备数据,把数据整合、抽取、清洗、转换、装载。如果给出的最初数据质量不高,模型再好,最后做出的预测也难如人意。”本来数据质量就不高,再不能妥善合理的转换整理,挖掘的结果可想而知。试想:吃的米饭里不除尽沙子,造成消化系统的工作不良,何能先去质疑胃的功能?


何以缺乏一将难求的复合型项目人才?


数据挖掘的实现是一个流程,是需要一个团队来实现的。由于项目的实施具有很强的背景色彩,需要领域知识的业务人才参与。缺乏复合型人才,正说明了社会对数据挖掘的广泛需求。这个年轻的领域还未有足够多的人才投入进来。在不远的一天,数据挖掘的教材将会和萨师煊、王珊老师的《数据库原理》一样,充盈在中国的高校里。社会的进步、企业的进阶将不能没有数据挖掘!


如何解开实施过程中CEO的心头疙瘩?


“数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。”其实,数据挖掘后产生的结果不一定都有价值,需要人去评价筛选。实施过程也是极其多样化的,因为挖掘的本身是启发式性质的,是用来做预测的。

其一,争议自变量的选择权。确定哪些因素与目标变量有关系,往往是双方各执一词。这又何必呢?数据挖掘本身就是挖掘潜在的规则,谁也不能肯定各个自变量为决策做出的贡献。不断的迭代,调整模型,用挖掘的结果来使挖掘者满意,而不是用挖掘的输入来说服CEO(包括说服挖掘者本身)。理想的方式是由结果来决定的,并不能由CEO和挖掘人员双方结合决定,双方只是提出各自的意见,再因为谁主谁辅而争执不休岂不多余?

其二,在客户群体分类的粒度上,若干问题没有一定的衡量标准。挖掘模型可以根据客户的需求通过调整参数来调整模型的输出,再苛刻的CEO也会有一个满意的吧。

第三,CEO对数据挖掘以概率值示人的结果质疑。岂不是不符合人之常情?现实中的事情有哪些不是在概率的基础上预测的,数据挖掘给出概率的可能性来支持决策是多么的正规合理啊。


挖掘结果未必能改善现状吗?


“数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实”。这正是数据挖掘的特点,如果他能告诉使用者为什么,他就不叫机器学习了;如果他能保证潜在的用户成为现实,恐怕唯物主义大师们在地下也不能瞑目了。

“大多数车祸出现在中等行驶速度当中,极少的事故出在高于150公里/小时的速度上。”人们当然不能认为高速行驶比较安全,因为该规则的挖掘既不满足较高的置信度,也不满足一定的支持度,一个懂数据挖掘的人是不会挖掘出这样的规则来的。

“美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。”——虽然没有改善的经营状况,但抱怨停止了,企业的形象提升了,能说没有改善现状吗?再者,生产商既然挖掘出原因,为什么他们采取的措施是换上新的包装,而不是在实际产品中增加冰激凌中的水果数量呢??

 

数据挖掘毕竟是新事物,是一种新崛起但不成熟不完美的技术。他还有一条漫长的道路要走,但他会走这条漫长的道路,因为需求是极广大的。而且,我们会同他一起走下去,因为,他需要我们。

以下为blog主人的回复:

作者提出的见解也是来源于国内数据挖掘应用的现状,有一定的道理。

就我个人的看法,大家所看到的数据挖掘的成果大多停留在一些表面,而某些企业真正的数据挖掘成果很少会对外界公开。当然在国内也有很多项目未能获得预期的成果,与很多因素有关-技术与业务的脱节,面子工程,急功近利,不愿优化原来的工作流程等等。

Anyway,我喜欢数据挖掘,也看好它的发展,只是无论甲方乙方,多从业务的角度去考虑需求,多从管理的层面进行流程再造,多以认真严谨的态度来深化,就一定会出成果。

| 编辑 | 主人回复 | 删除
留言数:135  « 21 22 23 24 25 26 27 28 29 30 »
给idmer签写留言:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写留言内容!)


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.266 second(s), page refreshed 144787360 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号