讨论数据挖掘是“大忽悠”还是“懵懂少年”,实质上就是指数据挖掘“要不要”和“行不行”的问题。对数据挖掘持“大忽悠”态度的人,是因为他们没有认识到数据挖掘的价值,才认为数据挖掘是没有必要的;对数据挖掘持“懵懂少年”态度的人,是因为他们没有学会对数据挖掘的正确运用,才认为数据挖掘的结果是没有价值的,是不成熟的。事实真的如他们所云吗?
自然法则的原则:生存即有意义,需求推动发展。话不多说,数据挖掘近年来在研究和应用中的突飞猛进,绝非若干人心血来潮的结果。所以,数据挖掘虽不是企业的“救世主”,但也绝非“大忽悠”。
何以出现“大企业成功案例少;中小企业需求小”的尴尬处境?
数据挖掘在中国的现状以此形容确也不甚为过。但是,凭此就可以否定数据挖掘的作用和前景吗?
之所以出现如此的境况,原因是多方面的:企业面临着障碍,软件存在着缺陷,关键还是缺少人才,复合式人才,懂数据挖掘的人才。其中,个人认为,软件本身的缺陷是次要的。软件固然不完美,但在某些方面已经趋于成熟,使用者不能通过它得出有价值的结论,关键还是自己有问题吧。俗语云:拉不出屎来不能怨茅坑,要怨就怨自己便秘。
数据挖掘有三个步骤: 准备——输入数据收集和整理;实现——统计建模和数据分析;可信度——输出结果的评价和整理。中国人向来有眼高手低的传统,也许挖掘人员把大部分精力和注意力放在中间阶段(其实这个阶段的工作中,机器是主体,人是辅助体),而没有更优的进行繁琐无味而又至关重要的输入准备。
“即便在大型企业,由于数据搜集起步普遍比较晚,数据可得性和完备性都不高。很多行业的生产、财务、销售等敏感数据,由于用户的选择性输入或漏输、错输,难以为数据挖掘工具所用。数据是数据挖掘应用的依据,数据挖掘前期几乎80%的工作都是在准备数据,把数据整合、抽取、清洗、转换、装载。如果给出的最初数据质量不高,模型再好,最后做出的预测也难如人意。”本来数据质量就不高,再不能妥善合理的转换整理,挖掘的结果可想而知。试想:吃的米饭里不除尽沙子,造成消化系统的工作不良,何能先去质疑胃的功能?
何以缺乏一将难求的复合型项目人才?
数据挖掘的实现是一个流程,是需要一个团队来实现的。由于项目的实施具有很强的背景色彩,需要领域知识的业务人才参与。缺乏复合型人才,正说明了社会对数据挖掘的广泛需求。这个年轻的领域还未有足够多的人才投入进来。在不远的一天,数据挖掘的教材将会和萨师煊、王珊老师的《数据库原理》一样,充盈在中国的高校里。社会的进步、企业的进阶将不能没有数据挖掘!
如何解开实施过程中CEO的心头疙瘩?
“数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。”其实,数据挖掘后产生的结果不一定都有价值,需要人去评价筛选。实施过程也是极其多样化的,因为挖掘的本身是启发式性质的,是用来做预测的。
其一,争议自变量的选择权。确定哪些因素与目标变量有关系,往往是双方各执一词。这又何必呢?数据挖掘本身就是挖掘潜在的规则,谁也不能肯定各个自变量为决策做出的贡献。不断的迭代,调整模型,用挖掘的结果来使挖掘者满意,而不是用挖掘的输入来说服CEO(包括说服挖掘者本身)。理想的方式是由结果来决定的,并不能由CEO和挖掘人员双方结合决定,双方只是提出各自的意见,再因为谁主谁辅而争执不休岂不多余?
其二,在客户群体分类的粒度上,若干问题没有一定的衡量标准。挖掘模型可以根据客户的需求通过调整参数来调整模型的输出,再苛刻的CEO也会有一个满意的吧。
第三,CEO对数据挖掘以概率值示人的结果质疑。岂不是不符合人之常情?现实中的事情有哪些不是在概率的基础上预测的,数据挖掘给出概率的可能性来支持决策是多么的正规合理啊。
挖掘结果未必能改善现状吗?
“数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实”。这正是数据挖掘的特点,如果他能告诉使用者为什么,他就不叫机器学习了;如果他能保证潜在的用户成为现实,恐怕唯物主义大师们在地下也不能瞑目了。
“大多数车祸出现在中等行驶速度当中,极少的事故出在高于150公里/小时的速度上。”人们当然不能认为高速行驶比较安全,因为该规则的挖掘既不满足较高的置信度,也不满足一定的支持度,一个懂数据挖掘的人是不会挖掘出这样的规则来的。
“美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。”——虽然没有改善的经营状况,但抱怨停止了,企业的形象提升了,能说没有改善现状吗?再者,生产商既然挖掘出原因,为什么他们采取的措施是换上新的包装,而不是在实际产品中增加冰激凌中的水果数量呢??
数据挖掘毕竟是新事物,是一种新崛起但不成熟不完美的技术。他还有一条漫长的道路要走,但他会走这条漫长的道路,因为需求是极广大的。而且,我们会同他一起走下去,因为,他需要我们。