首页(175) 数据挖掘研究(27) 数据挖掘实践(53) 数据挖掘介绍(25) 杂谈(59) 管理页面   写新日志   退出   关于IDMer

 Blog信息
 
blog名称:IDMer (数据挖掘者)
日志总数:175
评论数量:848
留言数量:119
访问次数:2495019
建立时间:2005年6月24日

 日志更新
 

 我的相册
 

It's me!


 最新评论
 

 留言板
 

 链接
 

 联系方式

 日志搜索





 公告
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com
我的新浪微博:
@张磊IDMer
 网络日志
【转】数据挖掘渐成主流
数据挖掘者 发表于 2007/6/21 13:06:23
转自:http://www.chinabi.net/Article/binews/200706/423.html 作者:佚名    文章来源:ccw    点击数: 175    更新时间:2007-6-7 美国维吉尼亚州Richmond市的警察局长Rodney Monroe,将自己描述为终身制的警察,专业知识是关于和街头犯罪做斗争,而不是软件上。他说,他自己的浏览网页主要是查看高尔夫的积分。 但是在2005年他当上局长之后不久,一个从警察局退休的犯罪分析师让他试一试一些聪明的软件。这些程序会检查警察局收集到的信息,比如打给急救中心或者警察局的电话,但是加入了新的数据--比如,街区人口统计和发工资的日期,或者关于天气、交通流量模式和体育赛事--来预测犯罪会在哪里发生。 "起初这挺起来很疯狂,"Monroe回忆,"但是当你慢慢想一想,这就越来越有道理。" 比如,这个技术指出发工资的日期在西班牙人的街区抢劫犯罪会比较多,在这些街区很少人使用银行而且随身携带现金的人很容易成为抢劫的对象。另外,在夜间的某些时候,在一些地区会集中发生随意开枪的事件。额外的警力会部署在那些犯罪极可能发生的区域。 Richmond市的犯罪率在2006年下降了大约20%,并且在今年还将继续下降。 Richmond的经验是正在成为主流的先进计算和数学分析浪潮中的一部分。助长这个趋势的还有信息的数字化,更快、更廉价的计算和在线网络和数据收集的爆炸增长。 美国Cornell大学的计算机科学教授Jon Kleinberg说,结果是"测量方式上的革命"和"在将计算和算法处理引入到社会科学上迈出了一大步。"这种现象在经济学、商业和犯罪预防上是非常显著的。 传统上生产力研究是集中在制造,因为产品记件和工厂中工人的算人头是很容易测量的,MIT Sloan管理学院教授Erik Brynjolfsson注意到。 以往,信息工作者的生产力--在西方社会中劳动力占很多比例--都被调整到被经济学家标注为"难以测量"的一类中并且表示稍微的遗憾。 但是在数字时代,Brynjolfsson说,开启了对专家和办公室工人的劳动进行详细测量的大门,这些人处理来自于客户、供应商、同事和营销人员的信息。 "我对生产力的认识已经完全改变了,"Brynjolfsson说,他还是美国国家经济研究局的研究人员。 通过跟踪电子邮件流量、及时通讯消息和其他的数字通讯--从个人可识别的信息中剥离出来--他和其他研究人员开始对公司内部社会网络中流动的工作和想法进行研究--一分钟一分钟、一个数据位一个数据位。 "我们真的已经能够用比以往更加科学的方法来理解公司内部发生的事情。"他说。"这非常类似于17世纪显微镜为生物学所开创的道路,这样你可以看到血液细胞。现在我们开始看到信息字节在公司的器官中流动。" 利用计算和数学分析能力的想法由来已久。在1960年代和1970年代,"运筹学"(operations research)结合计算能力和数学主要是让工厂生成更有效率。而且在那一时期,"决策支持"(decision support)软件被用于帮助经理更加智能的使用在大计算文件--数据库--中的信息。 但是早期的努力主要限于信息访问和报表系统,Babson学院的教授Thomas Davenport说。数据的数量和质量通常是不够的,他表示,并且那时的软件并没有像现在这样做先进的优化以及预测运算。 更快和更廉价的计算和足够的数字格式的信息源--从企业资源规划系统、POS设备和Web站点采集--意味着大多数公司现在可以用工具做分析,这种分析过去只有少数的精英公司才能提供。"它现在开始成为主流,"和Jeanne Harris合著"Competing on Analytics: The New Science of Winning"的Davenport这么说。他说,门槛,"不再是技术,而是你有真正理解这些的高官" 的确有很多人真的懂这些。像Wal-Mart和Kohl这样大的零售商使用先进的计算和数学来更准确的预测多大尺寸的衣服应该送往哪些商店。Harrah和其他的赌场的吃角子老虎机导致优化客户的流量和利润,并且他们使用脸部识别软件鉴别有犯罪记录的人。瑞典首都斯德哥尔摩和其他城市使用交通流量数据和模式来确定"道路交通拥堵收费。" 在金融行业,Capital One和其他的银行挖掘各种交易数据来识别、停止欺诈交易。大型水泥公司Cemex,使用全球卫星定位系统和交通流量和天气数据来提高在墨西哥的送货的性能。 在过去的一年中,家庭电器制造商Whirlpool开始使用新的分析软件来自动扫描保证报告(warranty report)以及生产、供应商、销售和服务数据来尝试进一步修整保证成本和提高质量。由于它一天平均销售25000台洗碗机,这可不是一件小任务。"人工不可能看到和检查出所有这些趋势,"负责全球质量的总经理John Kerr说。 使用新的计算工具,Whirlpool将检查和修复会引起缺陷的部件以及生产问题的时间减少了30到90天。"数学真是神奇了。"Kerr说。 这就帮助解释了为什么商业智能软件现在是最火热的市场之一,由SAS、Business Objects、Cognos、MicroStrategy和Information Builders这些公司提供产品。在今年三月,Oracle出价33亿美元收购了Hyperion公司,一家商业智能软件公司。Microsoft也同样进入了这个领域。 但是捆绑不是将强大的计算能力和深入的数学工具结合在一起的唯一方式。大型技术服务公司,像IBM、Accenture和HP,都有自己的研究人员、程序员和行业专家可以为客户做这些工具。 互联网上的营销和广告是重型计算和尖端数据可以应用的一个社会市场。投资和启动资金都大量涌入到这个市场,很多高性能的计算设备也是一样进入了。 Basem Nayfeh具有Stanford大学的博士头衔,在学校中他做毕业研究的地方就在Google的创始人Sergey Brin的办公楼下面。Nayfeh的论文是关于多处理器芯片的,而且他现在在硅谷的一家公司实验室中的工作是关于气候和计算机设计。 如今37岁的Nayfeh,是Revenue Science公司的首席技术官,这个公司跟踪、分析和预测在线的行为帮助广告人寻找可能购买他们商品的人群。很多他的计算机奇才同事都是做在线营销的。 "如果5年或者10年前,有人问我们中的任意一个,是否我们是做广告的,"他说,"没有一个人会说是。"

阅读全文(3592) | 回复(2) | 编辑 | 精华
回复:【转】数据挖掘渐成主流
clementine(游客)发表评论于2007/7/7 10:23:57
以下为blog主人的回复: 呵呵,有兴趣的话可以到SAS的研发中心试试。对于喜欢数据挖掘的技术人员,那里是个很适合的地方。 我到你的Space上看了,发现你是在SPSS的研发中心工作吧?那样的话,去SAS的研发中心应该也是很合适的。SAS的研发中心在北京,宣武门庄胜广场,工作环境还挺好的。 嗯,只是目前似乎SAS主页上提供出来的职位还不是很多。而且好像跟我的方向也有点偏差。更重要的是,我对SAS产品不熟悉,一直做数据挖掘图形,估计我就算愿意去测试人家都不愿要。 其实我最想的是出来熟悉熟悉行业,看看外头数据挖掘到底是啥样子。

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
回复:【转】数据挖掘渐成主流
clementine(游客)发表评论于2007/6/27 13:32:12
唉,说到数据挖掘成主流,我也是一头脑的迷茫。一直在做技术方面的,属于那种学院派,实在是不知道外头商业应用到底是么个样子。 最近想换回北京工作发现机会还是太少啊,跟主流不相称。需要数据挖掘的,好机会基本上是从数据仓库延伸出来的,与其要数据挖掘,还不如要数据仓库。另外就是跟行业太密切,像我这样行业经验不多实在是很难找到工作啊,说白了这年头还真没几个公司愿意去培养人才! 充其量就是一些web2.0的公司,迫切需要数据挖掘的人来分析他们日益庞大的日志。 还有google,感觉这个公司需要数据挖掘,但远不是真正意义上的挖掘,面试问链表问排序问得我一塌糊涂,可是真正提到数据挖掘模型他们反而一脸茫然,真是奇怪了..... 以下为blog主人的回复: 呵呵,有兴趣的话可以到SAS的研发中心试试。对于喜欢数据挖掘的技术人员,那里是个很适合的地方。 我到你的Space上看了,发现你是在SPSS的研发中心工作吧?那样的话,去SAS的研发中心应该也是很合适的。SAS的研发中心在北京,宣武门庄胜广场,工作环境还挺好的。
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.074 second(s), page refreshed 144772258 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号