Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2502554 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
如何确定模型的准确性 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/13 13:37:17 |
|
|
|
以下帖子是我在dwway(数据仓库之路)论坛上的回贴: http://www.dwway.com/vbbs/showthread.php?p=106962#post106962
qinhui99:大家好,我在做一个响应模型的练习。我使用C5.0算法,预测用户是否对某产品响应。用训练数据得到的准确性是66.4%,用测试数据得到的准确性是74.6%。那么我这个模型的准确性应该是多少?
孤独一狼:用真实数据去验证
qinhui99:我这里的训练数据和测试数据都是真实的数据。这两个数据都是从促销活动得到的结果数据。不是很明白你说的“真实数据”的含义。能否说的更详细些?
Sunstone:实际上两个评估结果都应该作为模型的准确性,基于训练集数据进行的评估称为闭集测试(训练和测试使用相同的数据集),基于测试数据进行的评估称为开集测试(训练和测试使用的是完全不同的数据集)。因此你可以给出如下的性能评估结果:
准确性:闭集测试(66.4%),开集测试(74.6%)
此外,因为单次测试和基于单个数据集的测试很可能缺乏足够的说服力,建议你将训练集和测试集划分为多个数据集,进行多次测试,最后给出综合的评估结果。
随着时间的推进,预测模型的泛化能力和退化速度也是很值得关注的。狼兄所说的“用真实数据去验证”可能指的是你要用模型来验证它在后续营销活动中的有效性。比如你在建立模型时用的是3月份的营销数据, |
|
|
|
阅读全文(3117) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
保险业相关术语 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/8 10:47:21 |
|
|
|
最近在研究SAS保险业智能解决方案,因此搜集一些保险业相关术语解释。
网络资源: 中国保险网(http://www.rmic.cn/)
何谓第三者责任险? http://dealer.auto.263.net/20040914/00431537.html
第三者是指被保险人及其财产和保险车辆上所有人员与财产以外的他人、他物。所谓"所有人员"指车上的驾驶员和所有乘坐人员。这些人不属于第三者,但下车后除驾驶员外,均可视为第三者。私人车辆的被保险人及其家属成员都不属于第三者,至于保险车辆上的财产,是指被保险人及其驾驶员所有或其代管的财产,这些财产均不属于第三者责任。 哪些车可以保第三者责任? 第三者责任险的保险车辆种类不受限制,即各种机动车辆或专业用途车辆均可投保,但无照驾驶的汽车除外。保险车辆的使用包括车辆行驶停放的过程。碰撞责任如何处理? 保险车辆与未保险车辆相撞,致使未保险车辆上的司机、乘客伤亡或车上装载的货物损坏,属第三者赔偿责任。如果相撞
(下面还有33字) |
|
|
|
阅读全文(3494) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
2005年数据挖掘相关会议 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/7 13:40:32 |
|
|
|
来自:http://www.kdnuggets.com/meetings/
Meetings and Conferences in Data Mining, Knowledge Discovery, Genomic Mining, and Web Mining
Aug | Sep | Oct | Nov | (下面还有44字) |
|
|
|
阅读全文(2761) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
关于“电信业客户流失预测” |
|
|
|
|
|
数据挖掘者 发表于 2005/7/5 17:19:06 |
|
|
|
这个帖子是我在数据挖掘研究院上的一篇回贴,原贴我也放在本文的下方:
我曾经看过所谓预警模型,只是对一些指标设定阈值,然后多个指标加权评分之后,得到总预警评分,若超过阈值,则提出预警。 问题在于:这种思路有些一刀切,指标的选取和阈值的设定都存在很大的人为性,也缺乏有效性评估,所以个人觉得没有太大的实践价值。
再谈流失预测分析,业界普遍都是采用决策树算法来建立模型。同意heilql的一些看法,包括挖掘流程的大致描述、指标选择是重点等。其实在我们以前所做的多个客户流失预测项目中,更重要的还有:明确业务问题的定义和如何运用挖掘结果来指导客户挽留活动。以下分别简要说明:
① 明确业务问题定义 我一直觉得数据挖掘就是个不断尝试的过程,没有定式。也许挖掘人员掌握了一些套路,但是在你明白要做什么以及数据的情况到底如何之前,其实你是不能给客户任何保证的。业务问题定义类似于需求分析,只有明确了业务问题才能避免多走弯路,浪费人力物力。 对于客户流失预测来说,一般要明确 |
|
|
|
阅读全文(13308) | 回复(7) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
KDD Cup竞赛介绍 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/5 15:41:52 |
|
|
|
以下内容来自:http://youth.ict.ac.cn/fuyan.ppt 同时请参考:http://www.kdnuggets.com/datasets/kddcup.html
KDD Cup简介 由SIGKDD(ACM Special Interest Group on Knowledge Discovery and Data Mining)组织,每年一次的KDD竞赛,和SIGKDD国际会议同期举行。同时面向学术界和业界。
历届KDD Cup的主题: 2004, 有指导分类的多种性能度量 2003, 网络挖掘及使用日志分析 2002, 生物信息及文本挖掘(分子生物学领域) 2001, 生物信息及医药(医药 |
|
|
|
阅读全文(15817) | 回复(6) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
KDnuggets:Polls:常用数据挖掘技术(Feb 2005) |
|
|
|
|
|
数据挖掘者 发表于 2005/7/3 13:48:34 |
|
|
|
IDMer总结: 决策树和回归是目前用于预测和分类的主要技术,特别是商用领域,理由是解释能力强,便于指导业务。神经网络、SVM和Bayesian等技术仍限于研究领域。 聚类分析则是常用的描述型挖掘技术,一般用于客户分群。 统计分析和可视化是基础,无论是商用还是研究都应掌握和关注。 关联分析和时间序列分析也是常用的技术。
以下内容引自KDnuggets(http://www.kdnuggets.com/polls/2005/data_mining_techniques.htm): KDnuggets : 删除 |
|
|
|
|
|
|
|
KDnuggets:Polls:数据挖掘工具的选用(May 2005) |
|
|
|
|
|
数据挖掘者 发表于 2005/7/3 13:35:06 |
|
|
|
IDMer总结: 在商用领域的数据挖掘工具选择中,SPSS和SAS占据了统治地位(特别是针对中高端的商用项目);Microsoft SQL Server领先于Oracle、IBM等挖掘工具的确让人有点出乎意料(估计还是在比较小的项目里会选用);Excel占据了较大份额一方面是由于它过于流行易于掌握,另一方面其可编程性(通过VBA)应该是开发人员选用它的最大原因。 在研究领域,自己开发程序可以寻求算法上的改进和突破,S-Plus、Statistica、Weka、MATLAB等等都是不错的选择。 我不太熟悉CART/MARS/TreeNet/RF,有哪位了解它的请在本贴留言介绍一下。
以下内容引自KDnuggets(http://www.kdnuggets.com/polls/2005/data_mining_tools.htm): 删除 |
|
|
|
|
|
| | |