Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2504254 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
C4.5 Tutorial |
|
|
|
|
|
数据挖掘者 发表于 2006/3/15 20:28:20 |
|
|
|
转载:http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.htmlC4.5是决策树的经典算法,以上链接中对该算法进行了详细描述,并且给出了源程序和应用示例。
References:
P. Winston, 1992.
C4.5 is a software extension of the basic ID3 algorithm designed by Quinlan to address the following issues not dealt with by ID3:
Avoiding overfitting the data
Determining how deeply to grow a decision tree.
Reduced error pruning.
Rule post-pruning.
Handling continuous attributes.
e.g., temperature
Choosing an appropriate attribute selection measure.
Handling training data with missing attribute values.
Handling attributes with differing costs.
Improving computational efficiency.
It is installed for use on Grendel (grendel.icd.uregina.ca), but it may be set up on a local machine as follows:
C4.5 Release 8 Installation Instructions for UNIX
Download the C4.5 source code.
Decompress the archive:
Type "tar xvzf c4.5r8.tar" (not universally supported), or, alternatively,
Type "gunzip c4.5r8.tar.gz" to decompress the gzip archive, and thenType "tar xvf c4.5r8.tar" to decompress the tar archive.
Change to ./R8/Src
Type "make all" to compile the executables.
Put the executables into a "bin" subdirectory and include it in the path for command-line usage.
Manual Pages
c4.5: using the c4.5 decision tree generator.
verbose c4.5: interpreting output generated by c4.5.
c4.5rules: using the c4.5 rule generator.
verbose c4.5rules: interpreting output generated by c4.5rules.
consult: uses a decision tree to classify items.
consultr: uses a rule set to classify items.
Examples
Click on the links below for examples of C4.5 usage:
Example 1 - Golf
A simple, detailed example of how C4.5 and C4.5rules work.
Example 2 - Sunburn
The sunburn example revisited.
Example 3 - Homonyms
Advanced usage of, and a practical application of, C4.5 and C4.5rules. |
|
|
|
阅读全文(22287) | 回复(9) | 编辑 | 精华 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
slanting(游客)发表评论于2009/4/20 0:36:35 |
|
|
|
你好,我运行过这个程序,可是出错了,老是提示.names文件打不开,请问是什么原因啊 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
rosejeep(游客)发表评论于2007/10/23 15:27:42 |
|
|
|
以下引用test(游客)在2006-3-24 19:42:15的评论:
http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html
报告发现一个超级经典的决策树,excel实现!太直观太精辟了,哈哈,适合初学者。
以下为blog主人的回复:
这个地址打不开? 这个地址可以打开,我试验过并且下载了,编写这个的人实在是太牛鼻了。。。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
yhliya(游客)发表评论于2007/5/17 17:34:00 |
|
|
|
我对consultr能做什么不是很了解。我想问一下如果生成了规则了,那么如何把它用来对某一条记录进行决策呢〉? |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
yhliya(游客)发表评论于2007/4/15 15:51:35 |
|
|
|
对于c45对字符串如何定义呢?定义为离散的话因为离散值太多,如何处理阿?
以下为blog主人的回复:
如果字符型变量取值太多的话,应该不适合放在模型中。决策树算法其实还是一个归纳的过程,将一些普遍性归纳起来。如果变量取值太多的话,实际上是难以进行归纳的。
因此,在应用决策树算法时,会选取取值少的字符型变量,例如性别、行业等等。而象诸如姓名、地址之类的变量是不会放进来的。如果你觉得某些字符型变量的确重要,但它的取值又太多,那么可以进行变换后再用,例如将地址变换为省份、城市、地区等。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
金鱼(游客)发表评论于2006/7/15 22:40:02 |
|
|
|
你好,我现在做的毕业论文就是关于数据挖掘的,很想找个这方面的行家交个朋友,希望以后能和你多联系,谢谢!
以下为blog主人的回复:
You are welcome~~~ |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
Rural(游客)发表评论于2006/4/15 9:52:14 |
|
|
|
oh,太好了,谢谢!!
我也想转载,可以不?
以下为blog主人的回复:
可以,没有问题,学术资源本来就应该共享的。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
test(游客)发表评论于2006/3/24 19:42:15 |
|
|
|
http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html
报告发现一个超级经典的决策树,excel实现!太直观太精辟了,哈哈,适合初学者。
以下为blog主人的回复:
这个地址打不开? |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
|
回复:C4.5 Tutorial |
|
|
|
|
|
数据挖掘者发表评论于2006/3/20 10:02:15 |
|
|
|
对于有计算机学科背景的人来说,开始着手学习数据挖掘,我比较偏向于先看点翻译过来的经典图书(比如《数据挖掘:概念与技术》、《机器学习》)等,当你已经了解了相关概念和常用算法的基本思路后,希望进一步深入研究时,就需要看些英文论文了(比如IEEE、ACM等刊物上的)。
其实做研究的过程和写论文的过程类似,先了解背景情况,知道为什么要做这方面的研究、别人都做了些什么;然后看看还有什么可以去做的,即明确研究方向;当方向确定后,就考虑可以用什么方法来解决这些尚未被解决的问题(可能是对现有算法的改进,也可能是自己提出更好的模型);最后,则是实现自己的解决方法,测试评估,证明这种方法的确有效。
呵呵,我的这个blogger中的内容也很有限,而且应该可以整理得更好一些,只是没时间啊。
dwway偏向于实际问题(行业应用、项目实施等),而dmresearch偏向于研究方面,可能各有侧重吧。 |
|
|
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
|
|
|
|
| |