Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2497018 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
请教问题:) |
|
|
|
|
|
为了秋天(游客)发表留言于2008/7/11 16:05:36 |
|
|
|
张博士,您好:
我是个在校学生,方向大概算是数据挖掘中的分类这块的,刚开始看,老师希望我先根据某个现成的算法做个仿真,我决定选用c4.5,于是我去网络上下了几个有源码的程序,包括weka,结果我发现他们都是读数据文件的,每个程序要求的数据的格式又各不相同,这使的我单独下载的测试数据包必须转换成他们要求的格式才使用,很麻烦,所以我想请教一下,为什么这些程序不设计成读数据库文件的?我如果仿真的该怎么弄?
希望得到您的帮助,谢谢:)
以下为blog主人的回复:
weka不支持数据库访问吗?问问DMman吧。 从数据库中导出数据也是很容易的,最常见的是导出为纯文本或CSV格式,查查数据库联机帮助就明白怎么弄了。一般分析软件都会支持纯文本格式。 | |
|
|
|
| 编辑 | 主人回复 | 删除 |
|
|
|
|
|
|
|
請問大大有可運行c4.5的源碼? |
|
|
|
|
|
bluse_Sea(游客)发表留言于2008/7/11 12:17:45 |
|
|
|
請問大大有可運行c4.5的源碼? 我的qq是 841800419 我的真很急須要希望可以跟我連絡!!
以下为blog主人的回复:
这个在我以前的帖子里有,仔细翻翻吧。 | |
|
|
|
| 编辑 | 主人回复 | 删除 |
|
|
|
|
|
|
|
希望得到你的指点 |
|
|
|
|
|
jjwei2003(游客)发表留言于2008/6/22 23:57:20 |
|
|
|
老师,您好,我现在是研一,方向确定为搞绩效评价方面,可我还没有选择用什么方法来做,请您指教。
另外,在数据挖掘方面我还是了解的不算太透测,想请教您如何快速入门啊?感谢回复!!!
以下为blog主人的回复:
Google学术中查查“Performance Management”。 | |
|
|
|
| 编辑 | 主人回复 | 删除 |
|
|
|
|
|
|
|
非常希望得到您的指点 |
|
|
|
|
|
sheri2006(游客)发表留言于2008/6/11 20:46:33 |
|
|
|
张博,您好:
我是在校的学生,现在正在做关于web自动分类的课题。现又一个问题要请教一下:在TF-IDF的公式中,idf=log(N/df).这里的N是指所有类别中样本总数,还是指某一个类别中的样本数?同样,df是指某一个类别中出现某个词的样本个数,还是指在所有的类别中出现该词的样本总数。
非常希望得到您的指点,谢谢!
以下为blog主人的回复:
df是document frequency,即文档频率,指的是某个关键词在训练集中至少出现一次的文档数目,即该关键词的文档频率。 | |
|
|
|
| 编辑 | 主人回复 | 删除 |
|
|
|
|
|
|
| |