首页(175) 数据挖掘研究(27) 数据挖掘实践(53) 数据挖掘介绍(25) 杂谈(59) 管理页面   写新日志   退出   关于IDMer

 Blog信息
 
blog名称:IDMer (数据挖掘者)
日志总数:175
评论数量:848
留言数量:119
访问次数:2497018
建立时间:2005年6月24日

 日志更新
 

 我的相册
 

It's me!


 最新评论
 

 留言板
 

 链接
 

 联系方式

 日志搜索





 公告
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com
我的新浪微博:
@张磊IDMer
 网络日志
留言板(签写留言)

请教问题:)
为了秋天(游客)发表留言于2008/7/11 16:05:36

张博士,您好:

    我是个在校学生,方向大概算是数据挖掘中的分类这块的,刚开始看,老师希望我先根据某个现成的算法做个仿真,我决定选用c4.5,于是我去网络上下了几个有源码的程序,包括weka,结果我发现他们都是读数据文件的,每个程序要求的数据的格式又各不相同,这使的我单独下载的测试数据包必须转换成他们要求的格式才使用,很麻烦,所以我想请教一下,为什么这些程序不设计成读数据库文件的?我如果仿真的该怎么弄?

        希望得到您的帮助,谢谢:)

以下为blog主人的回复:

weka不支持数据库访问吗?问问DMman吧。
从数据库中导出数据也是很容易的,最常见的是导出为纯文本或CSV格式,查查数据库联机帮助就明白怎么弄了。一般分析软件都会支持纯文本格式。

| 编辑 | 主人回复 | 删除
請問大大有可運行c4.5的源碼?
bluse_Sea(游客)发表留言于2008/7/11 12:17:45

請問大大有可運行c4.5的源碼? 我的qq是 841800419  我的真很急須要希望可以跟我連絡!!

以下为blog主人的回复:

这个在我以前的帖子里有,仔细翻翻吧。

| 编辑 | 主人回复 | 删除
希望得到你的指点
jjwei2003(游客)发表留言于2008/6/22 23:57:20

老师,您好,我现在是研一,方向确定为搞绩效评价方面,可我还没有选择用什么方法来做,请您指教。

另外,在数据挖掘方面我还是了解的不算太透测,想请教您如何快速入门啊?感谢回复!!!

以下为blog主人的回复:

Google学术中查查“Performance Management”。

| 编辑 | 主人回复 | 删除
非常希望得到您的指点
sheri2006(游客)发表留言于2008/6/11 20:46:33

张博,您好:

 我是在校的学生,现在正在做关于web自动分类的课题。现又一个问题要请教一下:在TF-IDF的公式中,idf=log(N/df).这里的N是指所有类别中样本总数,还是指某一个类别中的样本数?同样,df是指某一个类别中出现某个词的样本个数,还是指在所有的类别中出现该词的样本总数。

非常希望得到您的指点,谢谢!

以下为blog主人的回复:

df是document frequency,即文档频率,指的是某个关键词在训练集中至少出现一次的文档数目,即该关键词的文档频率。

| 编辑 | 主人回复 | 删除
留言数:135  « 1 2 3 4 5 6 7 8 9 10 »
给idmer签写留言:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写留言内容!)


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.063 second(s), page refreshed 144760094 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号