« | September 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | |
| 公告 |
数据仓库&数据挖掘
对某一件事需要坚持方能真正完成这件事
薛 峰
2009.02.03 |
Blog信息 |
blog名称:数据仓库与数据挖掘 日志总数:85 评论数量:14 留言数量:0 访问次数:723421 建立时间:2005年3月17日 |

| |
[数据挖掘]Web分析工具概述 原创空间
薛 峰 发表于 2005/4/27 22:27:47 |
Web分析工具概述
挑战
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?
机会
所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
我们能做什么
3.1 基本分析
流量分析
随时间的变化,网络流量怎样化?每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
我们做的哪些广告给我们带来了最大的访问量?投资收益比是多少?我们自己网站上的广告又有多少点击率,什么位置上的广告点击率最高?
网站出入口分析
用户在哪里进入网站。每次都经过首页?还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站?有多少人是这样出去的?
访问路径分析
用户的访问路径都是什么样的?他们怎样进入某一特定内容?我们吸引用户进入一个特定目标的措施效果如何?
用户来源分析
我们最重要的用户都来自哪里?什么国家、地区,从哪个网站过来?那个ISP对我来说是最重要的,在来源上我们的用户有哪些特征?
浏览器和平台分析
用户都用什么样的浏览器、什么操作系统访问我的网站?在设计网站时具体要做哪些权衡和优化。
3.2 智能分析(数据挖掘)
网页相关性分析
哪些网页具有密切的关系,如果很多人具有a.htmlà b.htmlà c.html这样的访问模式,则我们可以认定a.html和c.html之间有一定的关系,是否考虑在a.html上直接加上c.html的链接?
用户访问模式分析
有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其他的网页?即按不同的用户访问模式,把网页分组,得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣),即根据用户行为的相似性,把用户按行为模式分类。
用户归类
通过用户填写的信息如何把用户归入某一特定的类别?然后可对同一类别中的用户提供相似的服务。
用户可以得到什么
对网站的修改更加又目的、有依据,稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞
查看网站流量模式,找到网站最重要的部分。
发现用户的需要和兴趣,对需求强烈的地方提供优化。
根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户。
在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP和搜索引擎
测定合作和结盟网站对自身的价值
提供个性化网站
对大多数Web应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态的提供要浏览的建议,自动提供个性化的网站。
典型商业问题
网站的访问量增加了吗?在什么地方?为什么?
用户对我们的新的应用(功能、内容)反映如何?
我们的新一轮宣传攻势效果如何?
怎样评价我们做的某一项广告?
访问我们网站的都是一些什么人?
用户是否要经过复杂的步骤才能得到他想要的东西?
哪些应用(内容)占据了大部分的网络流量?
哪些用户在使用网站上体现了相似的行为?
技术问题
数据处理
如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的log文件,二是用网络监听的办法,在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。
统计分析
在数据库的基础上,针对不同的数据运行各种统计函数。
数据挖掘
数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。
关联规则( |
|
[数据挖掘]互 联 网 数 据 挖 掘 综述—— Web使用记录的挖掘 原创空间
薛 峰 发表于 2005/4/27 22:23:23 |
互 联 网 数 据 挖 掘 综 述
—— Web使用记录的挖掘
摘要:
互联网发展到今天已经成为了人们生活中不可缺少的一部分了,而互联网从某种意义上讲也可以看作是一个庞大的数据库,并且涉及到各个领域。那么在这个庞大的数据库中,数据挖掘技术有什么用武之地呢?本文通过对互联网上数据挖掘的简单综述,说明现在互联网上数据挖掘的一些趋势和相关技术,并且着重分析一下其中一种互联网上数据挖掘的应用方向相关的技术——Web使用记录的挖掘。
关键字:数据挖掘,链接结构,Web,日志记录
一. 概述
目前,互联网已经和我们的生活密不可分,它可以说是一个巨大的、分布广泛和全球性的信息服务中心。它涉及新闻、广告、消息信息、金融信息、教育、政府、电子商务和许多其他信息服务。根据有关机构统计,目前互联网的数据以几百兆兆字节来计算,而且增长速度很快,如果将这个庞大的数据库用一般的统计分析来处理的话,显然是有心无力的。自从数据挖掘技术成功地应用于传统数据库领域之后,人们对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也寄予了厚望,并且做了许多相应的研究和发展了相应的技术。[1]
二. 互联网数据挖掘面临的技术难点
将数据挖掘技术应用到互联网数据上,理论上可行,但是由于互联网自身的特点,也使它面临一些需要克服的技术难点:
首先,互联网上的数据是十分庞大的,而这种庞大的数据还是动态的,并且增长速度惊人。如果简单为其创建一个数据仓库显然是不现实的。目前一般的做法采用多层Web信息库的构造技术来处理,将互联网目前的庞大数据统一看成是0层,最详细的一层,而不像一般数据库挖掘分析那样另外单独做一个历史数据的数据仓库。
其次,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。毕竟人们原来就希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。目前由于XML技术的出现,为解决这个难题提供了一条可行的道路。
还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。
最后,虽然说互联网上信息很多,但实际是你需要的信息却不多,如何在信息海洋中不被淹没,尽可能地找到你所需要的信息也是一个难题。
可以说,在互联网上应用数据挖掘技术的前途是光明的,但道路也是曲折的。
三.
阅读全文(5411) | 回复(0) | 编辑 | 精华 | 删除 |
| | |
[数据挖掘]数据挖掘技术 网上资源
薛 峰 发表于 2005/4/9 22:53:13 |
数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神
(下面还有646字) |
|
[数据挖掘]数据挖掘技术简介 网上资源, 软件技术, 科学研究
薛 峰 发表于 2005/3/23 22:30:14 |
摘要:数据挖掘是目前一种新的重要的研究领域。本文介绍了数据挖掘的概念、目的、常用方法、数据挖掘过程、数据挖掘软件的评价方法。对数据挖掘领域面临的问题做了介绍和展望。
关键词:数据挖掘 数据集合
1. 引言
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。
2. 数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
⑴关联分析(association analysis)
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性 |
|
|