« | October 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | |
| 公告 |
数据仓库&数据挖掘
对某一件事需要坚持方能真正完成这件事
薛 峰
2009.02.03 |
Blog信息 |
blog名称:数据仓库与数据挖掘 日志总数:85 评论数量:14 留言数量:0 访问次数:724166 建立时间:2005年3月17日 |

| |
[数据仓库]数据仓库学习研究 文章收藏, 网上资源
薛 峰 发表于 2005/6/23 8:44:37 |
数据仓库学习研究
信息处理技术的发展,使得各类数据、信息急剧增长,给数据的传输、存储都带来了许多新的问题。人们希望能够看到所有数据和信息的综合情况,而这些数据与事务处理有许多不能被原有数据结构描述,不能被现有应用系统综合使用。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据来自联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等,这个数据中心就叫数据仓库。数据仓库技术的应运而生,成为信息技术领域非常热门的话题之一。
数据仓库技术的提出,建立了一种体系化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换成集成、统一的信息。
1.数据仓库概念
数据仓库是一个面向主题的、集成的、与时间相关、稳定的数据集合,以便支持管理决策。
“面向主题”的数据仓库要求进行数据库设计,而一些数据库设计者忽略了这一重要环节,根本没有进行正规的数据库设计。他们简单地把原有数据库或者并非专为数据仓库设计的现有决策支持系统(DSS)中的数据复制到数据仓库中。这样建立的不是良构的、可独立维护的主题数据库。在数据仓库设计过程中,数据以所代表的业务内容划分,而不是以应用划分。
“数据集成性”意味着数据仓库中的数据采用统一的格式和编码方式。在命名协议、关键字、关系、编码和翻译中的一致性问题必须通过精心的设计取得。
“与时间相关”意味着数据仓库中的数据大都与时间相关。因此,数据仓库中的数据组织方式要便于按时间段计算和提取数据。
“稳定的”是指数据仓库中的数据不进行实时更新。通常数据是以每夜、每周或每月为周期进行升级,这一升级的过程不是简单的拷贝,而是要经过复杂的提取、概括、聚集和过滤等操作过程。数据一旦进入数据仓库,就不允许随便更新。
2.数据仓库的内涵
从数据仓库的基本概念及产生背景看来,数据仓库具有以下内涵:
(1)数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。
(2)数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。
(3)传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。
(4)数据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。
3.数据仓库的基本组成
数据仓库DW( Data Warehouse) 既是一种结构和方法,又是一种技术。各种信息从不同信息源提取出来,然后将其转换成公共的数据模型并和仓库中已有的数据集成,当用户向仓库查询时,需要的信息已准备就绪,数据冲突、表达不一致等问题已经得到解决,这样,决策查询更容易、更有效。作为一种满足数据仓库管理要求的特殊的数据库系统,DW具体包含以下五个基本功能部分:
数据定义:主要完成数据仓库的结构和环境的定义,包括:定义数据仓库中数据库的模式、数据仓库的数据源和从数据源提取数据的一组规则或模型。
数据提取:数据提取部分负责从数据源提取数据,并对获得的源数据(source data)进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。
数据管理:数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据分配完成获取数据的存储分布及分发到多台数据库服务器,维护服务完成数据的转储和恢复、安全性定义和检测等。另外,用户直接输入系统的数据也由该部分完成。
数据应用:数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。对于涉及到众多数据的综合性较强的分析,可以借助专业数据分析工具。在客户机/服务器体系结构下,这部分功能可以放在客户端来完成,以便充分利用客户机上丰富的数据分析软件。这部分主要包括了报表生成、OLAP、数据挖掘、决策支持工具应用等方面,其中OLAP和数据挖掘是近年来研究的重点和热点。
4.数据仓库体系结构
数据仓库是储存、管理信息数据的一种组织形式,其物理实质仍是计算机存储数据的系统,只是由于使用目的不同,其存储的数据在量和质以及前端分析工具上与传统信息系统有所不同。数据仓库按照功能分为以下几部分。
1、元(Meta)数据。元数据是数据仓库的核心,是关于数据的数据,是关于数据和信息资源的描述信息。它通过对数据的内容,质量,条件和其他特征进行描述和说明,帮助人们有效地定位、评论、比较、获取和使用相关数据。
2、源数据。指分布在不同的应用系统中,存储在不同的平台和不同的数据库中的大量的数据信息,是数据仓库的物质基础。
3、数据变换工具。为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。变换主要包括提炼、转换。数据提炼主要指数据的抽取,并对抽取数据删去不需要的运行信息,检查数据的完整性和相容性等;数据转换指统一数据编码和数据结构、给数据加上时间标志、根据需要对数据集进行各种运算以及语义转换等。数据变换工具为数据库和数据仓库之间架起了一座桥梁,使源数据得到了增值和统一,最大限度地满足了数据仓库高层次决策分析的需要。
4、数据仓库。源数据经过变换进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维是数据仓库反映现实世界动态变化的基础,他们的数据组织方式是整个数据仓库技术的关键。
5、数据分析工具。数据仓库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要功能强大的分析和挖掘工具,是数据仓库系统的重要组成部分。分析工具主要实现对数据仓库中的数据进行分析和综合。挖掘工具负责从大量的数据中发现数据的关系,找到可能忽略的信息,预测趋势和行为。
源数据
数据装载
数据转换
数据抽取
数据仓库spatial data warehouse
可视化工具
多维分析工具
数据挖掘工具
多维数据
源数据
源数据
客户端分析工具层
数据仓库层
数据变换工具层
数据仓库体系结构
总结
数据仓库并非是一个仅仅存储数据的简单信息库,它是一个以大型数据管理信息系统为基础,附加在这个数据库系统之上,存储了从企业所有业务数据库中获取的综合数据,并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。
思考
建立一个数据仓库需要经过以下几个处理过程:①数据仓库设计;②数据处理;③数据展现。
Ø 数据仓库设计
数据仓库在设计之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(OLTP)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将导致迷失数据提取方向,偏离主题。为此,在模型设计过程中,需要在OLTP数据和主题之间找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策和分析的需要。
Ø 数据处理
由于业务系统的开发一般有一个较长的时间跨度,这就造成同一种数据在业务系统中可能会有多种完全不同的存储格式,甚至还有许多数据仓库分析中所要求的数据在业务系统中并不直接存在,而是需要根据某些公式对各部分数据进行计算才能得到。因此,确定如何抽取或查询源数据并非易事,因为源数据往往存储在多个地方,可能是一个RDMS、一个文本文件、一个Excel 文件、一个DBF 文件或其他类型文件。
在数据处理过程中,从设计的角度讲最好忽视一些连接问题,把主要精力集中在源数据如何映射目标数据上,因为,结构统一、信息完备的数据平台是决策分析的根本保证。这里提醒一点,在数据抽取分析时需要对业务深刻理解,不能简单的了解。比如我想取一个数据,在源系统中多个表都有,而你选择了一个。在当时不会有什么问题,但随着后续工作的开展和分析就会出现意想不到的结果。所以从哪一个表取不是随便的。
数据库
导出数据文本
DW服务器指定目录
导入模块
数据库
数据库
导出数据文本
导出数据文本
系统专用数据库同时,行业集约化、精细化管理的不断推进,建立统一的数据平台成为了今后信息分析的迫切要求。为便于数据信息的统一转换,减少原型系统对源数据库系统的依赖,在对异构数据源进行转换过程中往往采用文本导出、导入机制,其数据转换模式结构图如下
文件处理模式优点:
①避免了数据仓库系统对源数据库系统的过分依赖;
①数据提供方能以简单的形式将数据提供给数据仓库系统,以便进行决策分析;
②屏蔽了源数据格式差异;
③能够以统一的方式处理获得的源数据,从而提高了数据预处理效率;
④以导出的文本文件作为数据源,避免了直接对源数据库的操作,保障了源数据库系统的安全及效率。
Doc1.doc
信息中心
夏勇
2005年5月28日 |
|
[数据仓库]Essbase VS Cognos- 原创空间, 文章收藏, 随笔
薛 峰 发表于 2005/5/30 17:48:04 |
Essbase和Cognos的对比:
1、应用面:Essbase和Cognos都是企业级OLAP。个人觉得Essbase更适合大数据量的OLAP应用,IBM的工程师说Essbase能够支持200G的Cube,在一篇文章上看到Essbase建立的Cube达到500G。以前在一个项目中,事实表中有上亿条记录,用到Essbase,现在的Cube估计也快到200G了。不过,硬件投资也很昂贵,OLAP服务器是IBM P680 18 CPU和24G RAM的主机。至于Cognos,觉得支持的数据不够大,在两个项目中,都只是几百万条记录,不知道有没有更大的Cube。
2、性能:在同样的硬件条件下,Cognos的性能是优于Essbase的,这是由于Cognos和Essbase采用了不同的数据存贮原理。Essbase的存贮原理决定了Cube膨胀比较大,I/O花费的时候也多。Cognos的存贮原理不是很清楚,但是同样结构的Cube,Cognos比Essbas
(下面还有4092字) |
|
[数据仓库]数据库设计经验谈(夜来香) 网上资源, 随笔, 心得体会
薛 峰 发表于 2005/4/15 23:29:53 |
一个成功的管理系统,是由:[50%的业务 + 50%的软件]所组成, 而 50%的成功软件又有[25%的数据库 + 25%的程序]所组成,数据库 设计的好坏是一个关键。如果把企业的数据比做生命所必需的血液, 那么数据库的设计就是应用中最重要的一部分。有关数据库设计的材 料汗牛充栋,大学学位课程里也有专门的讲述。不过,就如我们反复 强调的那样,再好的老师也比不过经验的教诲。所以我归纳历年来所 走的弯路及体会,并在网上找了些对数据库设计颇有造诣的专业人士 给大家传授一些设计数据库的技巧和经验。精选了其中的 60 个最佳 技巧,并把这些技巧编写成了本文,为了方便索引其内容划分为 5 个部分: <
(下面还有44字) |
|
[数据仓库]数据仓库技术在电信企业的应用 原创空间
薛 峰 发表于 2005/4/12 13:08:14 |
摘要:数据仓库技术为企业深层次地挖掘、分析当前和历史的生产业务数据,自动快速获取其中有用的信息提供了条件。在电信企业中利用这项技术以及以它为基础的决策支持、联机分析、数据挖掘和客户关系管理等系统将有利于提高电信企业的经营水平和反应能力,进而提高其市场竞争力。本文着重阐述了数据仓库的基本概念与特征,它和CRM的结合以及它在电信企业中的应用前景。
关键词:电信 数据仓库 CRM
一、引言 随着电信企业经营环境的变化,市场竞争越来越激烈。如何有效地利用有利的工具 提高经营决策水平,成为今天每个电信企业必须面对的问题。数据仓库就是一种提高企 业业务分析能力和决策水平的有效工具。业务据调查,在许多引入竞争机制的国家或地区,如美国、英国,日本,电信公司都建立数据仓库系统作为经营决策的工具,提高客户满意度和经营利润。国外专业电信顾问公司研究调查发现,数据仓库和统计分析模型两项独特能力是竞争优势的来源,是当今电信公司成功的重要原因之一。 电信企业一直使用计算机处理各种业务,包括设备维护(网络系统)、业务管理(九七系统、财务系统)、财务管理等
(下面还有78字) |
|
[数据仓库]SQL语句性能调整 网上资源, 读书笔记
薛 峰 发表于 2005/4/8 13:57:31 |
SQL语句性能调整的目标是? 去掉不必要的大表全表扫描 不必要的大表全表扫描会造成不必要的输入输出,而且还会拖垮整个数据库; 检查优化索引的使用 这对于提高查询速度来说非常重要 检查子查询 考虑SQL子查询是否可以用简单连接的方式进行重新书写; 调整PCTFREE和PCTUSED等存储参数优化插入、更新或者删除等操作; 考虑数据库的优化器; 考虑数据表的全表扫描和在多个CPU的情况下考虑并行查询; 一、 索引(INDEX)使用的问题 1. 索引(INDEX),用还是不用?这是个的问题。 是全表扫描还是索引范围扫描主要考虑SQL的查询速度问题。这里主要关心读取的记录的数目。根据DONALD K .BURLESON的说法,使用索引范围扫描的原则是: 对于数据有原始排序的表,读取少于表记录数40%的查询应该使用索引范围扫描。对读取多于表记录数40%的查询应全表扫描。 对于未排序的表,读取少于表记录数7%的查询应该使用索引范围扫描,反之,对
(下面还有78字) |
|
|