数据仓库与数据挖掘

（1）数据库技术。SQL 统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符，难道我们"只会查询"吗？所以就有很多专家纷纷转向数据仓库与数据挖掘技术，从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少，只有不协调的两层，这样的结构就造成了只有程序员能编程，老板只能求助于这些"专家"。
（2）人工智能技术。人工智能技术的三大难题："知识获取、知识表示、缺乏常识"直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上，它可以发挥重要作用，这使得它转向数据挖掘技术。
（3）概率与数理统计。数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限，这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化，概率与数理统计将获得新的生命力。
数据挖掘所能发现的知识有如下几种：广义型知识、特征型知识、差异型知识、关联型知识、预测型知识、偏离型知识。所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决

阅读全文(4689) | 回复(0) | 编辑 | 精华 | 删除

[数据挖掘]数据挖掘在电信欺诈侦测中的应用
随笔, 心得体会

薛峰发表于 2005/6/28 10:03:29

摘要：电信领域欺诈现象比较突出，本文对数据挖掘技术在电信欺诈侦测中的应用进行研究,并利用某移动运营商的真实数据进行有效性验证。具体通过商业理解、数据理解、数据准备、模型生成、模型应用等几个步骤完成欺诈的侦测。在模型生成阶段利用聚类算法中的Kohonen神经网络算法，Kohonen是一种自组织学习算法。
关键字：数据挖掘；欺诈侦测；kohonen算法；CRISP-DM
1 引言
随着移动业务的迅猛发展，移动通信业的收入日益增长。但是，随之而来的移动网络的欺诈行为也不断涌现，全球移动通信业都广泛面临着无线欺诈的严重问题，从而导致电信运营商的收入受到损失，额外支出的增加，进而致使利润下降，而移动用户的合法权益也受到损害，电信运营商的信誉无法得到保障。
无线欺诈类型可以简单的分为四类：（1）时间欺诈：占用了移动通信的时长而不付费用，该类欺诈可以分为两类，一是技术型欺诈(包括码机、魔术电话等)，另一类是用户欺诈(漫游、滥用补充业务以及善意的欺诈行为)；（2）内部欺诈：运营商内部人员利用职权非法牟利；（3）手机欺诈：进行非

阅读全文(5752) | 回复(0) | 编辑 | 精华 | 删除

[数据挖掘]数据挖掘部分算法的matlab实现 C4_5
网上资源, 随笔

薛峰发表于 2005/6/27 14:21:09

function D = C4_5(train_features, train_targets, inc_node, region)

% Classify using Quinlan´s C4.5 algorithm
% Inputs:
% features - Train features
% targets     - Train targets
% inc_node    - Percentage of incorrectly assigned samples at a node
% region     - Decision region vector: [-x x -y y number_of_points]
%
% Outputs
% D - Decision sufrace

%NOTE: In this implementation it is assumed that a feature vector with fewer than 10 unique values (the parameter Nu)
%is discrete, and will be treated as such. Other vectors will be treated as continuous

[Ni, M] = size(train_features);
inc_node    = inc_node*M/100;
Nu          = 10;

%For the decision region
N           = region(5);
mx          = ones(N,1) * linspace (region(1),region(2),N);
my          = linspace (region(3),region(4),N)´ * ones(1,N);
flatxy      = [mx(:), my(:)]´;

%Preprocessing
%[f, t, UW, m]      = PCA(train_features, train_targets, Ni, region);
%train_features  = UW * (train_features - m*ones(1,M));;
%flatxy          = UW * (flatxy - m*ones(1,N^2));;

%Find which of the input features are discrete, and discretisize the corresponding
%dimension on the decision region
discrete_dim = zeros(1,Ni);
for i = 1:Ni,
   Nb = length(unique(train_features(i,:)));
   if (Nb <= Nu),
      %This is a discrete feature
      discrete_dim(i) = Nb;
      [H, flatxy(i,:)] = high_histogram(flatxy(i,:), Nb);
   end
end

%Build the tree recursively
disp(´Building tree´)
tree        = make_tree(train_features, train_targets, inc_node, discrete_dim, max(discrete_dim), 0);

%Make the decision region according to the tree
disp(´Building decision surface using the tree´)
targets = use_tree(flatxy, 1:N^2, tree, discrete_dim, unique(train_targets));

D   = reshape(targets,N,N);
%END

function targets = use_tree(features, indices, tree, discrete_dim, Uc)
%Classify recursively using a tree

targets = zeros(1, size(features,2));

if (tree.dim == 0)
   %Reached the end of the tree
   targets(indices) = tree.child;
   break
end

%This is not the last level of the tree, so:
%First, find the dimension we are to work on
dim = tree.dim;
dims= 1:size(features,1);

%And classify according to it
if (discrete_dim(dim) == 0),
   %Continuous feature
   in = indices(find(features(dim, indices) <= tree.split_loc));
   targets = targets + use_tree(features(dims, :), in, tree.child(1), discrete_dim(dims), Uc);
   in = indices(find(features(dim, indices) >  tree.split_loc));
   targets = targets + use_tree(features(dims, :), in, tree.child(2), discrete_dim(dims), Uc);
else
   %Discrete feature
   Uf = unique(features(dim,:));
for i = 1:length(Uf),
   in      = indices(find(features(dim, indices) == Uf(i)));
      targets = targets + use_tree(features(dims, :), in, tree.child(i), discrete_dim(dims), Uc);
   end
end

%END use_tree

function tree = make_tree(features, targets, inc_node, discrete_dim, maxNbin, base)
%Build a tree recursively

[Ni, L]     = size(features);
Uc         = unique(targets);
tree.dim = 0;
%tree.child(1:maxNbin) = zeros(1,maxNbin);
tree.split_loc = inf;

if isempty(features),
   break
end

%When to stop: If the dimension is one or the number of examples is small
if ((inc_node > L) | (L == 1) | (length(Uc) == 1)),
   H = hist(targets, length(Uc));
   [m, largest] = max(H);
   tree.child = Uc(largest);
   break
end

%Compute the node´s I
for i = 1:length(Uc),
    Pnode(i) = length(find(targets == Uc(i))) / L;
end
Inode = -sum(Pnode.*log(Pnode)/log(2));

%For each dimension, compute the gain ratio impurity
%This is done separately for discrete and continuous features
delta_Ib    = zeros(1, Ni);
split_loc =

阅读全文(11700) | 回复(0) | 编辑 | 精华 | 删除

[数据挖掘]市场细分——企业成功的一大法宝
随笔, 读书笔记, 心得体会

薛峰发表于 2005/6/27 14:13:21

企业经营者必须通过市场调研，根据消费者对商品的不同欲望与需求、不同的购买行为与习惯，把消费者整体市场划分为具有一定的类似性特征的若干子市场。

　　　　　　　　　　市场细分的重要作用

　　一、有利于企业确定自己的目标市场。目标市场能否正确选择，直接决定着企业今后一系列发展战略的确定，决定了企业今后若干年发展后劲的“先天条件”。所以企业必须在深入进行市场细分化的基础上，寻找一个理想的目标市场。如广东江门市有一专门经营空调产品的公司——江门市时尚冷气公司，原叫供销综合贸易公司，主要经营土产、日杂商品，由于商品附加价值低，经营单位多，竞争激烈，企业经济效益每况愈下，如继续经营，将难以为继。于是在1988年，该公司决策部门经过对企业内外部环境条件的认真分析，决定抓住当时空调机供不应求的大好时机，立足江门市区，辐射珠江三角洲等经济发达地区，充分发挥供销企业的传统优势，努力争取货源，利用靠近港澳的优势，直接经营进口名牌空调，减少中间环节，降低流通费用。结果由于经营方向对路，目标市场选择恰当，充分抓住了目标市场上对空调

(下面还有4500字)

阅读全文(3220) | 回复(0) | 编辑 | 精华 | 删除

[数据挖掘]Web数据挖掘的研究现状及发展
文章收藏, 网上资源

薛峰发表于 2005/5/8 8:41:37

摘要: 随着Internet/Web技术的快速普及和迅猛发展，使各种信息可以以非常低的成本在网络上获得，如何在这个全球最大的数据集合中发现有用信息成为数据挖掘研究的热点。本文概要介绍了Web数据挖掘在三个研究领域的研究现状及发展。关键词：数据挖掘；Web挖掘； 1．Web挖掘概述随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用，使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化，无法从表面上看出他们所蕴涵的有用信息，更不用说有效地指导进一步的工作。如何从大量的数据中找到真正有用的信息成为人们关注的焦点，数据挖掘技术也正是伴随着这种需求从研究走向应用。近年来，随着Internet/Web技术的快速普及和迅猛发展，使各种信息可以以非常低的成本在网络上获得，由于Internet/WWW在全球互连互通，可以从中取得的数据量难以计算，而且Internet/WWW的发展趋势继续看好，特别是电子商务的蓬勃发展为网络应用提供了强大支持，如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。 2．Web挖掘流程与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。典型Web

阅读全文(12900) | 回复(0) | 编辑 | 精华 | 删除

« 1 2 3 »

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.680 second(s), page refreshed 144799665 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号