« | October 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | |
| 公告 |
数据仓库&数据挖掘
对某一件事需要坚持方能真正完成这件事
薛 峰
2009.02.03 |
Blog信息 |
blog名称:数据仓库与数据挖掘 日志总数:85 评论数量:14 留言数量:0 访问次数:723492 建立时间:2005年3月17日 |

| |
[数据仓库]Essbase VS Cognos- 原创空间, 文章收藏, 随笔
薛 峰 发表于 2005/5/30 17:48:04 |
Essbase和Cognos的对比:
1、应用面:Essbase和Cognos都是企业级OLAP。个人觉得Essbase更适合大数据量的OLAP应用,IBM的工程师说Essbase能够支持200G的Cube,在一篇文章上看到Essbase建立的Cube达到500G。以前在一个项目中,事实表中有上亿条记录,用到Essbase,现在的Cube估计也快到200G了。不过,硬件投资也很昂贵,OLAP服务器是IBM P680 18 CPU和24G RAM的主机。至于Cognos,觉得支持的数据不够大,在两个项目中,都只是几百万条记录,不知道有没有更大的Cube。
2、性能:在同样的硬件条件下,Cognos的性能是优于Essbase的,这是由于Cognos和Essbase采用了不同的数据存贮原理。Essbase的存贮原理决定了Cube膨胀比较大,I/O花费的时候也多。Cognos的存贮原理不是很清楚,但是同样结构的Cube,Cognos比Essbas |
|
[反洗钱专栏]洗钱方法研究 原创空间
薛 峰 发表于 2005/5/24 8:51:39 |
「英文标题」Studies of Money Laundering Methods
「内容提要」洗钱犯罪是一种新型的国际犯罪。一个典型、完整的洗钱过程可以分为放置、培植以及融 合三个阶段,围绕这三个阶段,衍生出许多常见的洗钱方法。面对各国警方的联合打击,新 近又出现了利用科技进步或法律上的漏洞进行洗钱的更加隐蔽的方法。我国在改革开放之后 ,也出现了逐步严重的洗钱现象,洗钱手段和方法也逐步与“国际接轨”。因此,为了更好 地预防和打击洗钱犯罪,有必要了解犯罪分子采用的洗钱方法。
「摘 要 题」侦查学研究
「英文摘要」Crime of money laundering is a new type of international crime. A typical and e nti re money laundering process may
be divided into three stages:placement,layeri ng and integration,and from which many common money laundering methods derive. F a cing the joint attacks of the p olice of every country,some more concealed money laundering methods emerged which made use of t he advanced science and technology or loopholes
of law. After the reform and opening,more and m ore serious phenome na of money laundering have arisen in China,and techniques and methods of mo ney laundering also gradually appear to be internationalized. In order to prevent an d
attack money laundering crime more efficiently,it is necessary for us to know the money laundering met hods which the money launderer used.
「关 键 词」洗钱/洗钱犯罪/洗钱方法/money laundering/crime of money laundering/money launde ring methods
「正 文」
洗钱一词是由英文“Money Laundering”直译而来,最初的意思是指把脏钱洗干净。然而 ,洗钱的含义已今非昔比,表述也是多种多样。我国有学者认为,洗钱是指犯罪人通过银行 或者其他金融机构将非法获得的钱财加以转移、兑换、购买金融票据或直接投资,从而压缩 、隐瞒其非法来源和性质,使非法资产合法化的行为。[1]虽然并不是所有的犯罪都是为了 钱,但是对许多犯罪分子而言,钱有时是必不可少的,甚至有些犯罪就是为了得到大批的金 钱和财物。犯罪分子为了能够自由、安全、合法地使用这些犯罪得来的黑钱,同时阻碍侦查 人员对其“上游犯罪”的调查和取证,从而逃避法律的惩罚,注定要想尽各种办法洗钱。
虽然直到20世纪80年代才有一些国家将洗钱规定为犯罪,但洗钱这种掩盖犯罪收益的真实 来源、使犯罪收益合法化的手段早已存在。一个关于洗钱起源的故事,生动描述了什么是洗 钱。20世纪20年代,美国芝加哥以阿里。卡彭等为首的有组织犯罪集团的一名财务总管购置 了一台自动洗衣机,为顾客洗衣物,并收取现金,然后将这部分现金连同其他犯罪组织的犯 罪收入一起向税务机关申报。于是,其犯罪收入就变成了合法收入。[ 2]随着科学技术的不 断进步,同时由于越来越多的国家特别是洗钱活动较多的国家陆续将洗钱规定为犯罪,并予 以严厉打击,洗钱的方法和技术也越来越巧妙、先进和隐蔽,给识别和打击洗钱犯罪造成了 很大困难。因此,本文专就洗钱的方法谈点看法,以有利于对洗钱犯罪的打击。
一、常见的洗钱方法
就一个典型、完整的洗钱过程而言,洗钱可以分为放置、培植以及融合三个阶段。在放置 阶段(Placemen t stage),主要是将来自犯罪活动的现金改变成便于控制以及减少怀疑的形 式,例如将现金存入银行或购买可流通票据。在培植阶段(Layering stage),主要是通过复 杂的金融交易,以隐蔽或掩饰犯罪收益的真实来源以及性质,例如通过空壳公司的帐户,通 过使用平衡贷款体制,通过资金在不同国家银行间的迂回移动,给犯罪收益披上伪装的外衣 ,使得犯罪收益与合法资金难以分辨。在融合阶段(Integration stage),犯罪收益经过充 分的培植后,已经和合法的资金混同融入到合法的经济和金融体制中。[3]围绕这三个阶段 ,常见的洗钱方法主要有:(一)利用“鱼目混珠”洗钱
“鱼目混珠”的方法是指洗钱者将犯罪收益与合法资金混杂在一起,从而掩盖犯罪收益的 真实来源。前文关于洗钱起源的故事中,阿里。卡彭有组织犯罪集团的财务总管就是利用这 种方法洗钱的。这虽然是一种比较传统的洗钱方法,但目前仍被一些犯罪分子采用。他们通 过开办饭店、旅馆、商场、超市等收取现金较多的商业企业,将其他的犯罪收益巧妙混入合 法企业的现金收入中。在1984年的“意大利馅饼贩毒案”中,贩毒分子就是以出售意大利馅 饼的商店为掩护,在美国的许多地方建立了犯罪据点,以馅饼配料的订单作为毒品交易的暗 号,做了数百万美元的海洛因买卖。作为一名经营糕点的人员,他在银行存入大量的现金, 并未引起执法部门的注意,于是数百万美元从美国转移到瑞士和意大利,以支付过去和将来 的运送海洛因的费用,并在那里投资于合法和非法的企业。[4](二)利用货币走私洗钱
货币走私的方法是指洗钱者直接将现金秘密运至国外,然后将现金存入国外的金融机构, 常见于洗钱的起始阶段即放置阶段。在经济全球化、金融电子化的今天,携带巨额现金出境 ,似乎并不是一种明智的选择,而且被发现的危险也比较大,但是一方面由于现金仍然是犯 罪收益的主要形式,另一方面由于这种方法一旦成功,就可以彻底切断走私货币的非法来源 ,因而不少犯罪分子宁愿选择这种洗钱方法,特别是拥有某些特权的犯罪分子。认为货币走 私的洗钱方法已经过时的说法是不大准确的,犯罪分子仍会继续携带大量货币出境,并将其 存入国外的金融机构,只不过不停地变换手法罢了。例如,我国内地与港、澳的犯罪分子就 利用三地毗邻的优势,经常通过走私货币进行洗钱。犯罪分子走私货币的工具往往是飞机、 轮船或车辆;货币可以藏匿在行李中、人身上或运输工具的某一隐蔽部位,或与其他资金混 藏在运钞车中,或混杂在出口商品中,或装在集装箱内。1988年5月,美国迈阿密机场海关 检查人员发现了近3000万美元的贩毒收入,这些钱被分藏在各个地方——行李中,电视机里 ,除臭剂罐头里,甚至在网球里也藏着钱。[5]为了携带方便,有时需要把犯罪收益中的小额钞票换成大额钞票。一种常用的手段就是把 现金带到赌场,换成筹码,赌一会儿后再把筹码换成大面额钞票。在大西洋城的一个赌场, 有个洗钱者带了1,187,450美元的小额钞票,体积5.75立方英尺,重280磅。在赌场输掉30 多万美元之后,他提取了100美元票面的剩余80万美元。这样一来,这些钱的体积仅为0.33 立方英尺,重量仅为16磅。[6](三)通过购买有形资产、有价证券洗钱
&n |
|
[数据挖掘]Web数据挖掘的研究现状及发展 文章收藏, 网上资源
薛 峰 发表于 2005/5/8 8:41:37 |
摘要:
随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,如何在这个全球最大的数据集合中发现有用信息成为数据挖掘研究的热点。本文概要介绍了Web数据挖掘在三个研究领域的研究现状及发展。
关键词:数据挖掘;Web挖掘;
1.Web挖掘概述
随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息,更不用说有效地指导进一步的工作。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。
近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。
Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
2.Web挖掘流程
与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web
阅读全文(12871) | 回复(0) | 编辑 | 精华 | 删除 |
| | |
[数据挖掘]Web分析工具概述 原创空间
薛 峰 发表于 2005/4/27 22:27:47 |
Web分析工具概述
挑战
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?
机会
所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
我们能做什么
3.1 基本分析
流量分析
随时间的变化,网络流量怎样化?每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
我们做的哪些广告给我们带来了最大的访问量?投资收益比是多少?我们自己网站上的广告又有多少点击率,什么位置上的广告点击率最高?
网站出入口分析
用户在哪里进入网站。每次都经过首页?还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站?有多少人是这样出去的?
访问路径分析
用户的访问路径都是什么样的?他们怎样进入某一特定内容?我们吸引用户进入一个特定目标的措施效果如何?
用户来源分析
我们最重要的用户都来自哪里?什么国家、地区,从哪个网站过来?那个ISP对我来说是最重要的,在来源上我们的用户有哪些特征?
浏览器和平台分析
用户都用什么样的浏览器、什么操作系统访问我的网站?在设计网站时具体要做哪些权衡和优化。
3.2 智能分析(数据挖掘)
网页相关性分析
哪些网页具有密切的关系,如果很多人具有a.htmlà b.htmlà c.html这样的访问模式,则我们可以认定a.html和c.html之间有一定的关系,是否考虑在a.html上直接加上c.html的链接?
用户访问模式分析
有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其他的网页?即按不同的用户访问模式,把网页分组,得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣),即根据用户行为的相似性,把用户按行为模式分类。
用户归类
通过用户填写的信息如何把用户归入某一特定的类别?然后可对同一类别中的用户提供相似的服务。
用户可以得到什么
对网站的修改更加又目的、有依据,稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞
查看网站流量模式,找到网站最重要的部分。
发现用户的需要和兴趣,对需求强烈的地方提供优化。
根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户。
在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP和搜索引擎
测定合作和结盟网站对自身的价值
提供个性化网站
对大多数Web应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态的提供要浏览的建议,自动提供个性化的网站。
典型商业问题
网站的访问量增加了吗?在什么地方?为什么?
用户对我们的新的应用(功能、内容)反映如何?
我们的新一轮宣传攻势效果如何?
怎样评价我们做的某一项广告?
访问我们网站的都是一些什么人?
用户是否要经过复杂的步骤才能得到他想要的东西?
哪些应用(内容)占据了大部分的网络流量?
哪些用户在使用网站上体现了相似的行为?
技术问题
数据处理
如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的log文件,二是用网络监听的办法,在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。
统计分析
在数据库的基础上,针对不同的数据运行各种统计函数。
数据挖掘
数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。
关联规则( |
|
[数据挖掘]互 联 网 数 据 挖 掘 综述—— Web使用记录的挖掘 原创空间
薛 峰 发表于 2005/4/27 22:23:23 |
互 联 网 数 据 挖 掘 综 述
—— Web使用记录的挖掘
摘要:
互联网发展到今天已经成为了人们生活中不可缺少的一部分了,而互联网从某种意义上讲也可以看作是一个庞大的数据库,并且涉及到各个领域。那么在这个庞大的数据库中,数据挖掘技术有什么用武之地呢?本文通过对互联网上数据挖掘的简单综述,说明现在互联网上数据挖掘的一些趋势和相关技术,并且着重分析一下其中一种互联网上数据挖掘的应用方向相关的技术——Web使用记录的挖掘。
关键字:数据挖掘,链接结构,Web,日志记录
一. 概述
目前,互联网已经和我们的生活密不可分,它可以说是一个巨大的、分布广泛和全球性的信息服务中心。它涉及新闻、广告、消息信息、金融信息、教育、政府、电子商务和许多其他信息服务。根据有关机构统计,目前互联网的数据以几百兆兆字节来计算,而且增长速度很快,如果将这个庞大的数据库用一般的统计分析来处理的话,显然是有心无力的。自从数据挖掘技术成功地应用于传统数据库领域之后,人们对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也寄予了厚望,并且做了许多相应的研究和发展了相应的技术。[1]
二. 互联网数据挖掘面临的技术难点
将数据挖掘技术应用到互联网数据上,理论上可行,但是由于互联网自身的特点,也使它面临一些需要克服的技术难点:
首先,互联网上的数据是十分庞大的,而这种庞大的数据还是动态的,并且增长速度惊人。如果简单为其创建一个数据仓库显然是不现实的。目前一般的做法采用多层Web信息库的构造技术来处理,将互联网目前的庞大数据统一看成是0层,最详细的一层,而不像一般数据库挖掘分析那样另外单独做一个历史数据的数据仓库。
其次,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。毕竟人们原来就希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。目前由于XML技术的出现,为解决这个难题提供了一条可行的道路。
还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。
最后,虽然说互联网上信息很多,但实际是你需要的信息却不多,如何在信息海洋中不被淹没,尽可能地找到你所需要的信息也是一个难题。
可以说,在互联网上应用数据挖掘技术的前途是光明的,但道路也是曲折的。
三.
阅读全文(5411) | 回复(0) | 编辑 | 精华 | 删除 |
| | |
|