海量数据采集后的数据挖掘

作者：qiudejun 发布时间：12/24/2013 5:22:24 PM 15392 人已阅读

摘要：数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。主要有3个步骤：数据准备、数据挖掘、结果表达和解释。数据准备是从相关的数据源中采集数据并整合成用于数据挖掘的数据集；数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术。

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。主要有3个步骤：数据准备、数据挖掘、结果表达和解释。数据准备是从相关的数据源中采集数据并整合成用于数据挖掘的数据集；数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术。

近年来，随着互联网行业的高速发展，人们积累的数据量急剧增长，目前网络上所包含的数据量已经是一个天文数字。这些可以广泛使用的大量数据，迫切的需要一门技术将这些数据转换成有用的信息和知识。因此，数据挖掘在这样一个时代的背景下极速崛起，必然成为网络之后的下一个技术热点。

支持数据挖掘技术的发展，是现如今对于海量数据采集的技术。现在的信息时代，互联网上所包含的数据量是最多的。因此，最好的数据源就是在互联网。但是网络上大多是半结构化的数据，不能为数据挖掘直接使用。所以目前新兴起了网页数据采集器，能够将这些半结构化的数据处理成能够所需要的数据结构模式。网页数据采集器的出现还解决了采集速度的问题。以前的手工复制粘贴效率低下，而且易出错。通过网页数据采集器，配置一个有效的规则或者是流程，就可以代替人工，大大的提高效率。有些网页结构复杂，不利于直接采集，这个问题也可以通过网页数据采集器来解决。例如，有些网站上有用的信息都是通过图片来呈现的，一般直接复制不下来，必须得手动写。但是利用网页数据采集器，比如八爪鱼采集器，就可以破解这种数据形式，变成可利用的有效数据。同时，数据存储技术的发展也提供了有利条件。

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。通常所说的数据挖掘会通过这些任务中的一个或者多个来对数据进行处理。

数据挖掘具有重要意义

数据总结：继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲，多维分析也可以归入这一类。

分类：目的是构造一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段（又称属性或特征）值组成的特征向量，此外，训练样本还有一个类别标记。

例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。

聚类：是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显，而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类，因此通过聚类分析可以找出客户特性相似的群体，如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。

将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。

关联分析：是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性；序列模式与此类似，寻找的是事件之间时间上的相关性，例如：今天银行利率的调整，明天股市的变化。

预测：把握分析对象发展的规律，对未来的趋势做出预见。例如：对未来经济发展的判断。

偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。

以上数据挖掘的各项功能不是独立存在的，它们在数据挖掘中互相联系，发挥作用。

更多交流请加群，八爪鱼采集器交流群：61570666