博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘引言
阅读量:4039 次
发布时间:2019-05-24

本文共 2422 字,大约阅读时间需要 8 分钟。

总述:数据挖掘是一种数据处理技术,针对历史存量数据进行分析,通过描述趋势来帮助客户。

 

  1. 数据挖掘产生的原因
  2. 什么是数据挖掘
  3. 可以对什么类型的数据进行挖掘
  4. 数据挖掘功能:可以挖掘什么类型的模式
  5. 数据挖掘的分类标准有哪些
  6. 数据挖局任务的原语有哪些
  7. 数据挖掘系统与数据系统的集成问题
  8. 数据挖掘的主要问题有哪些

 

1.数据挖掘产生的原因

答:数据系统的应用使得数据存量在一定规则下不断增长,从巨大数量的数据中进行数据分析成为一种需求,这种需求下产生了数据仓库和数据挖掘。数据仓库是一种将多个异构数据源在单个站点以统一的模式组织的储存库,可以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理。

 

2.什么是数据挖掘

答:数据挖掘是从大量数据中提取或‘挖掘’知识。

以知识发现过程的基本过程为背景:

  1. 数据清理(消除噪声和不一致的数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取和分析任务相关的数据)
  4. 数据变换(数据变换或统一成适合挖掘的形式,如汇总或聚集操作)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度量,识别表示知识的真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

前面1-4是数据预处理,为挖掘准备数据。

在实际工作环境中:数据库、数据仓库、万维网或其他信息库可以对数据进行数据清理和集成;数据库或数据仓库服务器负责提取相关数据;知识库是领域知识,用于指导搜索或评估结果模式的兴趣度,可能包括将属性或属性值组成成不同抽象层的概念分层;数据挖掘引擎是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析、演变分析等任务;模式评估模块使用兴趣度度量,与数据挖掘模块交互,将搜索聚焦在有趣的模式上;用户界面在用户和数据挖掘系统之间通信,解决挖掘系统和人的互动,查询挖掘结果和进行探索式挖掘。

从其概念和实际模型概念上来看,数据挖掘是一门实践性质的技术,更加偏向于应用层面。

 

3.可以对什么类型的数据进行挖掘

答:原则上数据挖掘可以应用到任何类型的信息储存库及瞬态数据。实际上,数据挖掘的难题和技术可能因存储系统而异。

关系数据库是数据挖掘最常见、最丰富的数据源;数据仓库也可以运用数据挖掘技术,但是需要更多的分析技术进行数据的汇总处理;事务数据库的频繁模式挖掘也是可行的。其他数据或者数据库,如对象关系数据库、时序数据库、时空数据库、多媒体数据库、异构数据库、数据流、万维网也可以进行数据挖掘,但是需要运用更加符合其数据特点的挖掘模式。

 

4.数据挖掘功能:可以挖掘什么类型的模式

答:数据挖掘任务可以分为描述和预测,描述性挖掘任务描述数据库中数据的一般性质;预测性挖掘任务对当前的数据进行推断和预测。

用汇总的、简洁的、精确的方式描述各个类和概念可能是有用的,这种这种类或概念的描述称为类/概念描述。这种描述可以通过数据特征化、数据区分、数据特征化和比较等方法得到。数据特征化是目标类数据的一般特性或特征的汇总。数据区分是将目标类数据对象的一般特性与一个或者多个对比类对象的一般特性进行比较。

频繁模式是在数据中频繁出现的模式。频繁项集是指频繁在事务数据中集中在一起出现的项的集合。支持度是表示频繁出现的数据占总分析数据的百分比。置信度是表示关联的可信性或发生的可能性。只有当支持度和置信度满足一定的标准之后,才能确认关联是相关的。

分类是找出描述和区分数据类或概念的模型或函数,能够使用模型预测类标识未知的对象类。导出模型是基于对训练数据集的分析。分类预测分类的标号,是离散的无序的。预测是建立连续的函数值模型,典型的预测模型是回归分析。相关分析可能需要在分类和预测之前进行,试图识别对于分类或预测过程无用的属性。

聚类分析数据对象不考虑已知的类标号。对象根据最大化类内部的相似性、最小化类之间的相似性原则进行聚类或分组。聚类便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。

数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象称为离群点。大部分情况下离群点作为噪声或干扰被排除分析范围,特殊情况下也有专门针对离群点的分析,称为离群点挖掘,主要针对异常事件感兴趣的模式,例如网络攻击、信用卡失信等。

数据演变分析描述行为随时间变化的对象规律或趋势,并对其建模。演变分析最典型的案例是股票交易。

 

4.模式的兴趣取决于什么

答:对于一个模式,如果其易于理解、有足够的置信度、潜在有用、新颖的,那么这个模式就会使用户确信某种假设,模式就是有趣的。有趣的模式就是知识。主观兴趣度度量基于用户对数据的信念,这种度量模式是非常有趣的,多见于专业领域的高端客户。无论数据挖掘的信息与主观兴趣度度量是否一致,都能带来有益的内容。

 

5.数据挖掘的分类标准有哪些

答:分类标准有:要挖掘的数据库类型、知识类型、技术类型、应用。

 

6.数据挖局任务的原语有哪些

答:任务相关的数据、挖掘的知识类型(特征化、区分、相关、分类、聚类)、背景知识(概念分层、主观兴趣度度量)、模式相关的度量(简洁性、确定性、实用性、新颖性)、发现模式的可视化(展示格式和技术)。

 

7.数据挖掘系统与数据系统的集成问题

答:因为数据挖掘系统实际上是基于数据系统上的频繁交互系统,所以最好的集成方式是数据系统集成数据挖掘系统,耦合性越高越好。

 

8.数据挖掘的主要问题有哪些

答:第一类是数据挖掘技术与用户交互问题,主要有知识类型、多个抽象层交互挖掘、结合背景知识的挖掘、数据挖掘查询语言和特定的数据挖掘、挖掘结果的表示和可视化、噪声和不完全数据问题、模式评估的不确定性。

第二类是性能问题,主要是数据挖掘算法的有效性、可伸缩性、并行处理。

第三类是数据来源类型的多样性问题,如异构数据库、多媒体数据库等。

 

 

 

转载地址:http://ompdi.baihongyu.com/

你可能感兴趣的文章
本地服务方式搭建etcd集群
查看>>
安装k8s Master高可用集群
查看>>
忽略图片透明区域的事件(Flex)
查看>>
忽略图片透明区域的事件(Flex)
查看>>
AS3 Flex基础知识100条
查看>>
Flex动态获取flash资源库文件
查看>>
flex中设置Label标签文字的自动换行
查看>>
Flex 中的元数据标签
查看>>
flex4 中创建自定义弹出窗口
查看>>
01Java基础语法-11. 数据类型之间的转换
查看>>
01Java基础语法-13. if分支语句的灵活使用
查看>>
01Java基础语法-15.for循环结构
查看>>
01Java基础语法-16. while循环结构
查看>>
01Java基础语法-17. do..while循环结构
查看>>
01Java基础语法-18. 各种循环语句的区别和应用场景
查看>>
01Java基础语法-19. 循环跳转控制语句
查看>>
Django框架全面讲解 -- Form
查看>>
socket,accept函数解析
查看>>
今日互联网关注(写在清明节后):每天都有值得关注的大变化
查看>>
”舍得“大法:把自己的优点当缺点倒出去
查看>>