数据仓库与数据挖掘学习笔记
一些可能会考是知识点和例题。
名词解析
- 数据仓库:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,通常用于辅助决策支持。
- 数据挖掘:数据挖掘就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单的说,数据挖掘是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现。
- 元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。
- 操作型数据:操作型数据:通常存储在遍及组织的各种不同的操作型记录系统中(如业务计费系统、供应链系统等)。
- 调和数据:存储在企业级数据仓库和操作型数据存储中。调和数据是详细的、当前的数据,对所有决策支持应用来说,调和数据是单一的、权威的数据源。
- 导出数据:存储在各个数据集市中。对终端用户的决策支持应用来说,导出数据是已选择的、格式化了的聚集数据。
- 当前数据:(保留的最新数据)只反映当前最新值,但现存的最新记录将改变以前记录中的数据,当前数据中不保存以前的记录内容。
- 周期数据:(保留的历史数据)一旦保存,物理上就不再改变或删除。
- 元数据:描述数据仓库内数据的结构和建立方法的数据,是描述数据的数据。
- 技术元数据:技术元数据是数据仓库的设计和管理人员用于开发和管理数据仓库时使用的元数据,包括数据源信息、数据转换的描述等。
- 业务元数据:业务元数据从单位业务的角度描述数据仓库的元数据,比如业务主体的描述,即业务主体包含的数据、查询及报表等信息。
- 数据集市:数据集市是为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。
- 数据挖掘就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。
- 数据ETL:用来实现异构数据源的数据集成,即完成数据的抓取、清洗、转换、加载和索引等调和工作。
- 数据抽取:从源文件和源数据库中获取相关数据用于填充数据仓库,称为抽取。
- 数据转换:把数据从业务系统的格式转换成企业数据仓库的数据格式。
- E-R:E-R图描述的是主题以及主题之间的联系。
- 关联:若两个或多个变量的取值之间存在某种规律性,就称为关联。
- 关联规则(Association Rule)可以表示为一个蕴含式:R: X=>Y。R表示:如果项集X在某一交易中出现,则会导致项集Y按照某一概率也会在同一交易中出现,X称为规则的条件,Y称为规则的结果
- 操作数据存储ODS是一个面向主题的、集成的、企业级的、当前的、详细的、快速更新的数据库,常被用作数据仓库临时区域的数据库
- 分类:指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类
- 决策树学习是以实例为基础的归纳学习算法,从一组无次序、无规则的实例中推理出以决策树表示的分类规则
问答题
数据仓库的组成元素主要有哪些?各自的主要作用是什么?
- 数据仓库数据库:是整个数据仓库环境的核心,是数据信息存放的地方,对于数据提供存取和检索支持。
- 数据抽取工具:把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库内。
- 元数据:描述数据仓库内数据的结构和建立方法的数据。
- 访问工具:为用户访问数据仓库提供的手段。
- 数据集市:为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。
- 数据仓库管理:数据仓库管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理与更新等。
- 信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或客户。
比较分析数据处理中的联机事务处理OLTP和联机分析处理OLAP。
不同的 | OLTP | OLAP |
---|---|---|
用户 | 操作人员、低层管理人员 | 决策人员、高级管理人员 |
功能 | 日常操作型事务处理 | 分析决策 |
数据库设计目标 | 面向应用 | 面向主题 |
数据特点 | 当前的、最新的、细节的、二维的与分立的 | 历史的 、聚集的、多维的.集成的与统一的 |
存取规模 | 通常一次读或写数十条记录 | 可能读取百万条以上记录 |
工作单元 | 一个事务 | 一个复杂查询 |
用户量 | 通常是成千上万个用户 | 可能只有几十个或上百个用户 |
数据库大小 | 通常在GB级(100MB~ 1GB) | 通常在TB级(100GB~1TB及以上) |
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
三层数据仓库结构
底层:数据仓库的数据库服务器
中间层:OLAP服务器
前端客户工具层
应用划分聚类算法时的三个要点是什么?
选定某种距离作为数据样本间的相似性度量,选择评价聚类性能的准则函数,选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
ETL的目标?
抽取、转换、加载过程的目的是为决策支持应用提供-一个单一的、权威的数据源。
以关系表构成的多维数据模式?
星型模式:事实表在中心,周围连接多个维表(每维一个),事实表含有大量数据,没有冗余。
雪花模式:是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中,维表中进一步使用其他维表。模式图形成类似于雪花的形状。
事实星座模式多个事实表共享维表,这种模式可以看作星型模式的汇集,因此称为星系模式,或者事实星座
数据仓库的设计与实施阶段
- 数据仓库概念模型的设计
- 数据仓库逻辑模型的设计
- 数据仓库物理模型的设计
- 源数据抽取、清洗、整理与装载设计
- 数据表达及访问设计
- 数据仓库维护方案的设计
分类过程
- 获取数据:输入数据、对数据进行量化
- 预处理:去除噪声数据、对空缺值进行处理、数据集成或者变换
- 分类器设计:划分数据集、分类器构造、分类器测试
- 分类决策:对未知类标号的数据样本进行分类
课后题
第一章
- 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
- 元数据为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类
- 数据事务处理通常分为两大类:联机事务处理和联机分析处理
- 多维分析是指以“维”形式组织起来的数据采取切片、切块、钻取和旋转灯各种分析动作,使用户能从不同角度、不同侧面观测数据仓库中的数据
- ROLAP是基于关系型数据库的OLAP实现,而MOLAP是基于多维数据结构/多维数组组织的OLAP实现的
- 数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理、数据表现等
- 数据仓库系统的体系结构根据应用需求的不同,可以分为一下4种类型:两层架构、独立性数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库
- 操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,亦称运营数据存储
- 实时数据库意味着源数据系统、决策支持服务和数据仓库之间以一个实时的速度交换数据和业务规则
- 从应用的角度,数据仓库的发展演变可归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主
- 什么是数据仓库?数据仓库的特点主要有哪些?
答∶ 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面∶ (1) 面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,-一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库 (OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括—个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。
第二章
- 调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
- 抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据是 详细的、历史的、规划化的、可理解的、即时的和质量可控制的。
- 数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据库,增量抽取用于进行数据仓库的维护。
- 粒度的是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度 越高,综合程度 越低,回答查询的种类 越多。
- 使用星型模式可以从一定程度上提高查询效率。因为星型模式中的数据的组织已经经过 预处理,主要数据都在庞大的 事实表 中。
- 维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式∶ 一种是采用自然键,另一种是采用代理键。
- 雪花模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
- 数据仓库中存在不同综合级别的数据。一般把数据分成4个级别∶早期细节级、当前细节级、轻度细节级和 高度细节级。
9.什么是数据仓库的三层数据结构?
答∶数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。 - 什么是数据仓库的数据ETL过程?
答∶数据的ETL过程就是负责将操作型数据转换成调和数据的过程。这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段∶
一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持E DW的当前有效性和扩展性。
整个过程由四个步骤组成∶抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。通常,在清洗过程中发现的拒绝数据信息会关回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。 - 比较分析星型模式、雪花模式和共享星座模式。
答:在星型模式中,事实表居中,多个维表呈辐射状分布于四周,并与事实表连接。雪花型模式是星型模式的变种,不同的是将某些维表规范化。它是对星型模式维表的进一步层次化和规范化,从而消除冗余的数据。
事实星座结构是多个事实表共享维表,这种模式可以看做是星型模式集,也叫多重事实表或称为星系模式。
第四章
- 关联规则的经典算法包括apriori和FP-growth,其中 FP-growth 的效率更高。
- 如果
L2 = {a,b},{a,c},{a,d},{b, c},{b, d}
,则连接产生的C3是什么;经裁剪后的C3是什么?
答:连接之后的C3 = {{a,b,c}{a,b,d},{a,c,d},{b,c, d}}
再经过裁剪之后的C3 = {{a,b,c}{a,b,d}}
。 - 什么是关联规则?关联规则的分类有哪些?关联规则挖掘的步骤有哪些?
答:关联规则挖掘最初由 R.Agrawal等人提出,用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则。
关联规则的分类∶- 基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
- 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
- 基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。
关联规则挖掘的步骤∶ - 找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集;
- 利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则。
- 描述k-means聚类算法的步骤。
- 从数据中选择k个对象作为初始聚类中心;
- 计算每个聚类对象到聚类中心的距离来划分;
- 再次计算每个聚类中心;
- 计算标准测度函数,之道达到最大迭代次数,则停止,否则,继续操作。
- 描述凝聚型层次聚类算法的操作步骤。
- N个初始模式样本自成一类,即建立N类∶G1(0),G2(0),,Gn(0) (G_Group)计算各类之间(即各样本间)的距离(相似性、相关性),得一NN维距离矩阵。”0*”表示初始状态。
- 假设已求得距离矩阵D(n)(n为逐次聚类合并的次数),找出D(n)中的最小元素,将其对应的两类合并为一类。由此建立新的分类∶G1(n+1),,G2(n+1),
- 计算合并后新类别之间的距离,得D(n+ 1)。
- 跳至第二步,重复计算及合并。结束条件∶取距离阈值T,当D(n)的最小分量超过给定值T时,算法停止。所得即为聚类结果。或不设阈值T,一直将全部样本聚成一类为止,输出聚类的分级树。
- 数据仓库中的数据分为状态数据和事件数据
第五章
- 分类的过程包含获取数据,预处理,分类器设计,分类决策。
- 分类器设计阶段包含三个过程: 划分数据集,分类器构造,分类器测试。
- 分类问题中常用的评价准则有 精确度,查全率和查准率,F-measure, 几何均值。
- 支持向量机中常用的核函数有 多项式核函数,径向基核函数,S型核函数。
- 什么是分类?分类的应用领域有哪些?
答: 分类是指把数据样本映射到-一个事先定义的类中的学习过程,即给定- -组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分 类问题是数据挖掘领域中研究和应用最为广泛的技术之- -,许多分类算法被包含在统计分析工具的软件包中,作为专门的分类工具来使用。分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;在因特网筛选中,分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。
第六章
- 聚类分析包括 连续型,二值离散型,多值离散型,混合类型 4种类型描述属性的相似度计算方法。
- 连续型属性的数据样本之间的距离有 欧氏距离,曼哈顿距离,明考斯基距离。
- 划分聚类方法对数据集进行聚类时包含三个要点:
- 层次聚类方法包括 凝聚型层次聚类 和 分解型层次聚类 两种层次聚类方法。
- 什么是聚类分析?聚类分析的应用领域有哪些?
聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。聚类分析是数据挖掘应用的主要技术之一,它可以作为一个独立的工具来使用,将未知类标号的数据集划分为多个类别之后,观察每个类别中数据样本的特点,并且对某些特定的类别作进一步的分析。此外,聚类分析还可以作为其他数据挖掘技术(例如分类学习、关联规则挖掘等)的预处理工作。聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等领域都有广泛应用。在科学数据分析中,比如对于卫星遥感照片,聚类可以将相似的区域归类,有助于研究人员根据具体情况做进一步分析; 在商业领域,聚类可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助市场调整销售计划;在生物学方面,聚类可以帮助研究人员按照基因的相似度对动物和植物的种群进行划分,从而获得对种群中固有结构的认识:在医疗诊断中,聚类可以对细胞进行归类,有助于医疗人员发现异常细胞的聚类,从而对病人及时采取措施;在文本挖掘和Web数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,从而有助于网站内容的改进。 - 请描述k-means聚类算法的操作步骤。
第十二章
- 请简述Web挖掘的三个主要类别: Web内容挖掘、Web结构挖掘和Web使用挖掘。
- 请解释衡量信息检索性能的尺度的两个概念:查准率和查全率:
查准率是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性。查全率是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性。 - 简述Web使用挖掘的路径分析手段的工作原理,举例说明它的分析结果怎样帮助优化站点的结构。
路径分析可用于发现Web站点中最经常被访问的路径,从而调整站点的结构。例如,某个网站的主页A中有一个链接指向了网页B,而网页B中有一个链接指向了网页C。经过Web路径挖掘发现,凡是从主页开始访问并链接到网页B的用户,大都最后链接到了网页C.根据发现的这条规律,可以在主页中增加-一个链接C,这样可以方便大多数用户的使用。