【中项】系统集成项目管理工程师-第6章数据工程-6.5 数据分析及应用

前言：系统集成项目管理工程师专业，现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。

软考同样是国家人社部和工信部组织的国家级考试，全称为“全国计算机与软件专业技术资格（水平）考试”，目前涵盖了计算机软件、计算机网络、计算机应用技术、信息系统、信息服务5大领域，总共27个科目，也是分为初、中、高三个级别。

通信专业主要需要关注“计算机网络”这个专业类别，可以考的科目有初级资格的“网络管理员”、中级的“网络工程师”。

还有5个高级资格专业，分别是“信息系统项目管理师“”系统分析师“”系统架构设计师“”网络规划设计师“”系统规划与管理师“。

软考高级证书在通信行业比较吃香，主要原因有两个：通信行业与计算机软件是相近专业，评职称满足相近专业的要求；通信高级不能以考代评，但软考高级可以，很多考生通过考软考高级来评高级职称。
————————————————

6.5 数据分析及应用

数据的分析及应用是数据要素价值实现环节的重要活动，是组织实施数据驱动发展的基础，通常涉及数据集成、数据挖掘、数据服务和数据可视化等。

6.5.1 数据集成

数据集成就是将驻留在不同数据源中的数据进行整合，向用户提供统一的数据视图，使得用户能以透明的方式访问数据。其中，“数据源 ”主要是指不同类别的DBMS ，以及各类XML文档、

HTML文档、电子邮件、普通文件等结构化、半结构化和非结构化数据。这些数据源具有存储位置分散、数据类型异构、数据库产品多样等特点。

数据集成的目标就是充分利用已有数据，在尽量保持其自治性的前提下，维护数据源整体上的一致性，提高数据共享利用效率。实现数据集成的系统称为数据集成系统，它为用户提供了统一的数据源访问接口，用于执行用户对数据源的访问请求。典型的数据集成系统模型如图6-5所示。

（1 ）数据集成方法。数据集成的常用方法有模式集成、复制集成和混合集成，具体描述为：

●模式集成：也叫虚拟视图方法，是人们最早采用的数据集成方法，也是其他数据集成方法的基础。

其基本思想是：在构建集成系统时，将各数据源共享的视图集成为全局模式（GlobalSchema），供用户透明地访问各数据源的数据。全局模式描述了数据源共享数据的结构、语义和操作等，用户可直接向集成系统提交请求，集成系统再将这些请求处理并转换，使之能够在数据源的本地视图上被执行。

●复制集成：将数据源中的数据复制到相关的其他数据源上，并对数据源的整体一致性进行维护，从而提高数据的共享和利用效率。数据复制可以是整个数据源的复制，也可以是仅对变化数据的传播与复制。数据复制的方法可减少用户使用数据集成系统时对异构数据源的访问量，提高系统的性能。

●混合集成：该方法为了提高中间件系统的性能，保留虚拟数据模式视图为用户所用，同时提供数据复制的方法。对于简单的访问请求，通过数据复制方式，在本地或单一数据源上实现访问请求；而对数据复制方式无法实现的复杂的用户请求，则用模式集成方法。

（2 ）数据访问接口。常用的数据访问接口标准有ODBC 、JDBC 、OLEDB和ADO ，具体描述为：

●ODBC（OpenDatabase Connectivity）：ODBC是当前被业界广泛接受的、用于数据库访问的应用程序编程接口（API），它以X/Open和ISO/IEC的调用接口规范为基础，并使用结构化查询语言（SQL）作为其数据库访问语言。ODBC由应用程序接口、驱动程序管理器、驱动程序和数据源 4个组件组成。

●JDBC（JavaDatabase Connectivity）：JDBC是用于执行SQL语句的Java应用程序接口，它由

Java语言编写的类和接口组成。JDBC是一种规范，其宗旨是各数据库开发商为Java程序提供标准的数据库访问类和接口。使用JDBC能够方便地向任何关系数据库发送SQL语句。同时，采用Java语言编写的程序不必为不同的系统平台、不同的数据库系统开发不同的应用程序。

●OLEDB（Object Linkingand Embedding Database）：OLEDB是一个基于组件对象模型

（Component Object Model ，COM）的数据存储对象，能提供对所有类型数据的操作，甚至能在离线的情况下存取数据。

●ADO（ActiveX Data Objects）：ADO是应用层的接口，它的应用场合非常广泛，不仅可用在 VC 、VB 、Delphi等高级编程语言环境，还可用在Web开发等领域。ADO使用简单，易于学习，已成为常用的实现数据访问的主要手段之一。ADO是COM自动接口，

几乎所有数据库工具、应用程序开发环境和脚本语言都可以访问这种接口。

（3 ）WebServices技术。Web Services技术是一个面向访问的分布式计算模型，是实现Web数据和信息集成的有效机制。它的本质是用一种标准化方式实现不同服务系统之间的互调或集成（中23 下2次）。它基于XML 、SOAP（Simple Object Access Protocol ，简单对象访问协议）、WSDL（Web Services Description Language ，Web服务描述语言）和UDDI（Universal Description Discovery and Integration ，统一描述、发现和集成协议规范）等协议，开发、发布、发现和调用跨平台、跨系统的各种分布式应用。其三要素WSDL 、SOAP和UDDI及其组成如图6-6所示。

●WSDL：WSDL是一种基于XML格式的关于Web服务的描述语言，主要目的在于Web Services 的提供者将自己的Web服务的所有相关内容（如所提供的服务的传输方式、服务方法接口、接口参数、服务路径等）生成相应的文档，发布给使用者。使用者可以通过这个WSDL文档，创建相应的 SOAP请求（request）消息，通过HTTP传递给Web Services提供者；Web服务在完成服务请求后，

将SOAP返回（response）消息传回请求者，服务请求者再根据WSDL文档将SOAP返回消息解析成自己能够理解的内容。

●SOAP：SOAP是消息传递的协议，它规定了Web Services之间是怎样传递信息的。简单地

说，SOAP规定了：①传递信息的格式为XML ，这就使Web Services能够在任何平台上，用任何语言进行实现；②远程对象方法调用的格式，规定了怎样表示被调用对象以及调用的方法名称和参数类型等；③参数类型和XML格式之间的映射，这是因为，被调用的方法有时候需要传递一个复杂的参数，怎样用XML来表示一个对象参数，也是SOAP所定义的范围；④异常处理以及其他的相关信息。

●UDDI：UDDI是一种创建注册服务的规范（中22下）。简单地说，UDDI用于集中存放和查找WSDL描述文件，起着目录服务器的作用，以便服务提供者注册发布Web Services ，供使用者查找。

（4 ）数据网格技术。数据网格是一种用于大型数据集的分布式管理与分析的体系结构，目标是实现对分布、异构的海量数据进行一体化存储、管理、访问、传输与服务，为用户提供数据访问接口和共享机制，统一、透明地访问和操作各个分布、异构的数据资源，提供管理、访问各种存储系统的方法，解决应用所面临的数据密集型网格计算问题。数据网格的透明性体现为：

●分布透明性：用户感觉不到数据是分布在不同的地方的；

●异构透明性：用户感觉不到数据的异构性，感觉不到数据存储方式的不同、数据格式的不同、数据管理系统的不同等；

●数据位置透明性：用户不用知道数据源的具体位置，也没有必要了解数据源的具体位置；

●数据访问方式透明性：不同系统的数据访问方式不同，但访问结果相同。

6.5.2数据挖掘

数据挖掘是指从大量数据中提取或“挖掘 ”知识，即从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、却是潜在有用的知识，它把人们从对数据的低层次的简单查询，提升到从数据库挖掘知识，提供决策支持的高度（中22上广）。数据挖掘是一门交叉学科，其过程涉及数据库、人工智能、数理统计、可视化、并行计算等多种技术。

数据挖掘与传统数据分析存在较大的不同，主要表现在以下4个方面。

（1）两者分析对象的数据量有差异。数据挖掘所需的数据量比传统数据分析所需的数据量大。数据量越大，数据挖掘的效果越好。

（2）两者运用的分析方法有差异。传统数据分析主要运用统计学的方法手段对数据进行分析；而数据挖掘综合运用数据统计、人工智能、可视化等技术对数据进行分析。

（3）两者分析侧重有差异。传统数据分析通常是回顾型和验证型的，通常分析已经发生了什么；而数据挖掘通常是预测型和发现型的，预测未来的情况，解释发生的原因。

（4）两者成熟度不同。传统数据分析由于研究较早，其分析方法相当成熟；而数据挖掘除基于统计学等方法外，部分方法仍处于发展阶段。

数据挖掘的目标是发现隐藏于数据之后的规律或数据间的关系，从而服务于决策。数据挖掘常见的主要任务包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析。

（1）数据总结。数据总结的目的是对数据进行浓缩，给出它的总体综合描述。通过对数据的总结，将数据从较低的个体层次抽象总结到较高的总体层次上，从而实现对原始数据的总体把握。传统的、也是最简单的数据总结方法是利用统计学中的方法计算出各个数据项的和值、均值、方差、最大值、最小值等基本描述统计量，还可以利用统计图形工具，对数据制作直方图、散点图等。

（2）关联分析。数据库中的数据一般都存在着关联关系，也就是说，两个或多个变量的取值之间存在某种规律性。关联分析就是找出数据库中隐藏的关联网，描述一组数据项的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有置信度，置信度度量了关联规则的强度。

（3）分类和预测。使用一个分类函数或分类模型（也常称作分类器），根据数据的属性将数据分派到不同的组中，即分析数据的各种属性，并找出数据的属性模型，确定哪些数据属于哪些组，这样就可以利用该模型来分析已有数据，并预测新数据将属于哪个组。

（4）聚类分析。当要分析的数据缺乏描述信息，或者无法组织成任何分类模型时，可以采用聚类分析。聚类分析是按照某种相近程度度量方法，将数据分成一系列有意义的子集合，每一个集合中的数据性质相近，不同集合之间的数据性质相差较大。统计方法中的聚类分析是实现聚类的一种手段，它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内源进行描述，并概括这类对象的有关特征。概念描述又分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述非同类对象之间的区别。

（5）孤立点分析。数据库中的数据常有一些异常记录，与其他记录存在着偏差。孤立点分析（或称为离群点分析）就是从数据库中检测出偏差。偏差包括很多潜在的信息，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差等。

数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用5个阶段，如图6-7所示，这些阶段在具体实施中可能需要重复多次。为完成这些阶段的任务，需要不同专业人员参与其中，专业人员主要包括业务分析人员、数据挖掘人员和数据管理人员。

（1）确定分析对象。定义清晰的挖掘对象，认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后结果往往是不可预测的，但要探索的问题应该是可预见、有目标的。在开始数据挖掘之前，最基础的就是理解数据和实际的业务问题，对目标有明确的定义。

（2）数据准备。数据准备是保证数据挖掘得以成功的先决条件，数据准备在整个数据挖掘过程中占有重要比重。数据准备包括数据选择和数据预处理，具体描述为：

●数据选择：在确定挖掘对象之后，搜索所有与挖掘对象有关的内部和外部数据，从中选出适合于数据挖掘的部分。

●数据预处理：选择后的数据通常不完整、有噪声且不一致，这就需要对数据进行预处理。数据预处理包括数据清理、数据集成、数据变换和数据归约。

（3）数据挖掘。数据挖掘是指运用各种方法对预处理后的数据进行挖掘。然而任何一种数据挖掘算法，不管是统计分析方法、神经网络，还是遗传算法，都不是万能的。不同的社会或商业问

题，需要用不同的方法去解决。即使对于同一个社会或商业问题，也可能有多种算法。这个时候就需要运用不同的算法，构建不同的挖掘模型，并对各种挖掘模型进行评估。数据挖掘过程细分为模型构建过程和挖掘处理过程，具体描述为：

●模型构建：挖掘模型是针对数据挖掘算法而构建的。建立一个真正适合挖掘算法的挖掘模型是数据挖掘成功的关键。模型的构建可通过选择变量、从原始数据中构建新的预示值、基于数据子集或样本构建模型、转换变量等步骤来实现。

●挖掘处理：挖掘处理是对所得到的经过转化的数据进行挖掘，除了完善与选择合适的算法需要人工于预外，其余工作都可由分析工具自动完成。

（4）结果评估。当数据挖掘出现结果后，要对结果进行解释和评估。具体的解释与评估方法一般根据数据挖掘操作结果所制定的决策成败来定，但是管理决策分析人员在使用数据挖掘结果之前，希望能够对挖掘结果进行评价，以保证数据挖掘结果在实际应用中的成功率。

（5）结果应用。数据挖掘的结果经过决策人员的许可，才能实际运用，以指导实践。将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起，构成一个可供不同类型的人使用的应用程序。也只有通过对分析知识的应用，才能对数据挖掘的成果做出正确的评价。

6.5.3数据服务

数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务。

（1）数据目录服务。数据目录服务是用来快捷地发现和定位所需数据资源的一种检索服务，是实现数据共享的重要基础功能服务之一。由于专业、领域、主管部门、分布地域和采用技术的不

同，数据资源呈现的是海量、多源、异构和分布的特点。对于需要共享数据的用户来说，往往存在不知道有哪些数据、不知道想要的数据在哪里、不知道如何获取数据等困难。

（2）数据查询与浏览及下载服务。数据查询、浏览和下载是网上数据共享服务的重要方式，用户使用数据的方式有查询数据和下载数据两种。数据查询与浏览服务一般通过关键字检索来进行。用户通过输入关键字或选择相应的领域及学科，对数据进行快速定位，得到相应的数据集列表。数据下载服务是指用户提出数据下载要求，在获得准许的情况下，直接通过网络获得数据的过程。对于需要数据下载的用户来说，首先需要查询数据目录，获得目标数据集的信息，然后到指定的网络位置进行下载操作。

（3）数据分发服务。数据分发是指数据的生产者通过各种方式将数据传送到用户的过程。通过分发，能够形成数据从采集、存储、加工、传播向使用流动，实现数据的价值。数据分发服务的核心内容包括数据发布、数据发现、数据评价等。数据发布是指数据生产者可以将已生产和标准化的数据传送到一个数据分发体系中，为用户发现、评价做好基础的准备工作。数据发布的内容包括元数据、数据本身、用于数据评价的信息及其他相关信息。数据发现是指用户通过分发服务系统搜索到所需数据相关信息的过程，可通过数据目录服务来实现。数据评价指用户对数据的内容进行判断和评定，以此判断数据是否符合自己的要求。

6.5.4数据可视化

数据可视化（Data Visualization）的概念来自科学计算可视化。数据可视化主要运用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并能进行交互处理，它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域，是一门综合性的学科，具体如图6-8所示。

由于所要展现数据的内容和角度不同，可视化的表现方式也多种多样，主要可分为7类：一维数据可视化、二维数据可视化、三维数据可视化、多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化。具体如表6-8所示。

表6-8：常见数据可视化表现方式

表现方式	说明
一维数据可视化	一维数据就是简单的线性数据，如文本或数字表格、程序源代码都属于一维数据。一维数据可视化取决于数据大小和用户想用数据来处理什么任务

二维数据可视化	在数据可视化中，二维数据是指由两种主要描述属性构成的数据。如一个物体的宽度和高度、一个城市的平面地图、建筑物的楼层平面图等都是二维数据可视化的实例。最常见的二维数据可视化就是地理信息系统（Geographic Information System， GIS）
三维数据可视化	三维数据比二维数据更进了一层，它可以描述立体信息。三维数据可以表示实际的三维物体，因此可视化的许多应用是三维可视化。物体通过三维可视化构成计算机模型，供操作及试验，以此预测真实物体的实际行为
多维数据可视化	在可视化环境中，多维数据所描述事物的属性超过三维，为了实现可视化，往往需要降维
时态数据可视化	时态数据实际上是二维数据的一种特例，即二维中有一维是时间轴。它以图形方式显示随着时间变化的数据，是可视化信息最常见、最有用的方式之一
层次数据可视化	层次数据，即树形数据，其数据内在结构特征为：每个节点都有一个父节点（根节点除外）。节点分兄弟节点（拥有同一个父节点的节点）和子节点（从属该节点的节点）。拥有这种结构的数据很常见，如商业组织、计算机文件系统和家谱图都是按树形结构排列的层次数据
网络数据可视化	网络数据指与任意数量的其他节点有关系的节点的数据。网络数据中的节点不受与它有关系的其他节点数量的约束（不同于层次节点有且只有一个父节点），网络数据没有固有的层次结构，两个节点之间可以有多条连接路径，也就是说节点间关系的属性和数量是可变的

1 #include "stdio.h"
2 void main()
3 {
4     int time;
5     for (time=1;time<=10;time++)
6     printf("%d、喜欢的帮忙点赞收藏加关注哦！\n",time);
7 }

【中项】系统集成项目管理工程师-第6章数据工程-6.5 数据分析及应用

前言：系统集成项目管理工程师专业，现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。

6.5 数据分析及应用

6.5.1 数据集成

6.5.2数据挖掘

6.5.3数据服务

6.5.4数据可视化

最新新闻

热搜词

【中项】系统集成项目管理工程师-第6章 数据工程-6.5 数据分析及应用

前言：系统集成项目管理工程师专业，现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。

6.5 数据分析及应用

6.5.1 数据集成

6.5.2数据挖掘

6.5.3数据服务

6.5.4数据可视化

最新新闻

热搜词

【中项】系统集成项目管理工程师-第6章数据工程-6.5 数据分析及应用