第二章 信息技术发展 (2024年详细解析版)

目录

  • 本章主要选择题为主,涵盖了计算机本科生核心内容的全部内容.

2.1 信息技术及其发展#

  • 围绕传统的计算机软硬件、计算机网络、数据库等传统IT技术。

定义

  • 信息技术是以微电子学为基础的计算机技术和电信技术的结合而形成的,对声音的、图像的、文字的、数字的和各种传感信号的信息进行获取、加工、处理、存储、传播和使用的技术。

  • 语言文本处理: 自然语言处理NLP

2.1.1 计算机软硬件#

2.1.1.1 计算机硬件#

  • 计算机硬件(Computer Hardware)是指计算机系统中由电子、机械和光电元件等组成的各种物理装置的总称。

  • 这些物理装置按系统结构的要求构成一个有机整体,为计算机软件运行提供物质基础。

2.1.1.2 计算机软件#

  • 计算机软件(Computer Software)(计算机软件=程序+文档)是指计算机系统中的程序及其文档。(关注还包括各种文档,开发文档,准备文档,用户手册,系统维护手册等,这些都属于软件范畴)

2.1.1.3 硬件和软件相互依存#

  • 硬件是软件赖以工作的物质基础,软件的正常工作是硬件发挥作用的重要途径

  • 硬件和软件协同发展,计算机软件随硬件技术的迅速发展而发展,而软件的不断发展与完善又促进硬件的更新,两者密切交织发展,缺一不可。

  • 随着计算机技术的发展,在许多情况下,计算机的某些功能既可以由硬件实现,也可以由软件来实现。因此硬件与软件在一定意义上来说没有绝对严格的界线

2.1.2 计算机网络#

2.1.2.1 计算机网络定义及分类#

  • 将地理位置不同,并具有独立功能的多个计算机系统通过通信设备和线路连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,均可称为计算机网络.(解析:建设网络是信息化的核心内容.配合也硬件才能形成网络资源)

  • 从网络的作用范围可将网络分为:

    • 个人局域网(Personal Area Network,PAN)
    • 局域网(Local Area Network,LAN)
    • 城域网(Metropolitan Area Network,MAN)
    • 广域网(Wide Area Network,WAN)(例如:因特网)
    • 公用网(Public Network)
    • 专用网(Private Network)

2.1.2.2 网络标准协议#

  • 网络协议是为计算机网络中进行数据交换而建立的规则、标准或约定的集合。网络协议由三个要素组成,分别是语义、语法和时序.
要素 描述 解析
语义 解释控制信息每个部分的含义,它规定了需要发出何种控制信息完成的动作以及做出什么样的响应 做什么
语法 用户数据与控制信息的结构与格式,以及数据出现的顺序 怎么做
时序 对事件发生顺序的详细说明 做的顺序

2.1.2.3 网络协议:ISO/OSI七层模型#

  • 大部分网络实际用到的协议.

  • 开放系统互连参考模型(Open System Interconnect 简称OSI)是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的开放系统互连参考模型

2.1.2.4 TCP/IP协议#

  • TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议)是指能够在多个不同网络间实现信息传输的协议簇. (涵盖了七层协议,事实上的互联网标准)

2.1.2.5 各层次上的协议#

  • 经常考到网络层的协议,传输层的协议

2.1.2.5.1 常用协议(应用层)

FTP文件传输协议

  • 建立在TCP上,20端口上传下载文件,21号端口控制信息(最近没有出现考过)

TFTP简单文件传输协议

  • 建立在UDP上,提供不可靠数据流传输,不提供存储授权与认证(邮件传输协议)

HTTP超文本传输协议

  • 建立在TCP上,用于从WWW服务器向浏览器传送数据,80端口(网页服务器传递过来的就是http协议,安全网络协议HTTPS,端口443,建议掌握)

SMTP简单邮件传输协议

  • 建立在TCP上,用于可靠有效地传递电子邮件,23端口(邮件协议)

DHCP动态主机配置协议

  • 建立在UDP上,为网络设备动态分配IP地址(动态地址分配的一个协议)

Telnet远程登录协议

  • 建立在TCP上,允许用户登录进入远程计算机,25端口(很少用)

DNS域名解析服务

  • 提供域名到IP地址之间的转换,53端口(一直在用,一类网络攻击就叫DNS)

SNMP简单网络管理协议

  • 用于在IP网络管理网络节点(服务器、工作站、路由器、交换机、HUB)(网管服务,管理整个单位的局域网,针对网络管理的协议)

2.1.2.5.2 常用协议(传输层和网络层)

传输层
  • TCP/UDP是配合使用的,TCP/UDP协议都要配合IP协议使用.

TCP传输控制协议

  • 面向连接、、可靠的、全双工的、基于字节流的通信协议。量少可靠(控制信息量少,用TCP)

UDP用户数据报协议

  • 不可靠,无连接的传输协议。量大不可靠(大量不重要的数据文件用UDP)
网络层

IP互联网协议

  • 通过IP地址实现网络通信的面向无连接和不可靠的传输功能

ICMP网际控制报文协议(了解)

  • 用于发送差错报文的协议,例如PING命令

IGMP网际组管理协议(了解)

  • 允许交换机用来加组或监听组内数据收发请求

ARP地址转换协议(重要,必会)

  • IP地址向物理地址(网卡地址MAC)的转换,MAC地址唯一

RARP反向地址转换协议(重要,必会)

  • 物理地址(MAC地址)向IP地址转换

2.1.2.6 网络交换技术的层次#

  • 网络交换是指通过一定的设备(如交换机),将不同的信号或者信号形式转换为对方可识别的信号类型从而达到通信目的的一种交换形式.(在不同层次上进行信息传递的,从物理角度上,网络必然用到设备交换机,网络规模扩大,要在倒数第二层进行交互,过去交换机都是运行在二层(数据链路层,现在是三层或者四层上,有的计算机可以同时进行三层四层的交换))

  • 考试要求不是特别高,知道所谓的二层三层四层交换机的交换技术是针对OSI,从下往上数的层次就可以.

2.1.2.7 IEEE 802协议(最重要的一组协议)#

  • IEEE802规范定义了如何访问传输介质(如光缆、双绞线、无线等),以及在传输介质上传输数数据的方法,还定义了传输信息的网络设备之间连接的建立、维护和拆除的途径。对应OSI模型的最低两层(即物理层和数据链路层)

  • IEEE 802规范包括:

    • 802.1 (802 协议概论)
    • 802.2(逻辑链路控制层LLC协议)
    • 802.3(L以太网的CSMA/CD载波监听多路访问/冲突检测协议)(注意
    • 802.4 (令牌总线Token Bus 协议)
    • 802.5(令牌环Token Ring协议)
    • 802.6 (城域网MAN协议)
    • 802.7(FDDI宽带技术协议)(注意
    • 802.8(光纤技术协议)(注意
    • 802.9(局域网上的语音/数据集成规范)
    • 802.10(局域网安全互操作标准)
    • 802.11(无线局域网WLAN标准协议)(注意

2.1.2.8 软件定义网路SDN#

2.1.2.8.1 定义

  • 软件定义网络(Software Defined Network,SDN)是一种新型网络创新架构)是网络虚拟化的一种实现方式,它可通过软件编程的形式定义和控制网络,从而实现了网络流量的灵活控制,使网络变得更加智能,为核心网络及应用的创新提供了良好的平台。(传统的计算机网络协议是同时要兼顾数据流量,或者建立连接,同时兼顾数据的传递,同时合到一起的,软件定义网络是核心是数据是数据,控制是控制,这叫分层)
  • 核心思想:分层,将数据与控制分离
    • 控制层,包括具有逻辑中心化和可编程的控制器,可掌握全局网络信息,方便运营商和科研人员管理配置网络部署新协议
    • 数据层,包括哑交换机(与传统的二层交换机不同,专指用于转发数据的设备),仅提供简单的数据转发功能,可以快速处理匹配的数据包,适应流量日益增长的需求

解决问题

  • 以前需要网络工程师去现场更新的时代过去了,现在可以直接通过软件定义网络的控制层下发命令,直接把新的协议部署到所有节点

两层之间采用开放的统一接口(如OPENFLOW等)进行交互

2.1.2.8.2 详解

  • 核心是SDN的控制器,图中是上北下南.

2.1.2.9 第五代移动通信技术#

  • 第五代移动通信技术(5th Generation Mobile Communication Technology,5G)是具有高速低时延和大连接特点的新一代移动通信技术

  • 用户体验速率:4G是10M,5G是百兆或者1G.(考点)

  • 5G采用技术:

    • 正交频分多址(Orthogonal Frequency Division Multiple Access,OFDMA)
    • 多入多出(Multiple Input Multiple Output,MlMO)
    • LDPC(具有稀疏校验矩阵的分组纠错码)--- 高通主张
    • Polar(基于信道极化理论的线性分组码)新型信道编码方案 ------ 华为主张
    • 大规模天线技术
    • 短帧、快速反馈、多层/多站数据重传等技术
  • 5G的三大应用场景

    场景 解析
    增强移动宽带(eMBB) 面向移动互联网流量爆炸式增长,为移动互联网用户提供更加极致的应用体验
    超高可靠低时延通信(uRLLC) 面向工业控制、远程医疗、自动驾驶等对时延和可靠性具有极高要求的垂直行业应用需求
    海量机器类通信(mMTC)

2.1.3 存储技术#

  • 一种外挂技术,应该是类似于Linux系统的挂在功能.

2.1.3.1 直连式存储 ( (Direct-Attached Storage, DAS)#

  • DAS是存储设备与服务器的直接连接,一般通过标准接口,如小型机算计系统接口(Small Computer System Interface,SCSI读作死嘎思)等。DAS产品主要包括磁盘、磁带库和光存储等产品.(无论通过什么协议,加入一个外挂的存储设备,类似于加个硬盘扩容)

颗粒度: DAS直接连到服务器作为服务器的附属,块级访问

2.1.3.2 网络接入存储 ( Network-Attached Storage, NAS)#

  • NAS是将存储设备通过标准的网络拓扑结构(如以太网)连接到一系列计算机上。NAS是一种既有强大存储能力又有相当灵活性的存储结构,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求.

  • 作者理解:一个单独的文件操作系统,可以作为服务器,文件存储设备,有卖的,比较贵,可以有一个96T的网络移动硬盘,类似于私人的云存储设备

2.1.3.3 存储区域网络 (Storage Area Network, SAN)#

  • SAN是采用高速传输介质的网络存储技术。它将存储系统网络化,最大特点是将存储设备从传统的以太网中分离出来,组成独立的存储区域,几乎拥有无限存储扩展能力.(整个存储区域单独形成一个子网络,子网络什么都不干,就是存储设备组网,存储设备之间用光纤进行组网)

2.1.3.4 常用存储模式的技术与应用对比(不需要背)#

存储系统架构 DAS NAS SAN
安装难易度 不一定 简单 困难
数据传输协议 SCSI/ATA TCP/IP FC
传输对象 数据块 文件 数据块
使用标准文件共享协议 是(NFS/CIFS...)
异种操作系统文件共享 需要转换设备
集中式管理 不一定 需要管理工具
管理难易度 不一定 以网络为基础,容易 不一定,但通常很难
提高服务器效率
灾难忍受度 高,专有方案
适合对象 中小组织服务器
捆绑磁盘(JBOD)
中小组织
SOHO族
组织部门
大型组织数据中心
应用环境 局域网
文档共享程度低
独立操作平台
服务器数量少
局域网
文档共享程度高
异质格式存储需求高
光纤通道储域网
网络环境复杂
文档共享程度高
异质操作系统平台
服务器数量多
业务模式 一般服务器 Web服务器
多媒体资料存储
文件资料共享
大型资料库
数据块等
档案格式复杂度
容量扩充能力

2.1.3.5 存储虚拟化#

  • 存储虚拟化(Storage Virtualization)是“云存储”的核心技术之一,它把来自一个或多个网络的存储资源整合起来,向用户提供一个抽象的逻辑视图用户可以通过这个视图中的统一逻辑接口来访问被整合的存储资源。用户在访问数据时并不知道真实的物理位置。(笔者简述:简单的理解实物就是百度云,阿里云,都是用了虚拟化存储的技术,还有阿里云服务器.导师解析:有多个分布在异地的磁盘,分别把数据分配到不同的磁盘,管理难度会非常大,就要用到虚拟存储化技术,由虚拟化软件控制各个不同磁盘,一旦向存储系统里存入数据,由虚拟化系统识别各个磁盘所剩空间和分配存储,不需要知道细节,只要通过虚拟软件从虚拟软件中取数据,虚拟软件会自动到不同的磁盘空间帮助取数据,最简单的存储虚拟化.)

  • 优点:

    • 提高了存储利用率
    • 降低了存储成本
    • 简化了大型、复杂、异构的存储环境的管理工作
  • 存储虚拟化使存储设备能够转换为逻辑数据存储。数据存储是类似于文件系统的逻辑容器。它隐藏了每个存储设备的特性,形成一个统的模型,为虚拟机提供磁盘。

2.1.3.6 绿色存储#

  • 绿色存储(Green Storage)技术是指从节能环保的角度出发,用来设计生产能效更佳的存储产品,降低数据存储设备的功耗,提高存储设备每瓦性能的技术。

  • 绿色存储是一个系统设计方案,贯穿于整个存储设计过程,包含存储系统的外部环境、存储架构、存储产品、存储技术文件系统和软件配置等多方面因素。(存储容量越大越好,能耗越小越好,性能越高越好,三个方面要兼顾平衡)

2.1.4 数据模型#

2.1.4.1 数据结构模型(是数据模型的全称)#

  • 数据结构模型是数据库系统的核心。数据结构模型描述了在数据库中结构化和操纵数据的方法,模型的结构部分规定了数据如何被描述(例如树、表等)。模型的操纵部分规定了数据的添加、删除、显示、维护、打印、查找、选择、排序和更新等操作。(计算机技术最终目的,要用软件模拟现实世界,模拟的第一步要把现实世界中的信息抽象出来,形成数据模型)

  • 常见的数据结构模型有三种:层次模型、网状模型和关系模型,层次模型和网状模型又统称为格式化数据模型。

2.1.4.2 数据结构模型------- 层次模型#

  • 层次模型用“树”结构表示实体集之间的关联,其中实体集(用矩形框表示)为结点,而树中各结点之间的连线表示它们之间的关联。

  • 每个结点表示一个记录类型,记录类型之间的联系用结点之间的连线表示这种联系是父子之间的一对多的联系。层次模型只能处理一对多的实体联系,

  • 特性:

    • (1) 有且仅有一个无双亲结点,称为根 (root)

    • (2) 树中除根外所有结点有且仅有一个双亲(父节点)

  • 如上图的结构表达出现实中的信息,就是层次模型

2.1.4.3 数据结构模型------- 网状模型(极少考,了解就好)#

  • 网状模型用有向图结构代替有向树,可以清晰地表示实体间非层次关系,两个或两个以上的结点都可以有多个双亲结点.

  • 网状模型中以记录为数据的存储单位。每个记录有一个唯一标识它的内部标识符,称为码(DatabaseKey,DBK),它在一个记录存入数据库时由数据库管理系统(Database Management System,DBMS)自动赋予。

  • 网状数据库是导航式(Navigation)数据库,用户在操作数据库时不但说明要做什么,还要说明怎么做。

  • 特性:

    • (1) 有一个以上结点无双亲(父节点)

    • (2) 一个双亲允许有多个子女

    • (3) 允许且至少有一个结点有多于一个双亲(父节点)

2.1.4.3 数据结构模型------- 关系模型(重点)#

  • 关系模型用二维表格的形式表示实体以及实体之间的联系。允许设计者通过数据库规范化的提炼建立信息一致性的模型。访问计划和其他实现与操作细节由DBMS引擎来处理,而不应该反映在逻辑模型中。

  • 关系模型的基本原理是信息原理:所有信息都表示为关系中(二维表)的数据值

  • 关系变量在设计时是相互无关联的;设计者在多个关系变量中使用相同的域,如果一个属性依敕于另一个属性,则通过参照完整性来强制这种依赖性。

  • 关系模型中的基本概念(重要):

    • 关系(表--二维表):元组的集合
    • 元组(行--表的每行):属性的有序多重集
    • 属性(列--表的每列):域和值的有序对
    • 域:具有相同属性的值的集合
    • 关键字:属性或属性的组合,它能唯一地标识一个元组或记录

  • 参照完整性:省市区的行政代号必须参考国家行政区域的表,这种参照就是参照完整性.

2.1.5 数据库#

2.1.5.1 数据库管理系统#

  • 数据库管理系统(Database Management System,DBMS)是一种操纵和管理数据库的大型软件,是用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。

  • 数据库管理系统简称数据库

  • 常用数据库类型

    • 关系型数据库(主流商用的数据库一般都是关系型数据库)

    • 非关系型数据库

  • 企业软件系统的"三驾马车": 1、操作系统 2、数据库 3、中间件

2.1.5.2 关系型数据库#

  • 关系数据库系统采用关系模型作为数据的组织方式。关系型数据库支持事务的ACID原则。
    • 原子性 ( Atomicity ) : 事务相关的两条语句要么都执行,要么都不执行.
    • 一致性 ( Consistency ) : 不能因为断电等因素,导致数据库的数据不一致了(比如转账的钱数多了或者少了).
    • 隔离性 ( lsolation ) : 不同事务之间互相不影响(删除不影响增加).
    • 持久性 ( Durability ) : 执行后的操作,永久生效,(比如减少了一部分钱,不会无缘无故加回来).

事务(transaction)是针对数据库的一个操作序列,这些操作要么都执行,要么都不执行,它是一个不可分割的工作单位.

  • 笔者告诉你国产数据库:达梦

2.1.5.3 非关系型(NoSQL)数据库#

  • 非关系型数据库是分布式的、非关系型的、不保证遵循ACID原则的数据存储系统。NoSQL数据存储不需要固定的表结构,通常也不存在连接操作.

  • 种类(知道名字就好):

  • 键值数据库:类似传统语言中使用的哈希表。可以通过key来添加、查询或者删除数据库,因为使用key主键访问,会获得很高的性能及扩展性。Key/Value模型对于信息系统来说,其优势在宇简单、易部薯、高并发。典型产品:redis、emcached.

  • 列存储(Column-oriented)数据库:将数据存储在列族中,一个列族存储经常被一起查询,比如人们经赏会查询某个人的姓名和年龄,而不是薪资。这种情况下姓名和年龄会被放到一个列族中,薪资会被放到另一个列族中.这种数据库通常用来应对分布式存储海量数据.典型产品:cassandra,hbase.

  • 面向文档(Document-Oriented)数据库:文档型数据库可以看作是键值数据库的开级版,允许之间嵌套键值,而且文档型数据库比键值数据库的查询效率更高。面向文档数据库会将数据以文档形式存储.典型产品: mongodb、couchdb

  • 图形数据库:允许人们将数据以图的方式存储。实体会作为顶点,而实体之间的关系则会作为边。比如有三个实体:Steve Jobs、Apple和Next,则会有两个,Founded by的边将Appie和Next连接到Steve Jobs。典型产品:neo4j、infogrid

2.1.5.4 常用存储数据库类型优缺点#

数据库类型 特点类型 描述
关系型数据库 优点 容易理解:二维表结构是非常贴近逻辑世界的一个概念,关系模型相对网状、层次等其他模型来说更容易理解
使用方便:通用的SOL语言使得操作关系型数据库非常方便
易于维护:丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大减低了数据冗余和数据不一致的概率
缺点 数据读写必须经过SOL解析,大量数据、高并发下读写性能不足(对于传统关系型数据库来说,硬盘IO是一个很大的瓶颈)
具有固定的表结构,因此扩展困难
多表的关联查询导致性能欠佳
非关系型数据库 优点 高并发:大数据下读写能力较强(基于键值对的,可以想象成表中的主键和值的对应关系,且不需要经过SOL层的解析,所以性能非常高)
基本支持分布式:易于扩展,可伸缩(因为基于键值对,数据之间没有耦合性,所以非常容易水平扩展)
简单:弱结构化存储
缺点 事务支持较弱
通用性差
无完整约束,复杂业务场景支持较差

2.1.6 数据仓库#

2.1.6.1 数据仓库及特性#

  • 数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策

  • 特性1:面向主题(传统数据库是面向应用)

    • 主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、保单等,它可为辅助决策集成多个部门和不同系统的大量数据。(保险的保单索赔是跨业务,把他们整合一起,就是面向主题)

  • 特性2:集成
    • 数据仓库中的数据面向整个企业的分析处理,数据仓库中的数据是已经集成了的,消除了数据的不一致性。

  • 特性3:非易失 (稳定)

    • 数据仓库包含了大量的历史数据,经集成进入数据仓库后主要用于决策分析,而极少更新。可以将其理解为只读的(READ-ONLY)。

  • 仓库尽量不要删改,做个只读的存储设备.

  • 特性4:随时间变化

    • 主要体现在数据的时限、数据的内容。(可以不频繁的增删改查,却可以一个月把业务系统数据迁移到仓库)

2.1.6.2 数据仓库相关概念#

名称 描述 解析
粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,料粒度级就越大。 每一笔订单的颗粒度小,把客户按整体一个月消费记录成一条记录,颗粒度就大
分割 结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。 没法存储整块大数据的时候,按行或者列切成物理单元
数据集市 小型的,面向部门或工作组级的数据仓库。 规模更小的数据仓库
数据模型 逻辑数据结构,包括由数据库管理系统为有效进行数据库处理提供的操作和约束;用于表示数据的系统。 常用关系数据模型
人工关系 在决策支持系统环境中用于表示参照完整性的一种设计技术。 怎么把人类的认知和关系数据模型进行匹配
ETL 清洗/转换/加载(Extract/Transformation/Load),用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 ETL是清洗/转换/加载的缩写,

元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。
典型的元数据包括:
数据仓库表的结构
数据仓库表的属性
数据仓库的源数据(记录系统)
从记录系统到数据仓库的映射
数据模型的规格说明
抽取日志和访问数据的公用例行程序
......
元数据,关于数据库本身设计的描述,比如:表叫什么名字,字段叫什么,年龄的取值范围
操作数据存储(Operation Data Store,ODS) 能支持组织日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。
ODS的基本特点:
面向主题的
集成的
可变的(数据仓库是稳定的)
当前或接近当前的(数据仓库是历史数据)

2.1.6.3 数据仓库的体系结构#

  • 用了数据仓库的业务系统的体系结构.

  • 数据源通过ETL加载到数据仓库(部门多,可以在每个部门部署一个小的数据仓库,叫做数据集市),有了数据仓库,就可以装很多应用,比如是OLAP服务,除了OLAP服务还可以加载很多前段工具.
名称 描述 解析
数据源 它是数据仓库系统的基础,是整个系统的数据源泉.通常包括组织内部信息和外部信息.内部信息包括存放于关系型数据库管理系统中的各种业务处理数据和各类文档数据.外部信息包括各类法律法规、市场信息和竞争对手的信息等。
数据的存储与管理 它是整个数据仓库系统的核心。娄数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为组织级数据仓库和部门级数据仓库(通常称为数据集市)。
前端工具 前端工具主要包括各种查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器报表工具、数据挖掘工具主要针对数据仓库。

2.1.6.4 OLAP(联机分析处理,On-Line Analytic Processing)服务器#

2.1.6.4.1 概述

  • OLAP对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。技术核心是"维"这个概念。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求.(维:要对数据进行多角度的存储和分析(维就是数据库里的属性,在OLAP中叫做维(维度),OLAP可以代替SQL语句的功能),随时可以查数据,所以叫做在线的或者联机的分析处理系统)

2.1.6.4.2 OLAP分类(考过,主要记前两个)

  • ROLAP ( Relational OLAP)基于关系数据库的OLAP

    • 基本数据和聚合数据均存放在RDBMS(Relational Database Management System)之中.(OLAP数据库里没有存任何东西,现场向关系数据库里边发送SQL语句,查询之后把数据返回给使用者)
  • MOLAP(Multidimensional OLAP)基于多维数据组织的OLAP

    • 基本数据和聚合数据均存放于多维数据库中.(事先把表里的数据先做一个汇总,立方体通过多为数据表,存到内存或者硬盘里,用户查询,直接从多维数据库里直接返回数据.)
  • HOLAP(Hybrid OLAP)基于混合数据组织的OLAP

    • 基本数据存放于RDBMS之中,聚合数据存放于多维数据库中.(多维和关系混合的就是这个)

2.1.6.4.3 OLTP与 OLAP的区别

  • 联机事务处理OLTP ( On-Line Transaction Processing ) :传统的银行转账系统或者12306卖票系统
  • 联机分析处理OLAP ( On-Line Analytic Processing )
OLTP OLAP
主要应用 数据库 数据仓库
功能 日常操作处理 决策分析
用户 操作人员、底层管理人员 决策人员、高级管理人员
模型设计 面相应用 面向主题
时间要求 实时读写要求高 实时读写要求低
分析要求 低、简单 高、复杂
数据处理 当前的、最新的、细节的、二维的、分立的 历时的、聚集的、多维的、集成的、统一的
数据规模 100MB--1G 100GB--1TB
每次存取 数百条数据 数百万条数据

2.1.6.5 数据预处理#

  • 数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理
处理方式 描述 解析
数据清理
(数据清洗)
通过填写缺失的值、平滑噪声数据、清除重复数据、识别或删除离群点并解决不一致性来“清理”数据
数据集成 将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成 就是数据的关联性,相关联的数据放一起,比如用户角色,这种关联数据表的数据
数据变换 通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式
数据归约
(数据归纳)
缩小数据取值范围(记住这几个字),使其更适合于数据挖掘算法(人工智能/机器学习算法),能够得到和原始数据相同的分析结果。尽可能保持数据原貌,最大限度精简数据量。 考过
举例:把年龄1-100岁,缩小范围到0-1之间来表示,就是缩小范围

2.1.7 信息安全#

2.1.7.1 信息安全的定义#

  • 信息安全强调信息(数据)的安全属性,包括信息的保密性、完整性、可用性,另外也包括其他属性,如真实性、可核查性、不可抵赖性、可靠性.

  • 保密性 : 互相通信不会被其他人发现
  • 完整性 : 两者互相通信,不会被第三方进行篡改,确保发出和接受的是完全一致的.
  • 可用性 : 24小时去买票,随时可以买到,就是系统的可用性(也就是系统可以一致运行着,不会因为死机不能用了)

2.1.7.2 信息安全的四个层次#

  • 内容安全很少考
  • 软件系统也是一种设备,所以放在设备安全里.

2.1.7.3 信息安全的内容#

  • 信息系统的每个组成部分都面临着安全隐患,信息安全是跟信息系统组成一一对应的.

  • 面临安全性更高的是网络安全.

2.1.7.4 网络安全技术#

2.1.7.4.1 防火墙

  • 防火墙是指设置在不同网络(如企业内网和外网)或网络安全域之间的一系列部件的组合。它是不同网络或网络安全域之间信息的唯一出入口.

防火墙是一种静态安全技术

  • 防火墙主要是实现网络安全的安全策略,而这种策略是预先定义好的,防火墙的安全策略由安全规则表示

  • 每条规则用条件和动作表示
    • 条件:防火墙将报文中携带的信息与条件逐一对比,从而来判断报文是否匹配
    • 动作:允许(permit)和拒绝(deny),一条策略只能有一个动作

2.1.7.4.2 入侵检测系统IDS (Intrusion detection system)

  • 注重网络安全状况的监管,通过监视网络或系统资源,寻找违反安全策略的行为或攻击迹象,并发出报警,已被动防御为主

2.1.7.4.3 入侵防御系统IPS( Intrusion-prevention system )

  • 监视网络或网络设备的网络数据传输行为的安全设备,能及时的中断、调整或隔离一些不正常或是具有伤害性的网络资料传输行为。倾向于主动防护,注重对入侵行为的控制.

2.1.7.4.4 虚拟专用网络VPN

  • VPN(Virtual Private Network)指在公用网络中建立专用的、安全的数据通信通道的技术,是加密和认证技术在网络传输中的应用。(财务系统,OA系统是不允许外网访问的

VPN实质上就是利用加密技术在公网上封装出一个数据通讯隧道.

2.1.7.4.5 安全扫描

  • 包括漏洞扫描、端口扫描、密码类扫描(发现弱口令密码)等。它和防火墙、入侵检测系统互相配合,能够有效提高网络的安全性.

扫描器是最有效的网络安全检测工具之,它可以自动检测远程或本地主机网络系统的安全弱点以及所存在可能被利用的系统漏洞

2.1.7.4.6 网络蜜罐技术

  • 蜜罐(Honeypot)技术是一种主动防御技术,是入侵检测技术的一个重要发展方向,也是"诱捕”攻击者的陷阱.(没产生破坏之前就进行防御.

蜜罐系统是一个包含漏洞的诱骗系统,它通过模拟一个或多个易受攻击的主机和服务,给攻击者提供一个容易攻击的目标.

2.1.7.5 加密解密#

  • 发信者将明文数据加密(Encryption)成密文,然后将密文数据送入网络传输或存入计算机文件,只给合法收信者分配密钥
  • 合法收信者接收到密文后,实行与加密变换相逆的变换,去掉密文的伪装并恢复出明文,称为解密(Decryption)

加密技术包括两个元素:算法和密钥、分为对称密钥和非对称密钥两种体制(加解密同一个秘钥就是对称秘钥,不是同一个秘钥就是非对称秘钥)

2.1.7.5.1 对称密钥算法(加密密钥和解密密钥相同)

  • IDEA(128位密钥)
  • DES(56位密钥+8位校验)
  • 3DES(3次加密,56*3位密钥)
  • AES(128/192/256位)
  • RC4

2.1.7.5.2 非对称密钥算法(加密密钥和解密密钥不同)

  • RSA(500-1024位密钥)
  • DSA
  • ECC

2.1.7.5.3 数字签名(非对称加密技术)

  • Alice用私钥加密,公开公钥
  • Bob用公钥解密文件查看.
  • 私钥无法伪造,电子商务广泛使用
  • 具有不可抵赖性

2.1.7.6 安全行为分析技术#

2.1.7.6.1 传统安全方案缺点:

  • 基于已知特征进行规则匹配来进行分析和检测
  • 存在安全可见性盲区,有滞后效应
  • 无力检测未知攻击、容易被绕过
  • 难以适应攻防对抗的网络现实和快速变化的组织环境外部威胁

2.1.7.6.2 用户和实体行为分析(User and Entity Behavior Analytics,UEBA)

  • UEBA以用户实体为对象,利用大数据,结合规则L以及机器学习模型,并通过定义此类基线,对用户和实体行为进行分析和异常检测,尽可能快速地感知内部用户和实体的可疑或非法行为
  • UEBA系统通常包括数据获取层、算法分析层和场景应用层
  • 提供用户画像及基于各种分析方法的异常检测,结合基本分析方法(利用签名的规则、模式匹配、简单统计、阈值等)和高级分析方法(蓝督和无监督的机器学习等),用打包分析来评估用户和其他实体(主机、应用程序、网络、数据库等),发现与用户或实体标准画像或行为异常的活动所相关的潜在事件。

2.1.7.6.3 UEBA的核心要素(掌握这个)

  • 数据分析:包括用户行为日志、网络监控流量、企业的基础信息等,数据质量直接影响分析结果的准确性,刻画用户画像需要高质量、多维度的数据,能够精准地表征期望场景下的特定行为。
  • 应用场景:主要侧重于企业内部安全领域,如用户异常登陆行为、违规删除/浏览敏感文件、大流量文件传输、恶意泄漏数据等。
  • 分析方法:采用机器学习方法建立模型,结合专家知识,利用无监督和半监督学习进行自我演化,长时间、持续性地对用户行为进行跟踪分析,构建用户实体的行为活动链,从而有效识别异常行为。

2.1.7.7 安全态势感知#

  • 网络安全态势感知(Network Security Situation Awareness)是在大规模网络环境中,对能够引起网络态势发生变化的安全要素进行获取、理解、显示,并据此预测未来的网络安全发展趋势。

  • 如何进行态势感知

    • 基于安全大数据,对数据整合、特征提取
    • 应用态势评估算法生成网络的整体态势状况
    • 应用态势预测算法预测态势的发展状况
    • 应用数据可视化技术,展示态势状况和预测情况
  • 关键技术

    • 海量多元异构数据的汇聚融合技术
    • 面向多类型的网络安全威胁评估技术
    • 网络安全态势评估与决策支撑技术
    • 网络安全态势可视化

2.2 新一代信息技术及应用#

  • 涉及最近十年甚至五年内的新涌现的技术,例如大数据、人工智能、区块链等。ABCDE四门技术,A就是AI技术,B就是区块链(Block Chain),c是云计算(Cloud),D是大数据(Big Data),E有区别(中国移动是边缘计算)

(解析:将管理模型映射成信息处理模型(笔者认为,就是建模的过程))

2.2.1 物联网#

2.2.1.1 什么是物联网#

  • 物联网(The Internet of Things,IOT)是指通过信息传感设备,按约定的协议将任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的网络。(物联网是把各种设备接入互联网.)

  • 物联网连接了:

    • 物品与物品T2T (Thing to Thing)

    • 人与物品H2T (Human to Thing)

    • 人与人H2H (Human to Human)

    • 人与机器M2M (Man to Machine)

    • 机器与机器M2M (Machine to Machine)

物联网的核心和基础:互联网

2.2.1.2 物联网架构#

  • 物联网分为三层:感知层、网络层和应用层.

  • 感知层 : 通过设备感知周围环境.
  • 网络层 : 相当于人类的中枢神经(不仅仅是网络,还有数据处理).
  • 物联网的基础上搭建的各种智能应用.

2.2.1.3 物联网关键技术#

  • 传感器技术
    • 传感器能“感受”到被测量的信息,并能将检测到的信息按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。
    • 一种传感器:射频技术,需要掌握

传感器是实现自动检测和自动控制的首要环节,也是物联网获取物理世界信息的基本手段.

  • 传感网

    • 微机电系统(Micro-Electro-Mechanical Systems,MEMS)是由微传感器、微执行器、信号处理和控制电路、通信接口和电源等部件组成的一体化的微型器件系统。(知道传感网,是由微机电系统组成的.)
    • MEMS的目标是把信息的获取、处理和执行集成在一起,组成具有多功能的微型系统,集成于大尺寸系统中,从而大幅地提高系统的自动化、智能化和可靠性水平。

  • 应用系统框架

    • 物联网应用系统框架是一种以机器终端智能交互为核心的、网络化的应用与服务。它将使对象实现智能化的控制
    • 应用系统框架涉及5个重要的技术部分:机器、传感器硬件、通信网络、中间件和应用。(这里需要背记五个部分,最重要的就是应用)

应用系统框架基于云计算平台和智能网络,可以依据传感器网络获取的数据进行决策,改变对象的行为控制和反馈

  • 基础设施领域(工业、农业、环境、交通、物流安保)

    • 有效地推动了这些方面的智能化发展,使得有限的资源能更加合理地使用分配,从而提高了行业效率、效益
  • 生活相关领域(家居、医疗健康、教育、金融与服务业、旅游业)

    • 通过与社会科学和社会治理的充分融合创新,实现了服务范围、服务方式和服务质量等方面的巨大变革和进步

2.2.2 云计算#

2.2.21 什么是云计算#

  • 云计算(Cloud Computing)是分布式计算的一种,通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后通过由多部服务器组成的系统进行处理和分析并把结果返回给用户。

  • 云计算是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份沉余和虚拟化等计算机技术混合演进并跃升的结果。(云计算是个巨大的筐,里边会加入很多东西)

2.2.2.2 云计算的优点#

  • 云计算将数据存储在云端(分布式的云计算设备中承担计算和存储功能的部分),业务逻辑和相关计算都在云端完成,因此,终端只需要一个能够满足基础应用的普通设备。(云计算的一个基础就是虚拟化存储)

  • 用户不需要了解"云”中基础服务的细节,不需具有专业知识。只需①通过宽带接入,享受②快速、按需、弹性的服务.(云计算的用户不用知道细节,只要链接网络就可以用,快速使用)

2.2.2.3 云计算平台分层(掌握)#

  • 按照云计算提供资源的层次,分为三层
层次 描述 解析
SaaS(Software-as-a-Service)
软件即服务
向用户提供应用软件(如CRM、办公软件等)、组件、工作流等虚拟化软件的服务,一般采用Web技术和SOA架构,通过Internet向用户提供多租户、可定制的应用能力 把软件作为服务提供给客户,不需要部署硬件,直接租赁账户(比如:金蝶,用友)
PaaS(Platform-as-a-Service)
平台即服务
向用户提供虚拟的操作系统、数据库管理系统、Web应用等平台化的服务。重点不在于直接的经济效益,而更注重构建和形成紧密的产业生态 到这里才真正的涉及到云服务,云平台才真正的做虚拟化
laaS(lnfrastructure as a Service)
基础设施即服务
向用护提供计算机能力、存储空间等基础设施方面的服务。这种服务模式需要较大的基础设施投入和长期运营管理经验,其单纯出租资源的盈利能力有限。 很早以前,初期的,直接把宽带和服务器租给客户,不涉及客户如何使用这些资源(效益比平台即服务更好)

2.2.2.4 云计算关键技术#

2.2.2.4.1 虚拟化技术

  • 在计算机领域通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,简化软件的重新配置过程.
  • 虚拟化对象:CPU、服务器、操作系统、内存、IO、应用或网络等

CPU虚拟化技术与多任务以及超线程技术是完全不同的

虚拟化产品:DOCKER容器、VMWARE、HYPER-V(windows系统的)、XEN、KVM(windows系统的)等

2.2.2.4.2 虚拟化技术----- Docker(了解)

  • 容器(Container)技术是一种全新意义上的虚拟化技术,属于操作系统虚拟化的范畴,也就是由操作系统提供虚拟化的支持。

  • 容器技术将单个操作系统的资源划分到孤立的组中,以便更好地在孤立的组之间平衡有冲突的资源使用需求。

2.2.2.4.3 虚拟化技术----- Kubernetes

  • 容器编排工具Kubernetes(设置docker 的配置的文件,设置所有docker运行方式.)
  • 简称k8s,是开源的,用于管理云平台中多个主机上的容器化的应用,目标是让部署容器化的应用简单并且高效。
  • Kubernetes提供了应用部署,规划,更新,维护的一种机制

2.2.2.4.4 虚拟化技术----- 云存储技术

  • 云存储技术是基于传统媒体系统发展而来的一种全新信息存储管理方式,该方式整合应用了计算机系统的软硬件优势,可较为快速、高效地对海量数据进行在线处理通过多种云技术平台的应用,实现了数据的深度挖掘和安全管理.(比如:云盘网盘,本质就是云存储技术)

2.2.2.4.5 虚拟化技术----- 多租户和访问控制管理

  • 云计算环境下访问控制的研究是伴随着云计算的发展而开始的,访问控制管理是云计算应用的核心问题之一.(很多云平台的用户,同时进行访问,需要进行控制和管理,不要让访问混乱了,同时,做访问控制)

云计算访问控制模型(了解)

基于ABE密码机制的云计算访问控制(书上有)

  • ABE ------ 基于属性加密

  • 1.数据的提供者,来决定提供你的数据

  • 2.接受者(用户)通过属性,第三方通过属性知道这个用户可以获得什么数据

  • 3.使用者使用数据的时候要做个校验,用户是可以使用属性的人,才可以放行.

云中多租户及虚拟化访问控制(黑体字是重点)

2.2.2.4.6 虚拟化技术----- 云安全技术

  • 云安全关注的两个方面(主要关注这个两方面):

    • 云计算技术本身的安全保护工作,涉及数据完整性及可用性、隐私保护性以及服务可用性等
    • 借助于云服务的方式来保障客户端用户的安全防护需求,通过云计算技术来实现互联网安全,涉及基于云计算的病毒防治、木马检测技术等.
  • 云安全技术主要包含:

    • 云计算安全性:主要是对于云自身以及所涉及的应用服务内容进行分析,重点探讨其相应的安全问题,涉及如何有效实现安全隔离,保障互联网用户数据的安全性,如何有效防护恶意网络攻击,提升云计算平台的系统安全性,以及用胡接入认证以及相应的信息传输审计、安全等方面的工作。
    • 保障云基础设施的安全性:主要是如何利用相应的互联网安全基础设备的相应资源有效实现云服务的优化,从而保障满足预期的安全防护的要求。
    • 云安全技术服务:重点集中于如何保障实现互联网终端用户的安全服务要求,能有效实现客户端的计算机病毒防治等相关服务工作。
  • 云安全技术要从开放性、安全保障、体系结构的角度考虑。

    • ① 云安全系统具有一定的开放性,要保障开放环境下可信认证;
    • ② 在云安全系统方面,要积极采用先进的网络技术和病毒防护技术;
    • ③ 在云安全体系构建过程中,要保证其稳定性,以满足海量数据动态变化的需求。

2.2.2.5 云计算的应用和发展#

  • 云计算将进一步成为创新技术和最佳工程实践的重要载体和试验场

    • Al与机器学习、loT与边缘计算、区块链、DevOps、云原生和Service Mesh
  • 云计算将顺应产业互联网大潮,下沉行业场景,向垂直化、产业化纵深发展

    • 随着通用类架构与功能的不断完善和对行业客户的不断深耕,云计算自然渗透进入更多垂直领域,成为提供更贴近行业业务与典型场景的基础能力
  • 多云和混合云将成为大中型组织的刚需,得到更多重视与发展

    • ① 虽然云端已经能提供相当高的可用性,但为了避免单一供应商出现故障时的风险,关键应用仍须架设必要的技术冗余;
    • ② 当业务规模较大时,从商业策略角度看,也需要避免过于紧密的厂商绑定,以寻求某种层面的商业制衡和主动权。
  • 云的生态建设重要性不断凸显,成为影响云间竞争的关键因素

    • 当某个云发展到一定规模和阶段,就不能仅仅考虑技术和产品,需要站在长远发展的角度,建立和培养具有生命力的繁荣生态和社区。

云计算的四大趋势:创新、垂直、混合、生态.

  • 云计算总体分为公有云和私有云,私有云就是企业自己部署一个云平台(自己有自己的服务器),比较贵,公有云就是把企业所有资产放在公有云平台上,安全性就得不到保障(比如租赁阿里云平台,然后数据资产部署在其上),因此可以做混合云,核心资产放在私有云上,不是核心的资产放在公有云上.

2.2.3 大数据#

2.2.3.1 什么是大数据#

  • 大数据(Big Data )指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是具有更强的决策发、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产.(不是数据量的多少,而是具备上述特点的数据都是大数据.)

  • 数据准备 : 可以看做是数据处理(包括采集采集处理,预处理)
  • 数据存储与管理 :
  • 数据分析与计算 :需要消耗海里的性能.
  • 数据治理 : 被重视的程度越来越高
  • 知识展现 : 层次比较低的就是数据可视化

2.2.3.2 大数据的特征(需要记住)#

特征 描述
Volume(数据海量) 大数据的数据体量巨大,从TB级别跃升到PB级别(1PB=1024TB)、FEB级别(1EB=1024PB),甚至达到ZB级别(1ZB=1024EB)
Variety(数据类型多样) 大数据的数据类型繁多,一般分为结构化数据和非结构化数据。且非结构化数据越来越多,对数据的处理能力提出了更高要求(视频音频就是非结构化的)
Value(数据价值密度低) 数据价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是一个难题
Velocity(数据处理速度快) 为了从海量的数据中快速挖掘数据价值,要求对不同类型的数据进行快速的处理,这是大数据的显著特征
  • 还有第五个V,就是数据的真实性(对数据的噪音处理).

2.2.3.3 大数据关键技术#

2.2.3.3.1 大数据获取技术

关键技术 描述
数据采集 通过分布式爬取、分布式高速高可靠性数据采集、高速全网数据映像技术,从网站上获取数据信息。可以使用DPI或DFI等带宽管理技术采集流量数据
数据整合 在数据采集和实体识别的基础上,实现数据到信息的高质量整合。包括多源异构数据的集成与转换、智能模式抽取和模式匹配、自动容错映射和转换、正确性验证、可用性评估
数据清洗 根据正确性条件和数据约束规则,清除不合理和错误的数据,对重要的信息进行修复,保证数据的完整性(对数据进行处理,噪音数据,空缺数据进行处理)

2.2.3.3.2 分布式数据处理技术(考试会出现)

1.分布式计算系统

  • Hadoop用于<>离线的复杂的大数据处理
  • Spark用于离线的快速的大数据处理(基于内存的大数据处理平台(红字重点))
  • Storm用于在线的实时的大数据处理(数据流:电网实时产生的数据(红字重点))

2.大数据分析与挖掘技术(了解)

  • 改进已有数据挖掘和机器学习技术
  • 开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术
  • 创新基于对象的数据连接、相似性连接等大数据融合技术
  • 突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术(AI技术应用到大数据领域)

2.2.3.3.3 大数据管理技术

1.大数据存储技术

  • ① 采用MPP架构的新型数据库集群,通过列存储、粗粒度索引I等多项大数据处理技术和高效的分布式计算模式,实现大数据存储

  • ② 围绕Hadoop衍出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,通过扩展和封装Hadoop来实现对大数据存储、分析的支撑

  • ③ 基于集成的服务器、存储设备、操作系统、数据库管理系统,实现具有良好的稳定性、扩展性的大数据一体机

2.大数据协同(了解)

  • 通过分布式工作流引擎实现工作流调度、负载均衡,整合多个数据中心的存储和计算资源,从而为构建大数据服务平台提供支撑。

3.大数据安全隐私

  • 主要集中于新型数据发布技术,尝试在尽可能少损失数据信息的同时最大化地隐藏用户隐私。在数据信息量和隐私之间是有矛盾的,目前没有非常好的解决办法。

2.2.3.3.4 大数据应用和服务技术(了解)

1.大数据分析应用

  • 主要是面向业务的分析应用。在分布式海量数据分析和挖掘的基础上,大数据分析应用技术以业务需求为驱动,面向不同类型的业务需求开展专题数据分析,为用户提供高可用、高易用的数据分析服务。

2.可视化

  • 通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。大数据的可视化技术主要集中在文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化和交互可视化等。在技术方面,主要关注原位交互分析(ln Situ Interactive Analysis)、数据表示、不确定性量化和面向领域的可视化工具库。

2.2.3.4 大数据应用和发展(了解标题即可)#

1.互联网行业

  • 海量数据的产生、应用和服务一体化。从数据中挖掘用户行为传输到业务领域,支持业务收入和业务发展。同时,随着数据的大量生成、分析和应用,数据本身成为可以交易的资产大数交易和数据资产化成为当前具有价值的领域和方向。(政府要上云用数赋智 )

2.政府的公共数据领域

  • 结合大数据的采集、治理和集成,将各个门信息进行析和共享,发现管理上的纰漏,提高执法水平,增进财税增收和加大市场监程度,改政府管理模式、节省政府投资、增强市场管理,提高社会治理水平、城市管理能力和群众的服务能力。

3.金融领域

  • 大数据征信是熏要的应用领域。通过大数据分析和画像,实现个人信用和金融服务的结合,服务于金融领域的信任管理、风控管理、借贷服务等,为金融业务提供有效支撑。

4.工业领域

  • 结合海量的数据分析,为工业生产过程提供准确的指导。

5.社会民生领域

  • 大数据的分析应用能够更好地为民生服务,如疾病预测。

2.2.4 区块链#

  • 未来很多场景下都可以使用的认证技术.

2.2.4.1 什么是区块链?#

  • 区块链最初来自于比特币体系,它本质上是一个去中心化的数据库(账本),同时作为比特币的底层技术,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一次比特币网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块.

“区块链”概念于2008年在《比特币:一种点对点电子现金系统》中被首次提出

2.2.4.2 区块链的技术基础#

  • 区块链概念可以理解为以非对称加密算法为基础,以改进的默克尔树(Merkle Tree)为数据结构,使用共识机制、点对点网络、智能合约等技术结合而成的一种分布式存储数据库技术。
  • 区块链分类:
    • 公有链(Public Blockchain)

      • 验证节点遍布于世界各地,所有人共同参与记账、维护区块链上的所有交易数据。如:比特币、以太坊、Dash、Factom (所有人可以参与的挖矿)
    • 联盟链(Consortium Blockchain)

      • 由联盟内成员节点共同维护,节点通过授权后才能加入联盟网络。联盟链是私有链的一种,但比纯粹的私有链更真可信度。如:Ripple、R3、Hyperledger
    • 私有链(Private Blockchain)

      • 读写权限握在某个组织或机构手里由组织根据自身需求决定区块链链的公开程度;适角手数管理、审许等金融场景。茹:Multichain、Blockstack、蚂蚁金服
    • 混合链(Hybrid Blockchain)

      • 上述三种的混合体

2.2.4.3 区块链的典型特征#

  • 多中心化(去中心化):链上数据的验证、核算、存储、维护和传输等过程均依赖分布式系统结构。运用纯数学方法代替中心化组织机构在多个分布式节点之间构建信任关系,从而建立可信的分布式系统。

  • 多方维护:激励机制确保分布式系统中的所有节点均可参与数据区块的验证过程,并通过共识机制选择特定节点将新产生的区块加入到区块链中。(来自区块链,不再由中心维护,而是所有的挖矿人员共同维护)

  • 时序数据:区块链运用带有时间戳信息的链式结构来存储数据信息,为数据信息添加时间维度的属性,从而可实现数据信息的可追溯性。(区块链把一个个时间节点数据打包,远远看上去像一个链子)

  • 智能合约:区块链技术为用户提供灵活可变的脚本代码,以支持其创建新型的智能合约。(区块链内可以运行智能化的智能体)

  • 不可篡改:相邻区块间后序区块可对前序区块进行验证,若篡改某一区块的数据信息,则需递归修改该区块及其所有后序区块的数据信息,然而每一次哈希的重新计算代价是巨大的,且须在有限时间内完成,因此可保障链上数据的不可篡改性。(有人篡改数据,通过哈希算法很容易的就知道了谁在篡改)

  • 开放共识:在区块链网络中,每台物理设备均可作为该网络中的一个节点,任意节点可自由加入且拥有一份完整的数据库拷贝。

  • 安全可信:数据安全通过基于非对称加密技术对链上数据进行加密来实现,各节点通过区块链共识算法所形成的算力抵御外部攻击、保证链上数据不被篡改和伪造,从而具有较高的保密性、可信性和安全性。

2.2.4.4 区块链关键技术——分布式账本#

  • 交易记账由分布式的多个节点共同完成,每个节点保存一个唯一、真实账本的副本,参与监督交易合法性。账本里的任何改动都会在所有的副本中被反映出来,记账节点足够多时保证了账目数据的安全性。

  • 分布式账本中存储的资产(属于数据资产)是指法律认可的合法资产,如金融、实体、电子的资产等任何形式的有价资产。

分布式账本是一种数据存储的技术,是一个去中心化的分布式数据库.

2.2.4.5 区块链关键技术——加密算法#

  • 加密算法保证区块数据在网络传输、存储和修改过程中的安全。区块链系统中的加密算法一般分为非对称加密算法和散列(哈希Hash)算法。(两类算法,非对称加密(公钥私钥)和对称加密)

散列算法的目的不是为了“加密”而是为了抽取“数据特征",也可以把给定数据的散列值理解为该数据的“指纹信息".(能直接判断数据是否被修改,特点是防)

2.2.4.6 区块链关键技术——共识机制#

  • 共识机制的思想是:在没有中心点总体协调的情况下,当某个记账节点提议区块数据增加或减少,并把该提议广播给所有的参与节点,所有节点要根据一定的规则和机制,对这一提议是否能够达成一致进行计算和处理。(类似于一群人(旷工),同时做一道题目,谁先做出来,谁就是账本的持有者,谁的GPU强,第一个计算出题目,谁就有资格持有账本,这就是比特币的共识机制)

  • 共识机制可基于:

    • 合规监管:是否支持超级权限节点对全网节点、数据进行监管。
    • 性能效率:交易达成共识被确认的效率。
    • 资源消耗:共识过程中耗费的CPU、P网络输入输出、存储等资源。
    • 容错性:防攻击、防欺诈的能力。

  • 工作量证明机制:比特币,用CPU比较,谁德强,谁就获得记账权,获得奖励(这个名词记一下,知道是共识机制)
  • 权益证明机制 : 以太币,拥有一定数量的以太币的人可以参与挖矿(这个名词记一下,知道是共识机制)

2.2.4.7 区块链关键技术——智能合约#

  • 智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。(智能合约:追加到区块链离得代码,比如:买房子的时候,是先打款还是先过户,最好是同时进行,现在是用第三方一个公共账户和合同,过户后,就会向公共账户内打款,成本很高,未来用区块链技术,通过智能合约实现零成本.将钱和房产证放在区块链上,在固定日期就自动执行了,进入区块链谁也不能撤销.)

智能合约的目的是提供优于传统合约的安全方法,减少与合约相关的交易成本.

2.2.4.8 区块链各层次作用#

层次 解析
应用层 封装了区块链的各种应用场景和案例(买卖双方要介入的层就是应用层)
合约层 主要封装各类脚本、算法和智能合约,是区块链可编程特性的基础(把不同种类的合约封装成代码,一个区块链上可以运行很多种不同的智能合约.)
激励层 将经济因素集成到区块链技术体系中来,主要包括经济激励 的发行机制和分配机制等(只有公有链才需要激励层)
共识层 主要封装网络节点的各类共识算法(去中心化下,各个主体如何取得共识)
数据层 封装了底层数据区块以及相关的数据和基本算法(如何加解密存储数据)

2.2.4.9 区块链的应用和发展#

  • 区块链技术研究角度:

    • 1.在共识机制方面,如何解决公有链、私有链、联盟链的权限控制、共识效率、约束、容错率等方面的问题,寻求针对典型场景的、具有普适性的、更优的共识算法及决策将是研究的重点
    • 2.在安全算法方面,目前采用的算法大多数是传统的安全类算法,存在潜在的"后门”风险,算法的强度也需要不断并级;另外,管理安全、隐私保护监管缺乏以及新技术(如量子计算)所带来的安全问题需要认真对待
    • 3.在区块链治理领域,如何结合现有信息技术治理体系的研究,从区块链的战略、组织、架构以及区块链应用体系的各个方面,研究区块链实施过程中的环境与文化、技术与工具、流程与活动等问题,进而实现区块链的价值,开展相关区块链的审计,是区块链治理领域需要核心关注的问题
    • 4.在技术日益成熟的情况下,研究区块链的标准化,也是需要重要考虑的内容
  • 区块链发展趋势:

    • 1.区块链将成为互联网的基础协议之一。区块链(协议)会和传输控制协议/因特网互联协议(TCP/IP)一样,成为未来互联网的基础协议构建出一个高效的、多中心化的价值存储和转移网络。
    • 2.区块链架构的不同分层将承载不同的功能。类似TCP/IP协议栈的分层结构,区块链结构也将在一个统一的、多中心化的底层协议基础上,发展出各种各样应用层协议。
    • 3.区块链的应用和发展呈螺旋式上升趋势。区块链作为数字化浪潮中下一个阶段的核心技术,其发展周期将比预想得要长,影响的范围和深度也会远远超出人们的想象,将会构建出多样化生态的价值互联网,从而深刻改变未来商业社会的结构和每个人的生活。

2.2.5 人工智能#

2.2.5.1 什么是人工智能#

  • 人工智能(Artificial Intelligence,Al)是指研究和开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门技术科学。

  • 人工智能发展的三要素

    • 数据:以物联网为代表的海量数据
    • 算法:人才涌入,不断优化的人工智能算法
    • 算力:高性能芯片(当前特指GPU)、云计算平台

2.2.5.2 人工智能关键技术-------机器学习#

  • 机器学习(Machine Learning,ML)是一种自动将模型与数据匹配,并通过训练模型对数据进行“学习”的技术,机器学习模型是以统计学为基础。

    • 研究重点:机器学习算法及应用、强化学习算法、近似及优化算法和规划问题等
    • 常见算法:回归、聚类、分类、近似、估计和优化等
    • 当前热点:迁移学习、多核学习和多视图学习等
  • 强化学习方法强化学习是机器学习的一种方式,指机器学习系统制订了目标而且迈向目标的每一步都会得到某种形式的奖励

机器学习模型是以统计为基础的

  • 神经网络是机器学习的一种形式,出现在20世纪60年代,常用于分类算法。它根据输入、输出、变量权重或将输入与输出关联的“特征”来分析问题,类似于神经元处理信号的方式。
  • 深度学习是通过多等级的特征和变量来预测结果的神经网络模型,这类模型有能力应对成干上万个特征,该模型的使用难度很大且难以解释。深度学习模型使用反向传播技术,通过模型进行预测或对输出进行分类,

2.2.5.3 人工智能关键技术-------自然语言处理#

  • 自然语言处理 (Natural Language Processing,NLP)是研究人与计算机之间用自然语言进行有效通信的各种理论和方法。融语言学、计算机科学、数学于一体

  • 应用领域:机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR

  • 自然语言处理困难在于自然语言文本和对话的各个层次上广泛存在着各种各样的歧义性或多义性。

  • 自然语言处理解决的核心问题是信息抽取、自动文摘/分词、识别转化等,用于解决内容的有效界定、消歧和模糊性、有瑕疵的或不规范的输入、语言行为理解和交互。

2.2.5.3.1 深度学习技术

  • 深度学习技术是自然语言处理的重要技术支撑,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。

2.2.5.3.2 ChatGPT

  • ChatGPT (Chat Generative Pre-trained Transformer),美国OpenAl研发的聊天机器人程序,于2022年11月30日发布。

  • ChatGPT是人工智能技术驱动的自然语言处理(NLP)工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务

  • ChatGPT技术特性(了解)

    • 使用了Transformer神经网络架构,即GPT-4架构,主要用于处理序列数据的模型
    • 能够在同一个会话期间内回答上下文相关的后续问题
    • 基于人类反馈的强化学习
    • 采用了注重道德水平的训练方式,按照预先设计的道德准则,对不怀好意的提问和请求“说不"
  • ChatGPT中短期的产业化方向

    • 归纳性的文字类工作
    • 代码开发相关工作
    • 图像生成
    • 智能客服

2.2.5.3.3 AlGC

  • AlGC(Artificial Intelligence Generated Content,即人工智能生成内容技术)。ChatGPT的出现,加速了AIGC技术和应用的发展。(AlGC:人工智能产生内容)

  • AIGC能够生成文本、图像、视频、音频等多种形式的内容。随着技术的发展,AIGC已经开始被广泛应用于新闻、娱乐、教育、医疗、金融和广告等领域其应用范围还在不断扩大。

2.2.5.3.4 多模态

  • 多模态机器学习,英文全称(MultiModal Machine Learning ,MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。(笔者认为:老照片修复,AI生成照片,人物,AI换脸)

  • 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等.

2.2.5.4 人工智能关键技术-------专家系统#

  • 专家系统( Expert system )是一种模拟人类专家解决领域问题的计算机程序系统。通常由人机交互界面、知识库、推理机、解释器综合数据库、知识获取等6个部分构成。(解析:过去很多,现在不多了,六部分组成知道下)

  • 专家系统的发展阶段

    • 第1阶段:以高度专业化、求解专门问题的能力强为特点。
    • 第2阶段:属于单学科专业型、应用型系统,体系结构较完整,移植性方面也有所改善,在人机接口解释机制、知识获取技术、不确定推理技术、知识表示和推理的启发性通用性等方面有所改进。
    • 第3阶段:多学科综合型系统,采用多种人工智能语言,综合采用各种知识表示方法和多种推理机制及控制策略,并运用各种知识工程语言、骨架系统及专家系统开发工具和环境来研制大型综合专家系统。
    • 第4阶段(当前),主要研究大型多专家协作系统、多种知识表示、综合知识库自组织解题机制、多学科协同解题与并行推理、专家系统工具与环境、人工神经网络知识获取及学习机制等。(主要看第四个,前三个不需要看了)

2.2.5.5 人工智能的应用发展#

  • 从人工智能向人机混合智能发展。借鉴脑科学和认知科学的研究成果是人工智能的一个重要研究方向。
  • 从 “人工+智能 ” 向自主智能系统发展。当前人工智能领域的大量研究集中在深度学习,局限是需要大量人工干预,因此科研人员开始关注减少人工干预的自主智能方法,提高机器的自主学习能力。
  • 人工智能将加速与其他学科领域交叉渗透。借助于生物学、脑科学、生命科学和心理学等学科的突破,人工智能将与更多学科深入地交叉渗透。
  • 人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,“人工智能+X”的创新模式将推动人类进入普惠型智能社会。(从互联网+发展到人工智能+)
  • 人工智能的社会学将提上议程。需要从社会学的角度系统全面地研究人工智能对人类社会的影响,制定完善人工智能法律法规,规避可能的风险。

2.2.6 虚拟现实#

2.2.6.1 什么是虚拟现实#

  • 虚拟现实(Virtual Reality,VR)是一种可以创立和体验虚拟世界的计算机系统(其中虚拟世界是全体虚拟环境的总称)。通过虚拟现实系统所建立的信息空间是一个包容多种信息的多维化的信息空间(Cyberspace),人类的感性认识和理性认识能力都能在这多维化的信息空间中得到充分的发挥。

  • VR在硬件方面需要高性能的计算机设备和各类先进的传感器;在软件方面需要提供一个能产生虚拟环境的工具集。

  • 桌面虚拟现实系统 :很久之前就有了,PC机器上存在
  • 沉浸式虚拟现实系统 : 设计一些情景,进行情景交互
  • 分布式虚拟现实系统 : 虚拟现实组成一个战队
  • 增强虚拟显示系统 : 把现实的与虚拟的相结合,叫做增强的虚拟现实
  • 元宇宙 : 虚拟现实的最终目标,在元宇宙中形成新的身份,不仅可以买卖,还可以在其中生活。

虚拟现实技术的主要特征包括沉浸性、交互性、多感知性、构想性(也称想象性)和自主性

2.2.6.2 虚拟现实的关键技术#

2.2.6.2.1 人机交互技术#

  • 是一种新型的利用VR眼镜、控制手柄等传感器设备,让用户真实感受到周围事物存在的一种三维交互技术,与语意识别、谨意输入技术及其他用于监测用户行为动作的设备相结合,形成了目前主流的人际交互手段。

2.2.6.2.2 传感器技术#

  • VR技术的进步受制于传感器技术的发展,现有的VR设备存在的缺点与传感器的灵敏程有很大的关系。VR头显(即VR眼镜)、数据手套等设备都有很大改进空间。

2.2.6.2.3 动态环境建模技术#

  • 虚拟环境的设计是VR技术的重要内容,该技术利用三维数据建立虚拟环境模型。目前常用的虚拟环境建模工具为计算机辅助设计(Computer Aided Design,CAD)以及视觉建模技术。

2.2.6.2.4 系统集成技术#

  • VR系统中的集成技术包括信息同步、数据转换、模型标定、识别和合成等技术,VR系统中储存着许多的语音输入信息、感知信息以及数据模型,因此VR系统中的集成技术显得越发重要。

2.2.6.3 虚拟现实的应用和发展#

  • 硬件性能优化迭代加快。轻薄化、超清化加速了虚拟现实终端市场的迅速扩大,设备的显示分辨率、帧率、自由度、延时、交互性能、重量、眩晕感等性能指标日趋优化,用户体验感不断提升。

  • 网络技术的发展有效助力其应用化的程度。泛在(泛在:随时可用,随时都在的网络)网络通信和高速的网络速度,有效提升了虚拟现实技术在应用端的体验。

  • 虚拟现实产业要素加速融通。技术、人才多维并举,虚拟现实产业核心技术不断取得突破,已形成较为完整的虚拟现实产业链条。

  • 元宇宙等新兴概念为虚拟现实技术带来了“沉浸和叠加“、”激进和渐进”、“开放和封闭”等新的商业理念,大大提升了其应用价值和社会价值将逐渐改变人们所习惯的现实世界物理规则,以全新方式激发产业技术创新,以新模式、新业态等方式带动相关产业跃迁升级。

3 单词汇总#

序号 单词 简写 翻译 描述
1 Computer Hardware 计算机硬件
2 Computer Software 计算机软件
3 Personal Area Network PAN 个人局域网
4 Local Area Network LAN 局域网
5 Metropolitan Area Network MAN 城域网
6 Wide Area Network WAN 广域网
7 Public Network 公用网
8 Private Network 专用网
9 Open System Interconnect OSI 开放系统互连参考模型
10 ISO 国际标准化组织
11 CCITT 国际电报电话咨询委员会
12 Transmission Control Protocol/Internet Protocol TCP/IP 传输控制协议/网际协议
13 Software Defined Network SDN 软件定义网络
14 5th Generation Mobile Communication Technology 5G 第五代移动通信技术
15 Orthogonal Frequency Division Multiple Access OFDMA 正交频分多址
16 Multiple Input Multiple Output MlMO 多入多出
17 Direct-Attached Storage DAS 直连式存储
18 Small Computer System Interface SCSI 型机算计系统接口
19 Network-Attached Storage NAS 网络接入存储
20 Storage Area Network SAN 存储区域网络
21 Storage Virtualization 存储虚拟化
22 Green Storage 绿色存储
23 DatabaseKey DBK
24 Database Management System DBMS 数据库管理系统 像MySQL和Oracle
25 Navigation 导航式
26 Atomicity 原子性
27 Consistency 一致性
28 lsolation 隔离性
29 Durability 持久性
30 transaction 事务
31 NoSQL 非关系型数据库
32 Column-oriented 列存储数据库
33 Document-Oriented 面向文档数据库
34 Data Warehouse DW 数据仓库
35 READ-ONLY 只读的
36 Extract/Transformation/Load ETL 清洗/转换/加载(
37 Operation Data Store ODS 操作数据存储
38 On-Line Analytic Processing OLAP 联机分析处理
39 Relational OLAP ROLAP 基于关系数据库的OLAP
40 Multidimensional OLAP MOLAP 基于多维数据组织的OLAP
41 Hybrid OLAP HOLAP 基于混合数据组织的OLAP
42 On-Line Transaction Processing OLTP 联机事务处理
43 data preprocessing 数据预处理
44 Confidentiality 保密性
45 Integrity 完整性
46 Availability 可用性
47 Intrusion detection system IDS 入侵检测系统
48 Intrusion-prevention system IPS 入侵防御系统
49 Virtual Private Network VPN 虚拟专用网络
50 Honeypot 蜜罐
51 Encryption 加密
52 Decryption 解密
53 User and Entity Behavior Analytics UEBA 用户和实体行为分析
54 Network Security Situation Awareness 网络安全态势感知
55 The Internet of Things IOT 物联网
56 Radio Frequency Identification RFID 射频识别技术
57 Micro-Electro-Mechanical Systems MEMS 微机电系统
58 Cloud Computing 云计算
59 Software as a Service SaaS 软件即服务
60 Platform as a Service PaaS 平台即服务
61 Infrastructure as a Service IaaS 基础设施即服务
62 Container 容器
63 Big Data 大数据
64 Volume 数据海量
65 Variety 数据类型多样
66 Value 数据价值密度低
67 Velocity 数据处理速度快
68 ln Situ Interactive Analysis 原位交互分析
69 Block Chain 区块链
70 Merkle Tree 默克尔树
71 Public Blockchain 公有链
72 Consortium Blockchain 联盟链
73 Private Blockchain 私有链
74 Hybrid Blockchain 混合链
75 Artificial Intelligence AI 人工智能
76 Machine Learning ML 机器学习
77 Natural Language Processing NLP 自然语言处理
78 Chat Generative Pre-trained Transformer ChatGPT 聊天机器人程序
79 Artificial Intelligence Generated Content AlGC 人工智能生成内容技术
80 MultiModal Machine Learning MMML 多模态机器学习
81 Expert system 专家系统
82 Virtual Reality VR 虚拟现实
83 Augmented Reality AR 增强式虚拟现实系统
84 Computer Aided Design CAD 计算机辅助设计

附录#

  • 教材音频版,可以不用看书,听着语音听完本章的教材
posted @   北极的大企鹅  阅读(248)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
阅读 - 79万
点击右上角即可分享
微信分享提示
CONTENTS