唠叨话

关于德语噢屁事的知识点,仅提供专业性的精华汇总,具体知识点细节,参考教程网址,如需帮助,请留言。 

 

《数据(Data)》

了解有关数据部分、涉及存储及数据库的概念;知识与技能的层次(知道、理解),理论与实践的方面(原理)。

 

《数据设备》
处理器(指令缓存和数据缓存)。

内存(ROM、RAM)、外存(硬盘HD、软盘FD、光盘CD)。
缺页中断算法(FIFO、LRU、OPT)、IOPS(顺序IO、随机IO)、IO管理(IO调度算法)、大块|小块IO、连续|随机IO, 顺序|并发IO。

硬盘:固态硬盘SSD;机械硬盘MHD、硬盘驱动器HDD;混合硬盘HHD。
分布式存储(Ceph)、集中式存储(HDS、EMC、IBM、HP)。
IP-SAN,即RAID连接IP通道组成;FC-SAN,即RAID连接光纤通道组成。
DISK性能指标:IOPS读写数、MBPS吞吐量。
NAS性能指数:OPS、ORT。

IO性能
单位:1秒=10^3ms毫秒=10^6us微秒=10^9ns纳秒。
参数:QPS每秒处理的查询数、TPS每秒处理的事务数、IOPS每秒磁盘的读写数、MBPS每秒磁盘的吞吐率。
一般而言,以实际情况为准。
访问缓存,如:缓存32KB、缓存256KB、缓存8MB、内存16GB。
访问时间,如:缓存2ns、缓存5ns、缓存20ns、内存60ns。
访问周期,如:缓存4、缓存12、缓存36、内存120。
一般而言,以实际情况为准。
CPU缓存的读写数2ns~20ns:若数据缓存32KB延时2ns,则吞吐量6GB/S;若数据缓存256KB延时5ns,则吞吐量3GB/S;若数据缓存8MB延时20ns,则吞吐量2GB/S。
MM内存的读写数20ns~100ns:若内存16GB延时60ns,则吞吐量1GB/S。
SSD硬盘的读写数10us~1ms:若固态盘128GB延时100us,吞吐量300MB/S。
HDD硬盘的读写数5ms~20ms:若机械盘2TB延时12ms,吞吐量40MB/S。
NIC网卡的读写数100us~1ms。

例如:机械硬盘。
寻道时间Seek Time:3~15 ms 毫秒
旋转速度Rotation Speed:5400|7200|10000|15000 rpm 分钟转数
理论值:旋转延迟=(每分钟60秒*1024)/转数/2,以1000为计算标准。
5400 rpm磁盘平均旋转延迟 60*1000/5400/2 = 5.555ms
7200 rpm磁盘平均旋转延迟 60*1000/7200/2 = 4.166ms
10000 rpm磁盘平均旋转延迟 60*1000/10000/2 = 3ms
15000 rpm磁盘平均旋转延迟 60*1000/15000/2 = 2ms
理论值:IOPS=1024 ms/ (寻道时间+旋转延迟),以1000为计算标准,忽略传输时间。
5400 rpm磁盘平均读写数IOPS = 1000 / (12+5.555)  = 57 IOPS
7200 rpm磁盘平均读写数IOPS = 1000 / (9+4.166)  = 76 IOPS
10000 rpm磁盘平均读写数IOPS = 1000 / (6+3) = 111 IOPS
15000 rpm磁盘平均读写数IOPS = 1000 / (4+2) = 166 IOPS

平均寻道时间为全部寻道时间的一半,((磁道数/百条磁道)*百条磁道时间)/2。
平均旋转延时为每周旋转时间的一半,(每分钟60秒*1024)/转数/2。
扇区传送时间为 T=b/rN,b/N 即 百条磁道时间/每道扇区数。
总的平均时间:平均寻道时间+平均旋转延时+扇区传送时间。

某场合:读取1个10MB文件,耗时0.2秒,Throught吞吐量=50MB/s,IOPS读写数=5,适用吞吐量。
某场合:若读取1000个10KB文件,耗时10秒,Throught吞吐量=1MB/s ,IOPS读写数=1000,适用读写数。

IO磁盘测试
测试对象:SSD、RAID、SAN。
测试指标:IOPS读写数和MBPS吞吐率。
测试工具:Linux之FIO、DD工具,Windows之IOMeter。
测试参数:  IO大小、寻址空间、队列深度、读写模式、随机/顺序模式。
若磁盘4KB扇区对齐,则测试服务时间和服务指标。
服务时间 = 寻道时间 + 旋转延时 + 传输时间 + 控制器延时。
服务指标:顺序读、顺序写、随机读、随机写。

 

《数据概念》

《数据模型》
结构数据:关联分析、分类分析、聚类分析;
非结构数据:文本分析、图形图像分析、音频视频分析。
《数据技术》
类型:采集、存储、清洗、挖掘、视图。
《数据处理》
分类:OLAP联机分析处理 、OLTP联机事务处理。
《数据计算》
模式:实时流处理计算、延迟批处理计算。

《数据统计量》
趋势升降(平均数、中位数、众数),波动大小(极差,方差,标准差)。
《数据统计图》
条形图、直方图、柱形图、曲面图、饼图、面积图、趋势图、箱形图、气泡图、散点图、鱼骨图、树状图、茎叶图、雷达图。

《数据技术》
数据分析、数据挖掘、数据报表。
《数据挖掘》
分类、估计、预测、关联、聚类。
《数据操作》
平面数据:分类、归并、排序、存取、检索、输入、输出;
空间数据:拼接、剪辑、合并、叠合。
《数据仓库》
数据仓库(Data Warehouse,DW)数据获取(Data Acquisition)数据存储(Data Storage)数据访问(Data Access)

注:数据知识的相关概念,知道并理解其原理。

 

《数据系统(Data System)》

熟悉文件、存储、数据库、搜索引擎;知识与技能的层次(知道、理解、运用),理论与实践的方面(原理、技术、操作)。

《文件(File)》
文件系统(File System,FS)
HDFS(Hadoop),GFS(Google),Lustre,FastDFS(Alibaba),TFS(Taobao);MogileFS,MooseFS;Ceph,FreeNAS,NFS,pNFS,AFS(AndrewFS),OpenAFS;
分布式文件系统(Distributed File System,DFS)
Lustre,Ceph,HadoopFS,GoogleFS,TaobaoFS,FastDFS,MogileFS,MooseFS,GlusterFS,GridFS(MongoDB);

《存储(Storage)》
存储技术(Storage Technology,ST)
Block块:DAS(Direct Attached Storage,直连式存储)、SAN(Storage Area Network,存储区域网络)
File文件:NAS(Network Attached Storage,网络附属存储)、NFS(Network File System,网络文件系统)
Object对象:KV(Cache,缓存)
存储系统(Storage System,SS)
文档存储服务DSS(Document)MongoDB,DynamoDB,Couchbase,CouchDB;
键值存储服务KVSS(Key-value)Redis,Memcache;
宽列存储服务WCSS(Wide-column)Cassandra,HBase,Riak;

《数据库(Database)》
关系数据库服务RDS(Relational)Oracle,MySQL,PostgreSQL,SQLServer,Access,SQLite;
时序数据库服务TDS(Timeseries)InfluxDB,RRDtool,Graphite,OpenTSDB;
图形数据库服务GDS(Graph)Neo4j,Titan,Giraph,InfoGrid;
多值数据库服务MDS(Multivalue)Adabas,UniData;
对象数据库服务ODS(Object)Db4o;

《搜索引擎(Search Engine)》
搜索引擎服务SES(Search Engine Service)Elasticsearch,Solr,Splunk,Sphinx;

参考网站 http://www.db-engines.com/

注:通过文件、存储、数据库、搜索引擎的原理和技术知识,熟练运用数据操作,如:安装、配置、管理、运用等。

 

《数据知识库》

《RAID》
RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术
RAID的几种工作模式(RAID0,RAID1,RAID5,RAID10)
1、RAID0(又称为Stripe或Striping分条)
即Data Stripping数据分条技术。无故障的迅速读写,要求安全性不高,如图形工作站等。
RAID 0缺点:不提供数据冗余,数据损坏,无法恢复。
2、RAID1(又称为Mirror或Mirroring镜像)
数据的百分之百备份,磁盘空间利用率低,存储成本高。
3、 RAID 5 (RAID 0和RAID 1)
随机数据传输要求安全性高,如金融、数据库、存储等。
4、 RAID 10 (RAID 0和RAID 1)
RAID10也被称为镜象阵列条带。

 

《数据》
数据:聚集数据(模拟数据)、离散数据(数字数据)。data:segment段(extents)、extent块(blocks)、block块。
直接附加存储(Direct-Attached Storage,DAS)。
织物附加存储(Fabric-Attached Storage,FAS):网络接入存储(Network-Attached Storage,NAS)、存储区域网络(Storage Area Network,SAN)。

数据统计软件:SAS、SPSS。
数据仓库架构:Shared Memory(SM)、Shared Disk(SD)、Shared Nothing(SN)。
SM:多个CPU,共享一个内存和一个硬盘。
SD:每个CPU有自己的内存,共享一个硬盘。
SN:每个CPU有自己的内存和硬盘,不共享任何东西。

Google.BigTable,Amazon.Dynamo,Facebook.Cassandra,Linkedin.Voldemort,DouBan.BeansDB,RenRen.Nuclear。
符合CAP规则,计算机节点和数据分区的架构。
Consistency(一致性):即数据复制到N台机器,如果有更新,N台机器的数据一起更新。
Availability(可用性):即响应性能好,速度快。
Partition tolerance(容错性):即机器节点扩展,数据分区方法。

数据逻辑性:面向键值对、面向列存储、面向文档型、面向图形型。
  面向键值对(Redis、Memcache)高负载访问,键值对;优势:查询极速。劣势:数据缺少结构化。
  面向列存储(Cassandra)分布式文件,列簇式。优势:查找快速,分布式扩展性强。劣势:功能相对局限。
  面向文档型(MongoDB)站点应用类,键值对;优势:数据结构不严格。劣势:查询性能及语法不强。
  面向图形型(Neo4j)社交关系类,图结构;优势:图结构算法。劣势:分布式集群复杂。
数据分布性:一致性和可用性(MongoDB,HBase),可用性和可分区性(Cassandra)。
数据持久性:内存(Redis、Memcache),磁盘(MongoDB、Riak),内存和磁盘(Cassandra、HBase)。

 

《分布式》
数据管理方式:数据卷(Data Volumes)、数据卷容器(Data Volume Containers)。
《分布式数据》
容错:Paxos。
计算:Hadoop MapReduce、Apache(Spark、Storm、Samza)。
存储:Apache HBase、Google(Bigtable、Dremel、Spanner)。
《分布式数据存储》
块存储: Ceph rbd、Sheepdog、Rancher Longhorn。
文件存储: Ceph fs、GlusterFS、HadoopFS、GoogleFS、FastDFS、TaobaoFS、MooseFS、GridFS。
对象存储: Ceph rgw、OpenStack Swift、Amazon S3、Hadoop Ozone。

 

 posted on 2017-10-09 17:36  cdani  阅读(1256)  评论(0编辑  收藏  举报