大数据基础

1、Bloom Filter 过滤器数据分片与路由

分区算法:一致性哈希算法

2、备份机制与一致性

3、CAP理论

4、幂等性:分布式系统状态管理基石

5、一致性模型:强、弱、最终一致。

6、备份机制:法7,Leader-Follower模式

7、共识协议:一致性协议。Paxos或者Raft

8、算法与数据结构

9、LSM:学习和B+树的区别和优势

10、压缩算法:主流压缩算法Snapppy,LZ4。

11、Bloom Filter过滤器

 

统计学

1、集中趋势 

2、变异性

3、归一化

4、正态分布

5、抽样分布

6、估计

7、假设检验

8、T检验

 

数据分析师

1、高数、概率论、矩阵论

2、交互式数据分析框架

3、机器学习框架

4、Python

 

数据工程师

1、jvm系语言:java、Scala

2、计算处理框架:离线批处理和流式处理,Flink、Spark Streaming、Kafka Streams

3、分布式存储框架:HDFS

4、资源调度框架:YARN

5、分布式协调框架:Zookeeper,Kafka,HBase

6、KV数据库:memcache、Redis

7、列式存储数据库:HBASE

8、消息队列:ActiveMQ,Kafka

 

posted on 2017-11-08 23:06  箬笠蓑衣  阅读(249)  评论(0编辑  收藏  举报