大数据基础
1、Bloom Filter 过滤器数据分片与路由
分区算法:一致性哈希算法
2、备份机制与一致性
3、CAP理论
4、幂等性:分布式系统状态管理基石
5、一致性模型:强、弱、最终一致。
6、备份机制:法7,Leader-Follower模式
7、共识协议:一致性协议。Paxos或者Raft
8、算法与数据结构
9、LSM:学习和B+树的区别和优势
10、压缩算法:主流压缩算法Snapppy,LZ4。
11、Bloom Filter过滤器
统计学
1、集中趋势
2、变异性
3、归一化
4、正态分布
5、抽样分布
6、估计
7、假设检验
8、T检验
数据分析师
1、高数、概率论、矩阵论
2、交互式数据分析框架
3、机器学习框架
4、Python
数据工程师
1、jvm系语言:java、Scala
2、计算处理框架:离线批处理和流式处理,Flink、Spark Streaming、Kafka Streams
3、分布式存储框架:HDFS
4、资源调度框架:YARN
5、分布式协调框架:Zookeeper,Kafka,HBase
6、KV数据库:memcache、Redis
7、列式存储数据库:HBASE
8、消息队列:ActiveMQ,Kafka