2021年1月23日

Bitmap

摘要: Bitmap 阅读全文

posted @ 2021-01-23 20:09 淡如清风 阅读(543) 评论(0) 推荐(0) 编辑

布隆过滤器(Bloom Filter)

摘要: 布隆过滤器(Bloom Filter) 阅读全文

posted @ 2021-01-23 20:08 淡如清风 阅读(56) 评论(0) 推荐(0) 编辑

字典树(Trie)

摘要: 字典树(Trie) 阅读全文

posted @ 2021-01-23 20:07 淡如清风 阅读(91) 评论(0) 推荐(0) 编辑

决策树系:ID3,C4.5,CART

摘要: 决策树系:ID3,C4.5,CART 阅读全文

posted @ 2021-01-23 20:04 淡如清风 阅读(173) 评论(0) 推荐(0) 编辑

朴素贝叶斯

摘要: 朴素贝叶斯 阅读全文

posted @ 2021-01-23 19:57 淡如清风 阅读(188) 评论(0) 推荐(0) 编辑

Xgboost

摘要: Xgboost 阅读全文

posted @ 2021-01-23 19:54 淡如清风 阅读(1004) 评论(0) 推荐(0) 编辑

随机森林

摘要: 随机森林 阅读全文

posted @ 2021-01-23 19:48 淡如清风 阅读(335) 评论(0) 推荐(0) 编辑

2020年9月26日

SPARK学习笔记

摘要: SPARK系统架构 Hadoop虽然已成为大数据技术的事实标准,最主要的缺陷是其MapReduce计算模型延迟过高以及磁盘IO开销大,无法胜任实时、快速计算的需求,因而只适用于离线批处理的应用场景。 SPARK相比于Hadoop的优势, 1)Spark提供了内存计算, 大大减少了IO开销,中间结果直 阅读全文

posted @ 2020-09-26 12:01 淡如清风 阅读(127) 评论(0) 推荐(0) 编辑

2020年9月6日

HIVE 工作原理

摘要: HIVE架构 Hive组件 用户接口/界面 Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的Web UI,Hive命令行,HiveHD洞察(在Windows服务器),用户提交查询的地方。 Meta Store元数据存储 Hive选择各自的数据库服 阅读全文

posted @ 2020-09-06 20:56 淡如清风 阅读(512) 评论(0) 推荐(0) 编辑

Hbase 学习笔记

摘要: HBASE由Google的Bigtable设计而来的面向列族的存储的非关系数据库,主要偏向适合数据分析。 优点和缺点 列式数据库优点,列式数据库会把相同列的数据都放在一块即列为单位存储。当我们查询某一列的时候只需要调出相应的块即可,这样还可以减少很多I/O。 高压缩比 如果数据元素间的相似性很高的话 阅读全文

posted @ 2020-09-06 20:54 淡如清风 阅读(133) 评论(0) 推荐(0) 编辑

导航