大数据计算

2023.8.30

笔记

1. 判全0数组

2. 年份聚合存储 `列存储书数据库`

3. b+ tree

4. hash

5. 避免垃圾回收 ,自己管理内存 `大数据计算程序书写`

6. 内存拷贝

7. 避免对象创建

8. 磁盘操作对象加锁

9. mapreduce pregel`大数据计算框架`

≈ ≡ ≠ ＝ ≤≥ ＜ ＞ ≮ ≯ ∷ ± ＋ － × ÷ ／ ∫ ∮ ∝ ∞ ∧ ∨ ∑ 【 ∏ π 】 ∪ ∩ ∈ ∉ ∵ ∴  ⊥ ‖ ∠ ⌒  ≌ ∽ √  （） 【】｛｝ Ⅰ Ⅱ ⊕ ⊙∥α β γ δ ε ζ η θ Δ   空集 ∅

判全0数组

数组A[n]远离ε，表示cnt(A[i]==1)>ε*n
假设抽样2/ε，亚线性判定算法出错：当A远离ε时抽样出了全0,P(error)=(1-ε)^(2/ε) ≈ e^(-ε)(2/ε) ≈1/3

避免频繁垃圾回收

开辟BitArray自己管理内存

2023.9（第二周周二）

big data key words(板书)

b+
r
raft
火山优化
hashjoin
最终一致
wal
hdfs

DS

随机化
基于磁盘的数据结构：b tree，r tree，网格文件
并行数据结构：b+ tree,分布式hash

随机化

min hash
lsh
布鲁姆过滤器

BigData<-->网络

BigData<-->编译原理，基于大数据的编译优化，大数据运行时环境

BigData<-->操作系统，DBOS，

大数据计算框架-三大分布式计算系统：

Hadoop适合处理离线的静态的大数据；
Spark适合处理离线的流式的大数据；
Storm/Flink适合处理在线的实时的大数据。

BigData<-->体系结构

解数据中心化计算
fpga
节能
存储瓶颈

other key words

支持大模型计算专用数据库
数据资产管理
np完全性证明归约
addhook
计算优化：压缩，抽样，并行
群智感知

2023.9（第二周周四）

key words

端云边协同神经网络正则项回归 svm 数据挖掘机器学习多元统计分析知识图谱亚线性算法
大数据计算：近似随机算法（贪心 rounding）数据压缩抽样并行 pc集群增量式算法（模型线上改变）
智能大数据处理：
工业健康生物大数据
jeffdean:learned index（检索=预测）
b树回归决策树线性回归RMI 混合rmi 四分查找 learned index 更新问题遗忘学习主键非主键
R树多维索引

2023.9.15

key words

遗传算法 cdf模型预排序桶排序 hash分类 radix分类表连接join lru fifo 布鲁姆过滤器机器学习bf
count min。高频干扰。互联网流量估计。查询请求估计。知识图谱。强化学习。旋钮调优。有没有多少个。
nlp cv lstm 关系数据库图数据库 sql一阶逻辑没有不动点极速搜索注意力机制自连接预连接时序数据压缩
春晚抢红包死锁乐观并发控制基于机器学习的数据草图基于机器学习的近似查询算法
预查询旋钮调优
机器学习图管理文件管理多模数据库系统
ML challange:可靠鲁棒扩展解释

2023.9.20

key words

hadoop hdfs yarn资源调度 mapreduce
编程模型 graphylab
spark core
矩阵分解稀疏矩阵。最小化误差pq。迭代收敛。并行最小二乘，通信同步。分布式并行的机器学习程序。PS。快速重分配协议。bosen管理通信。分布式深度学习。geeps。数据库内ml。sql写ml程序。声明数式数据库内机器学习，Mlog。大规模gbdt系统。ml问题转化为连接聚集问题。关系操作表达的ml查询优化。列存储ml，易压缩，fpga数据预处理。

posted @ 2023-08-30 12:33 Logic_Han 阅读(162) 评论(0) 收藏举报

刷新页面返回顶部

LogicHan

大数据计算

大数据计算

2023.8.30

笔记

1. 判全0数组

2. 年份聚合存储 列存储书数据库

3. b+ tree

4. hash

5. 避免垃圾回收 ,自己管理内存 大数据计算程序书写

6. 内存拷贝

7. 避免对象创建

8. 磁盘操作对象加锁

9. mapreduce pregel大数据计算框架

判全0数组

避免频繁垃圾回收

2023.9（第二周周二）

big data key words(板书)

DS

随机化

BigData<-->网络

BigData<-->编译原理，基于大数据的编译优化，大数据运行时环境

BigData<-->操作系统，DBOS，

大数据计算框架-三大分布式计算系统：

BigData<-->体系结构

other key words

2023.9（第二周周四）

key words

2023.9.15

key words

2023.9.20

key words

2. 年份聚合存储 `列存储书数据库`

5. 避免垃圾回收 ,自己管理内存 `大数据计算程序书写`

9. mapreduce pregel`大数据计算框架`