大数据计算

大数据计算

2023.8.30

笔记

1. 判全0数组

2. 年份聚合存储 列存储书数据库

3. b+ tree

4. hash

5. 避免垃圾回收 ,自己管理内存 大数据计算程序书写

6. 内存拷贝

7. 避免对象创建

8. 磁盘操作对象加锁

9. mapreduce pregel大数据计算框架

≈ ≡ ≠ = ≤≥ < > ≮ ≯ ∷ ± + - × ÷ / ∫ ∮ ∝ ∞ ∧ ∨ ∑ 【 ∏ π 】 ∪ ∩ ∈ ∉ ∵ ∴  ⊥ ‖ ∠ ⌒  ≌ ∽ √  () 【】{} Ⅰ Ⅱ ⊕ ⊙∥α β γ δ ε ζ η θ Δ   空集 ∅

判全0数组

  1. 数组A[n]远离ε,表示cnt(A[i]==1)>ε*n
  2. 假设抽样2/ε,亚线性判定算法出错:当A远离ε时抽样出了全0,P(error)=(1-ε)^(2/ε) ≈ e^(-ε)(2/ε) ≈1/3

避免频繁垃圾回收

  1. 开辟BitArray自己管理内存

2023.9(第二周周二)

big data key words(板书)

  1. b+
  2. r
  3. raft
  4. 火山优化
  5. hashjoin
  6. 最终一致
  7. wal
  8. hdfs

DS

  1. 随机化
  2. 基于磁盘的数据结构:b tree,r tree,网格文件
  3. 并行数据结构:b+ tree,分布式hash

随机化

  1. min hash
  2. lsh
  3. 布鲁姆过滤器

BigData<-->网络

BigData<-->编译原理,基于大数据的编译优化,大数据运行时环境

BigData<-->操作系统,DBOS,

大数据计算框架-三大分布式计算系统:

  1. Hadoop适合处理离线的静态的大数据;
  2. Spark适合处理离线的流式的大数据;
  3. Storm/Flink适合处理在线的实时的大数据。

BigData<-->体系结构

  1. 解数据中心化计算
  2. fpga
  3. 节能
  4. 存储瓶颈

other key words

  1. 支持大模型计算专用数据库
  2. 数据资产管理
  3. np完全性证明 归约
  4. addhook
  5. 计算优化:压缩,抽样,并行
  6. 群智感知

2023.9(第二周周四)

key words

  1. 端云边协同 神经网络正则项 回归 svm 数据挖掘 机器学习 多元统计分析 知识图谱 亚线性算法
  2. 大数据计算:近似随机算法(贪心 rounding) 数据压缩 抽样 并行 pc集群 增量式算法(模型线上改变)
  3. 智能大数据处理:
  4. 工业 健康 生物大数据
  5. jeffdean:learned index(检索=预测)
  6. b树 回归 决策树 线性回归RMI 混合rmi 四分查找 learned index 更新问题 遗忘学习 主键非主键
  7. R树 多维索引

2023.9.15

key words

  1. 遗传算法 cdf模型预排序 桶排序 hash分类 radix分类 表连接join lru fifo 布鲁姆过滤器 机器学习bf
  2. count min。 高频干扰。互联网流量估计。查询请求估计。知识图谱。强化学习。旋钮调优。有没有多少个。
  3. nlp cv lstm 关系数据库 图数据库 sql一阶逻辑没有不动点 极速搜索 注意力机制 自连接 预连接 时序数据压缩
  4. 春晚抢红包 死锁 乐观并发控制 基于机器学习的数据草图 基于机器学习的近似查询算法
  5. 预查询 旋钮调优
  6. 机器学习图管理 文件管理 多模数据库系统
  7. ML challange:可靠 鲁棒 扩展 解释

2023.9.20

key words

  1. hadoop hdfs yarn资源调度 mapreduce
  2. 编程模型 graphylab
  3. spark core
  4. 矩阵分解 稀疏矩阵。最小化误差pq。迭代收敛。并行最小二乘,通信同步。 分布式并行的机器学习程序。PS。快速重分配协议。bosen管理通信。分布式深度学习。geeps。数据库内ml。sql写ml程序。声明数式数据库内机器学习,Mlog。大规模gbdt系统。ml问题转化为连接聚集问题。关系操作表达的ml查询优化。列存储ml,易压缩,fpga数据预处理。
posted @ 2023-08-30 12:33  Logic_Han  阅读(63)  评论(0编辑  收藏  举报