大数据计算
2023.8.30
笔记
2. 年份聚合存储 列存储书数据库
3. b+ tree
4. hash
6. 内存拷贝
7. 避免对象创建
8. 磁盘操作对象加锁
9. mapreduce pregel大数据计算框架
≈ ≡ ≠ = ≤≥ < > ≮ ≯ ∷ ± + - × ÷ / ∫ ∮ ∝ ∞ ∧ ∨ ∑ 【 ∏ π 】 ∪ ∩ ∈ ∉ ∵ ∴ ⊥ ‖ ∠ ⌒ ≌ ∽ √ () 【】{} Ⅰ Ⅱ ⊕ ⊙∥α β γ δ ε ζ η θ Δ 空集 ∅
判全0数组
- 数组A[n]远离ε,表示cnt(A[i]==1)>ε*n
- 假设抽样2/ε,亚线性判定算法出错:当A远离ε时抽样出了全0,
P(error)=(1-ε)^(2/ε) ≈ e^(-ε)(2/ε) ≈1/3
避免频繁垃圾回收
- 开辟BitArray自己管理内存
2023.9(第二周周二)
big data key words(板书)
- b+
- r
- raft
- 火山优化
- hashjoin
- 最终一致
- wal
- hdfs
DS
- 随机化
- 基于磁盘的数据结构:b tree,r tree,网格文件
- 并行数据结构:b+ tree,分布式hash
随机化
- min hash
- lsh
- 布鲁姆过滤器
BigData<-->网络
BigData<-->编译原理,基于大数据的编译优化,大数据运行时环境
BigData<-->操作系统,DBOS,
大数据计算框架-三大分布式计算系统:
- Hadoop适合处理离线的静态的大数据;
- Spark适合处理离线的流式的大数据;
- Storm/Flink适合处理在线的实时的大数据。
BigData<-->体系结构
- 解数据中心化计算
- fpga
- 节能
- 存储瓶颈
other key words
- 支持大模型计算专用数据库
- 数据资产管理
- np完全性证明 归约
- addhook
- 计算优化:压缩,抽样,并行
- 群智感知
2023.9(第二周周四)
key words
- 端云边协同 神经网络正则项 回归 svm 数据挖掘 机器学习 多元统计分析 知识图谱 亚线性算法
- 大数据计算:近似随机算法(贪心 rounding) 数据压缩 抽样 并行 pc集群 增量式算法(模型线上改变)
- 智能大数据处理:
- 工业 健康 生物大数据
- jeffdean:learned index(检索=预测)
- b树 回归 决策树 线性回归RMI 混合rmi 四分查找 learned index 更新问题 遗忘学习 主键非主键
- R树 多维索引
2023.9.15
key words
- 遗传算法 cdf模型预排序 桶排序 hash分类 radix分类 表连接join lru fifo 布鲁姆过滤器 机器学习bf
- count min。 高频干扰。互联网流量估计。查询请求估计。知识图谱。强化学习。旋钮调优。有没有多少个。
- nlp cv lstm 关系数据库 图数据库 sql一阶逻辑没有不动点 极速搜索 注意力机制 自连接 预连接 时序数据压缩
- 春晚抢红包 死锁 乐观并发控制 基于机器学习的数据草图 基于机器学习的近似查询算法
- 预查询 旋钮调优
- 机器学习图管理 文件管理 多模数据库系统
- ML challange:可靠 鲁棒 扩展 解释
2023.9.20
key words
- hadoop hdfs yarn资源调度 mapreduce
- 编程模型 graphylab
- spark core
- 矩阵分解 稀疏矩阵。最小化误差pq。迭代收敛。并行最小二乘,通信同步。 分布式并行的机器学习程序。PS。快速重分配协议。bosen管理通信。分布式深度学习。geeps。数据库内ml。sql写ml程序。声明数式数据库内机器学习,Mlog。大规模gbdt系统。ml问题转化为连接聚集问题。关系操作表达的ml查询优化。列存储ml,易压缩,fpga数据预处理。