大数据算法笔记-亚线性算法
大数据的特点:
数据量(Volume)
多样性、复杂性(Variety)
速度(Velocity)
基于高度分析的新价值(Value)
大数据的应用:
预测
推荐
商业情报分析
科学研究
大数据上问题求解计算问题的过程:
大数据算法:
大数据算法的难题:
大数据的算法设计技术:
大数据的算法分析:
本门课的内容:
第二讲:亚线性算法
大纲:
2.1亚线性算法的定义
2.2水库抽样-空间亚线性算法
2.3平面图直径-时间亚线性计算算法
2.4全0数组判定-时间亚线性判断算法
亚线性的含义:
亚线性时间算法:
亚线性时间近似算法(求最优解)
性质检测算法(通过亚线性时间测定某一个特殊的性质)
亚线性空间算法:
数据流算法(仅根据当前得到的信息,在一个受限的空间内得到计算结果)
2.2水库抽样-空间亚线性算法:
算法:
例子:数据流中频繁元素
数据流的特点:
数据流模型:
问题:
(最多有10%的元素是频繁元素,频繁元素占总出现次数的90%)
算法的描述:
(k是计数器的个数)
分析:
2.3平面图直径-时间亚线性计算算法:
近似比的计算:
近似算法:
近似比-Ratio Bound:
相对误差:
例子:最小生成树:
问题:
求精确解存在的问题:
时间亚线性算法的思想:
最小生成树和联通分量的关系:
联通分量个数的求解:
精确解存在的问题:
估计联通分量的个数:
问题转换:估计nu
算法的描述:(用于估计一个连通分量的∑1/nu)
(节点的最大度为d)
分析:
故,最小生成树近似算法(调用算法CC):
分析:
乘近似:
2.4全0数组判定-时间亚线性判断算法:
判定问题的近似解:
全0数组判定中的近似:
后者的意思:任意抽出一个数,其为1的概率大于ε
算法的描述:
判定算法的定义:
例子:序列有序的判定:
算法的描述:
算法的分析:
(其中,n是数组的个数)