大数据算法笔记-亚线性算法

大数据的特点

数据量(Volume)

多样性、复杂性(Variety)

速度(Velocity)

基于高度分析的新价值(Value)

 

大数据的应用

预测

推荐

商业情报分析

科学研究

大数据上问题求解计算问题的过程:

大数据算法:

大数据算法的难题:

 

大数据的算法设计技术:

 

大数据的算法分析:

 

本门课的内容:

第二讲:亚线性算法

大纲:

2.1亚线性算法的定义

2.2水库抽样-空间亚线性算法

2.3平面图直径-时间亚线性计算算法

2.4全0数组判定-时间亚线性判断算法

 

亚线性的含义:

亚线性时间算法

  亚线性时间近似算法(求最优解)

  性质检测算法(通过亚线性时间测定某一个特殊的性质)

 

亚线性空间算法

  数据流算法(仅根据当前得到的信息,在一个受限的空间内得到计算结果)

 

 2.2水库抽样-空间亚线性算法:

算法:

 例子:数据流中频繁元素

数据流的特点:

数据流模型:

 

问题:

(最多有10%的元素是频繁元素,频繁元素占总出现次数的90%)

算法的描述: 

(k是计数器的个数)

分析:

2.3平面图直径-时间亚线性计算算法:

 

 

 

近似比的计算:

 

近似算法:

 

 

近似比-Ratio Bound:

 

相对误差:

 例子:最小生成树

 问题:

求精确解存在的问题:

时间亚线性算法的思想:

 

最小生成树和联通分量的关系:

 

联通分量个数的求解:

  精确解存在的问题:

  

  估计联通分量的个数:

  

问题转换:估计nu

 

 

算法的描述:(用于估计一个连通分量的∑1/nu)

(节点的最大度为d)

分析:

 

 

故,最小生成树近似算法(调用算法CC):

分析:

乘近似:

 

2.4全0数组判定-时间亚线性判断算法:

 

 

判定问题的近似解:

 

全0数组判定中的近似:

 

后者的意思:任意抽出一个数,其为1的概率大于ε

算法的描述:

 

 

 

判定算法的定义:

例子:序列有序的判定

算法的描述:

算法的分析:

 

(其中,n是数组的个数)

 

posted @ 2018-12-10 21:43  cellphone7  阅读(1532)  评论(0编辑  收藏  举报