大数据分析复习笔记

data mining

volume
veracity
variety
velocity
value

数据挖掘

有效性、可用性、出乎意料、可理解性

Page Rank

spider traps

假设有图：

Alt text

其邻接矩阵 M为：

Alt text

带入公式迭代，结果为： Alt text

最终，rm=1

而 ry=ra=0 。这从漫步者的角度很好理解，在经过一段时间之后，漫步者到达了 m 节点，然而 m 节点只有指向自己的链接，然后就只能一直停留在 m，所以最后的概率一定是1, 而其他两个节点的概率就变成了0 。

解决方案

随机传送 Random Teleports

Google解决这个问题的办法是：到达某个节点后 * 有 β

的概率随机找一个链接过去 * 剩下 1−β 的概率跳到一个随机的页面 * 一般 β 的值在 0.8 到 0.9

之间

这样就使得漫步者在到达m节点之后有一定的概率跳出去！ Alt text

Dead Ends

假设有图：

Alt text

其邻接矩阵为：

Alt text

由于m节点没有链接到其他界面，所以m的那一列都等于零。代入公式迭代，得到结果：

Alt text

漫步者到达m之后发现是死胡同，无路可走了，然而他也不会在m停留，所以最后出现在三个节点的概率都等于0 。

解决方案

依旧是传送！

当漫步者到达死胡同时，传送的概率变为 1.0 ，随机传送到任意页面，然后图就变成了如下：

Alt text 邻接矩阵变为：

Alt text

这样问题就解决了，漫步这每次到m之后，发现去所有页面的概率都相同且不为零，相当于随机跳转到一个页面。

SVD

计算流程

聚类

硬聚类
软聚类

k-means

优点：时间效率 O(tkn)，t是迭代次数，k集群数，n的对象数
缺点：
- k给定
- 难以处理噪声和离群点
- 无法处理非凸形状
开始：选k个核
结束条件：
- 中心不变
- or设置迭代次数

层次聚类

聚合 agglomerative
划分 divisive
距离计算公式
- complete
- single
- centroid
- average
O（n²）

Spark

特点

快速
易用
通用

多种启动方式

hadoop
mesos

生态圈

NoSQL

类型

graph stores
- neo4j(cypher 查询语言)
document stores
- mongodb
key-value stores
wide-column stores

社会计算

（重点）六项任务

centrality analysis
- 分析社交网络中节点的重要性 PageRank
community detection
- 聚类
classification
- 分类，有监督的
link prediction
- 给定社交网络，预测节点之间的联系知识图谱补全
viral marketing
- 病毒营销、outbreak detection
network modeling

社团发现

依据什么标准可以称为community？

posted @ 2020-11-21 14:42 cpaulyz 阅读(294) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

Cpaulyz's Blog

大数据分析复习笔记

data mining

Page Rank

spider traps

Dead Ends

SVD

分类

贝叶斯定理

ID3算法

C4.5算法

KNN

聚类

k-means

层次聚类

推荐系统

content-based

CF

Spark

特点

多种启动方式

生态圈

NoSQL

类型

社会计算

（重点）六项任务

社团发现

公告