A Summary Of Web Content Security
chap1
一. 网络信息排级算法
1.PageRank
原理:民主表决
核心思想: 在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。
网页数量过大问题的解决:稀疏矩阵、MapReduce
优点:
直接高效、主题集中
缺陷:
(1)完全忽略网页内容,干扰挖掘结果
(2)结果范围窄
(3)影响因子与网页获取数量缺乏科学性
2.HITS
Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算法最基本的两个定义。
-
“Authority”页面,是指与某个领域或者某个话题关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。
-
“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。
枢纽值(Hub Scores):页面上所有导出链接指向页面的权威值之和。
权威值(Authority Scores):所有导入链接所在的页面的枢纽值之和。
HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。
算法基本思想:相互增强关系
基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;
基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面。
具体算法:可利用以上两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。
-
构建根集合
-
扩展集合Base
-
计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)
-
排序,结果输出
优点:
(1)知识范围扩大。
(2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强
存在的问题:
(1)计算效率低,实时性差
与查询相关的算法
(2)“主题漂移”
(3)易被作弊者操纵结果
作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分
(4)结构不稳定
在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。
3.HITS算法与PageRank算法比较
1.HITS算法是与用户输入的查询请求密切相关的,而PageRank与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价;
2.HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高;
3.HITS算法的计算对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank是全局性算法,对所有互联网页面节点进行处理;
4.两者的计算效率和处理对象集合大小来比较,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端;
5.HITS算法存在主题泛化问题,所以更适合处理具体化的用户查询;而PageRank在处理宽泛的用户查询时更有优势;
6.HITS算法在计算时,对于每个页面需要计算两个分值,而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域,Hub分值也有很重要的作用;
7.从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。
8.HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定,其根本原因在于PageRank计算时的“远程跳转。
二. 垃圾信息过滤
搜索引擎优化
三. 信息推荐算法
1. 基于内容推荐
根据用户已选择的对象,推荐其他类似属性的对象作为推荐。
2. 协同过滤推荐
推荐相似用户所选择的对象
- 启发式方式
使用与新用户c相似的用户 c' 对一个对象的评价来预测s对新用户c的效用,进而判断是否推荐s给c。
- 基于模型的方法
利用用户c对众多对象的评分来学习一个c的模型,然后使用概率方法对新的对象s的推荐效用进行预测。
3. 组合推荐
(1)后融合组合推荐
基本思路:融合两种或两种以上的推荐方法各自产生的推荐结果,判断使用其中的哪个推荐结果更好。属于结果层次上的融合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法产生一个推荐预测结果,然后用某种方法组合其结果。
(2)中融合组合推荐
基本思路:以一种推荐方法为框架,融合另一种推荐方法。
(3)前融合组合推荐
基本思路:直接融合各种推荐方法。
chap2
一. 文本预处理的必要性和主要内容
定义:文本特征指的是关于文本的元数据
分类:描述性特征、语义性特征
目的:
- 清洗文本数据,去除不必要的字符、标点符号和特殊符号,保留有用的信息。
- 分词,将文本数据拆分成独立的词或标记,方便计算机理解和处理。
- 将文本数据转换为数值形式,以便应用于机器学习和深度学习算法。
- 处理文本数据中的大小写、停用词和词干等问题,提高文本数据的一致性和标准化程度。
- 去除文本数据中的噪音和冗余信息,减少对后续任务的干扰。
特征抽取
-
预处理
-
文本表示:向量空间模型
-
降维技术:特征选择、特征重构
二. 汉语分词主要挑战和算法
1. 最大匹配法
-
正向最大匹配法(MM)
- 自左向右
- 每次取最长词
-
逆向最大匹配法(RMM)
- 自右往左
- 每次取最长词
-
双向最大匹配
- 依次采用正向最大匹配和反向最大匹配
- 如果结果一致则输出
- 如果结果不一致,则采用其他方法排歧
能发现部分交集型歧义,无法发现组合型歧义。
对某些交集型歧义,可以增加回溯机制来改进最大匹配法的分词结果。
2. 概率法
基本思想:
-
一个待切分的汉字串可能包含多种分词结果
-
将其中概率最大的作为该字串的分词结果
提高计算效率方法:
- 最佳左邻词
并不能解决所有的交集型歧义问题。
无法解决组合型歧义问题。
三. 文档模型
1. 布尔模型
建立在经典的集合论和布尔代数的基础上
每个词在一篇文档中是否出现,对应权值为0或1
文档检索→布尔逻辑运算
优点:简单、易理解、简洁的形式化。
缺点:准确匹配,信息需求的能力表达不足。
2. 词袋模型
- n-gram语法模型
3. 向量空间模型
向量空间模型中将文档表达为一个矢量,看作向量空间中的一个点
chap3
一. 文本分类和聚类的评价
聚类与分类最主要的差别是聚类的样本不具有类别标号,而分类的样本具有类别标号。
聚类是无监督学习(unsupervised learning),而分类是有监督学习(supervised learning)。因此,分类里有训练和测试,而聚类没有训练。
尽管分类是识别对象组类别的有效手段,但需要高昂的代价收集和标记训练样本集。因此,聚类提供了一种新的处理模式:先把数据集划分为组,然后给有限的组指定类别标号。
二. 特征选择主要方法
1.目的
-
避免过拟合(over fitting),提高分类准确度
-
通过降维,大大节省计算时间和空间
2.方法
(1)文档频率法(DF)
-
启发式要点
-
太频繁的词项没有区分度
-
太稀有的词项独立表达的类别信息不强
-
稀有的更有代表性
-
-
最容易实现,可扩展性好
(2)信息增益法(IG)
只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择。
(3)互信息法(MI)
低词频对于互信息的影响比较大。
一个词如果频次不够多,但是又主要出现在某个类别里,那么就会出现较高的互信息,从而给筛选带来噪音。
先对词按照词频排序取然后按照互信息大小进行排序,然后再选择自己想要的词。
(4)开方拟合检验(CHI)
三. 文本分类方法
1.KNN分类
工作原理
-
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每个数据与所属分类的对应关系。
-
输入没有标签的新数据后,将新数据与样本集中数据进行比较,然后算法提取样本集中最相似数据(最近邻)的分类标签。
优点
- 简单、高效
- 重新训练的代价较低
- 计算时间和空间线性于训练集的规模
不足
- 响应速度较慢,不是很适合在线分类(KNN是懒散学习方法)
- 类别评比不是规格化的
- 输出的可解释性不强
2.贝叶斯分类
基本思想:使用贝叶斯公式,通过先验概率和类别的条件概率来估计文档
3.SVM分类
基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。
支持向量机还包括核技巧,这使它成为实质上的非线性分类器。
支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。
SMO算法
基本思路
-
如果所有变量的解都满足此最优化问题的KKT条件,那么得到解;
-
否则,选择两个变量,固定其它变量,针对这两个变量构建一个二次规划问题,称为子问题,可通过解析方法求解,提高了计算速度。
-
子问题的两个变量:一个是违反KKT条件最严重的那个,另一个由约束条件自动确定。
SMO算法包括两个部分:
-
求解两个变量二次规划的解析方法
-
选择变量的启发式方法
四. 文本聚类方法
聚类分析中“类”的特征
-
聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分
-
聚类的数目和结构都没有事先假定
1.划分聚类方法
划分方法将给定的数据集划分成
-
给定一个有n个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇。
-
对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。
k-means算法
- 主要优点
- 简单、快速
- 对处理大数据集,该算法是相对可伸缩和高效率的
- 当结果簇是密集的,它的效果较好
- 主要缺点
- 在簇的平均值被定义的情况下才能使用
- 必须事先给出
(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果 - 不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。
PAM算法
选用簇中最中心的对象作为代表对象,试图对n个对象给出k个划分。
最初随机选择k个对象作为中心点,该算法反复地用非代表对象来代替中心点,试图找出更好的中心点,以改进聚类的质量。
PAM算法代价函数:
- 计算各点到最近的中心点的距离
- 计算各点到替换后的最近的中心点的距离
- 比较替换后的距离和与替换前的距离和
2.层级聚类方法
-
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。一般可以分为凝聚法与分裂法。
-
凝聚的层次聚类:也称为自底向上的方法,开始将每个对象形成单独的簇,然后逐次合并相近的对象或簇,直到满足终止条件。
- 代表:AGNES算法。
- 最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。聚类的合并过程反复进行直到所有的对象最终满足簇数目。
- 层次聚类方法的终止条件:设定一个最小距离阈值D,如果最相近的两个簇的距离已经超过D,则它们不需再合并,聚类终止;限定簇的个数k,当得到的簇的个数已经达到k,则聚类终止。
- 代表:AGNES算法。
-
分裂的层次聚类:也称为自顶向下的方法,开始将所有对象放入一个簇中,每次迭代,簇分裂为更小的簇,直到满足终止条件。
- 代表:DIANA算法。
- 最初将所有样本放入一个簇,然后选择一个簇,根据某些准则进行分裂。分裂的过程反复进行直到所有的对象最终满足簇数目。
- 代表:DIANA算法。
-
Birch算法
- 扫描数据库,建立一棵存放于内存的CF-树。
- 采用某个聚类算法对CF-树的叶子节点进行聚类,把稀疏的簇当做离群点删除,而把稠密的簇合并为更大的簇。
3.密度聚类的方法
思想:只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。
可发现任意形状的聚类;且对噪声数据不敏感,可以过滤噪声。
但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量,且对数据维数的伸缩性较差。
DBSCAN算法
将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的空间数据库中发现任意形状的聚类。
-
DBSCAN通过检查数据集中每个对象的ε-邻域来寻找聚类。如果一个点p的ε-邻域包含多于MinPts个对象,则创建一个p作为核心对象的新簇。
-
然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时,该过程结束。
OPTICS算法
为聚类分析生成一个的簇排序,这个排序代表了各样本点基于密度的聚类结构。
输出一个有序排列,以及每个元素的两个属性值:核心距离,可达距离。
DENCLUE算法
DENCLUE是一种基于一组密度分布函数的聚类算法。
-
一个样本的影响可以用一个数学函数形式化建模,该函数称为影响函数(influence function),描述数据点对其邻域的影响。
-
数据空间的整体密度可以用所有数据点的影响函数的和来建模。
-
簇可以通过识别密度吸引点数学确定,其密度吸引点是全局密度函数的局部最大值。
优点:
- 严格的数学基础
- 对有巨大噪声的数据集有良好的聚类特性
- 允许对高维数据集中的任意形状的聚类给出简洁的数学描述
- 比现存的算法快的多(如DBSCAN)
缺点:
需要大量的参数,且参数对结果的影响巨大。
WaveCluster:小波变换聚类
把小波变换应用到特征空间的一种多分辨率的聚类算法
- 通过把一个多维的网格结构加于数据空间上来汇总数据
- 这些多维的空间数据对象用一个n维的特征空间来表示
- 把小波变换应用到特征空间从而找出特征空间的密度区域
- 多次应用小波变换将导致从良好到粗糙不同层次的聚类
主要特征:
- 复杂度O(N)
- 发现不同比例的任意形状的簇
- 对噪声和输入次序不敏感
- 只能应用到低维度的数据
chap4
一. 共生矩阵
从灰度为 $i
熵值:图像包含信息量的随机性度量。
能量:能量变换反映了图像灰度分布均匀程度和纹理粗细度。
二. 局部二值模式(LBP)
主要思想:根据中心像素的灰度值对邻居像素的亮度进行局部阈值化来形成一个二值模式。
旋转不变性:对圆链码进行归一化,使得得到的LBP值最小。不断旋转圆形邻域得到一系列初始定义的LBP值,取最小值作为该邻域的值。
三. 梯度方向直方图(HOG)
1.梯度像素的定义
图像梯度是指图像某像素在x和y两个方向上的变化率(与相邻像素比较),是一个二维向量,由2个分量组成X轴的变化、Y轴的变化 。
2.(梯度)方向直方图的构建方法
- 确定窗口,胞体、块大小/形状和重叠大小
- 全局光度归一化
- 计算方向梯度
- 构建方向直方图
- 对比度归一化
- 形成最终的HOG描述子
- (线性)分类与物体检测
四. Harris角点检测
1.原理
在图像上方移动一个小窗用于计算灰度变化。
-
各个方向上零或小灰度变化的区域,
检测器窗位于一个恒定(或几乎恒定)区域中
-
在某个方向上变化但在其正交方向上不变化的区域,
检测器窗口横跨两个区域之间的边界
-
所有方向发生重大变化的区域
这发检测器窗口包含一个角(或孤立,点)
2.角响应测度公式
角点响应函数R
常数k是根据经验确定的,其值域依赖于具体的实现。我们可以将k视为一个“敏感因子”:k越小,检测器就越有可能找到角。
五. 尺度不变特征变换(SIFT)
1.图像高斯核卷积、高斯差分核卷积的物理意义
图像高斯核卷积:用于图像平滑处理。高斯核实际上是一个模糊函数,通过卷积操作,它能够使每个像素的值受到周围像素值的加权影响,而且离中心越远的像素影响越小。
高斯差分核卷积:用于图像的边缘检测。可以帮助找到图像中的边缘或者纹理的变化,是一种常用的边缘检测手段。
2.如何实现对图像尺度和旋转具有不变性
尺度不变形:高度金字塔、DoG(高斯差分)图像
旋转不变性:关键点方向匹配、特征描述。
chap5
一. 光流
光流的定义:是空间运动物体在观察成像平面上的像素运动的瞬时速度。产生于物体与观察者之间的相对运动,可用于表达图像序列中物体在时间域的变化等运动信息。
二. Dense Trajectories (DT)
1.DT(Dense Trajectories)方法步骤
-
在多个空间尺度上密集采样特征点;
-
利用光流场获取视频序列中的轨迹;
-
再沿着轨迹提取下列四种特征—>轨迹形状特征(Trajectory Shape Descriptor)和HOF, HOG,MBH特征;
-
然后利用BoF(Bag of Features)方法对特征进行编码;
-
最后基于编码结果训练SVM分类器。
2.轨迹的形成方法(点跟踪)(可不考虑median filter),以及如何降低发生漂移的概率
- 根据关键点的光流W,估计下一帧的特征点所在位置
- 重复上述方式,形成轨迹
- 每隔L(15)帧需要重新进行密集特征点采样,降低漂移现象
3.MBH相对于HOF的优点
- HOG:计算灰度图像的梯度直方图,通过计算和统计视频帧局部区域梯度方向的直方图以描述视频的静态信息
- HOF:计算光流的直方图,通过计算和统计光流方向的直方图以描述视频的运动信息
- MBH特征:可以理解为在光流图像上计算的HOG特征
MBH的优点
- 包含方向和梯度信息
- 对运动信息敏感
- 更具判别性
- 适用于精细动作分析
三. Improved Dense Trajectory(IDT)
对DT进行改进的方面
在无关运动估计方面,
- DT特征通过估计相机运动以消除背景光流。
在特征编码方面,
- IDT特征采用费雪向量(fisher vector,FV)模型代替DT特征中的BoF模型
chap6
一. 网络舆情的特点
直接性:没有中间环节,很直接,随意性很强。
突发性:无法预测,突然发生。
偏差性:所表达的观点,与实际不符合。
二. 网络谣言和水军的分析
1.网络谣言
谣言的强度=事件的重要性×事件信息的模糊性÷公众批判能力。
- 从发布主体层面进行分析
- 从信息内容层面进行分析
2.网络水军
- 文本内容特征
- 账号信息特征
- 用户关系特征
三. 话题检测和话题跟踪主要方法
1.单遍聚类算法
- 算法利用向量空间模型表示报道,以报道中的词或短语作为特征项,特征的权重采用TF-IDF或其变体进行计算。
- 算法最后形成一个数据的扁平聚类,簇的个数取决于合并-分裂阈值的大小。
- 原理简单、计算复杂度低、支持在线运算
2.改进
在阈值模型中增加时间惩罚因子
四. 社交媒体中的突发事件检测方法
1.突发特征检测
- 假设检验的突发特征检测方法:假设在一个给定的窗口内,特征词的生成概率服从正态分布;特征词
的频率大于阈值的概率小于5%,在该区域其处于突发状态。 - 引入能量值:考虑了频率和发帖者的权威度,根据过去几个时间窗口内的特征的权重值计算当前窗口内的能量值,增长速度越大能量值越大。根据能量值来判断是否为突发特征词:有监督方法:设定阀值;无监督方法:根据排列序列寻找相邻差距最大者。
- Kleinberg的方法用一个隐马尔科夫模型来表示特征词的生成过程,可以由Viterbi算法求得。
2.事件检测
根据突发特征词之间的关系构建关联图。
chap7
一. 社交网络的节点排序
1.基于结点近邻的排序方法
度中心性:只考察结点的直接邻居数目
K-壳分解:根据结点在网络中的位置来定义其重要性,认为越是在核心的结点越重要。
2.基于路径的排序方法
接近中心性:接近中心性通过计算结点与网络中其他所有结点的距离的平均值来消除特殊值的干扰。
Katz中心性:不仅考虑结点对之间的最短路径,还考虑它们之间的其他非最短的连通路径。
介数中心性:通常提到的介数中心性一般指最短路径介数中心性(shortest path BC),它认为网络中所有结点对的最短路径中,经过一个结点的最短路径数越多,这个结点就越重要。
3.基于特征向量的排序方法
特征向量中心性:特征向量中心性认为一个结点的重要性既取决于其邻居结点的数量(该结点的度),也取决于每个邻居结点的重要性。
PageRank算法:网络中一个页面的重要性取决于指向它的其他页面的数量和质量。
二. 社交网络链路预测
链路预测根据某一时刻可用的结点及结构信息,来预测结点和结点之间出现链路的概率。
-
预测新链路将在未来出现的可能性。
-
预测当前网络结构中存在的缺失链路的可能性。
1.基于结点属性的相似性指标
两个结点之间的相似性越大,两个结点之间存在链路的可能性越大。
2.基于局部信息的相似性指标
共同邻居指标:共同邻居定义两个结点产生链路的可能性正比于它们之间的共同邻居的数量。
AA指标:根据共同邻居结点的度为每个结点赋予一个权重值,该权重等于该结点的度的对数分之一。
RA指标:资源分配指标(resource allocation,RA)是受复杂网络资源动态分配思想的启发而提出的。此方法假设每个结点都有一个资源单元,它将这些资源平均分配给它的邻居。
3.基于路径的相似性指标
路径指标LP:基于共同邻居的相似性指标的优势在于计算复杂度较低,但是由于使用的信息非常有限,预测准确性受到限制。
三. 社交网络扩散模型
独立级联模型:关注于发送者而不是接受者。
线性阈值模型:每个节点都有一个信息传导的阈值,当一个节点从它周围的邻居接收到的影响大于了它的阈值时,它就会传播这条信息。
影响力最大化:在网络中找到一个种子集合S,使得S影响的节点数最大。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报