摘要:
1、概念 主成分分析(PCA) 特征抽取通常用于提高计算效率,降低维度灾难。 主成分分析(PCA)是一种用于探索高维数据结构的技术。PCA可以把具有相关性的高维变量合成线性无关的低维变量。新的低维数据集尽可能保留原始数据的变量。 当数据集不同维度上的方差分布不均匀的时候,PCA最有用。(如果是一个球 阅读全文
摘要:
1、概念 n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n 的字节片段序列。 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间, 阅读全文