摘要:
区别   特征提取:通过对原始特征进行不同形式的函数映射,从而转换出一组具有代表性意义的特征(对原始的特征集合进行变化),来达到降维的目的。常见的算法有:PCA、SVD、LDA   特征选择:在原始特征中选出一组最具统计意义的特征(没有对原始的特征集合进行变化),来达到降维的目的。常 阅读全文
摘要:
$n-gram$模型   语言模型(language model)定义了自然语言中标记序列的概率分布。根据模型的设计,标记可以是词、字符甚至是字节。标记总是离散的实体。最早成功的语言模型基于固定长度序列的标记模型,称为$n-gram$。一个$n-gram$是一个包含$n$个标记的序列。 $n 阅读全文