提取文本特征的方法:
VSM,VSM经过SVD改进之后的LSI,LDA
计算文本相似度的方法:
余弦相似度法
最长公共子段
最长公共子序列
进行分类的方法:
决策树
随机森林,梯度增强树
weka自带的那些方法
进行聚类的方法:
计算关联度的方法: