NLP和Machine Learning学习记录
毕业设计中需要利用NLP和ML技术来解决问题,这一个阶段对这些技术进行学习和应用。
NLP 技术
NLP学习主要参考书籍:用Python进行自然语言处理(中文) http://www.nltk.org/
可以解决分词(stem和lamma)、分句、词性标注、以及wordnet同义词分析、句子结构分析、实体识别等
关于文法特征,还需要进一步阅读
另外目前最新的NLP相关工具实现,可以参考http://nlp.stanford.edu/
本文主要利用NLP技术来进行中英文分句、分词,以及在分词的基础上词性标注,并建立句法树,在句法树的上依据特征进行实体识别
ML: Machine Learning
主要采用SVM来进行异常检测,OC-SVM可以检测出同一个类别中的异常行为;以及SVM用来实现分类;实现采用scikit-learn机器学习包中svm库来解决 http://scikit-learn.org/stable/modules/svm.html
主题建模
利用LDA来对系列文本进行主题建模,实现相似文本聚类,以及关键词抽取,可以利用gensim主题建模包,https://radimrehurek.com/gensim/,支持中文
mallet 机器学习工具,仅支持英文
聚类算法
k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
scikit-learn 是python上不错的机器学习包,很方便使用
其它:CRF:条件随机域,统计模型用来样本标签预测;https://pystruct.github.io/