NLP和Machine Learning学习记录

 

  毕业设计中需要利用NLP和ML技术来解决问题,这一个阶段对这些技术进行学习和应用。

  NLP 技术

  NLP学习主要参考书籍:用Python进行自然语言处理(中文) http://www.nltk.org/

  可以解决分词(stem和lamma)、分句、词性标注、以及wordnet同义词分析、句子结构分析、实体识别等  

  关于文法特征,还需要进一步阅读

  另外目前最新的NLP相关工具实现,可以参考http://nlp.stanford.edu/

  本文主要利用NLP技术来进行中英文分句、分词,以及在分词的基础上词性标注,并建立句法树,在句法树的上依据特征进行实体识别

   ML: Machine Learning

   主要采用SVM来进行异常检测,OC-SVM可以检测出同一个类别中的异常行为;以及SVM用来实现分类;实现采用scikit-learn机器学习包中svm库来解决  http://scikit-learn.org/stable/modules/svm.html

   主题建模

   利用LDA来对系列文本进行主题建模,实现相似文本聚类,以及关键词抽取,可以利用gensim主题建模包,https://radimrehurek.com/gensim/,支持中文

   mallet 机器学习工具,仅支持英文

   聚类算法

   k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html  

   scikit-learn 是python上不错的机器学习包,很方便使用

 

  其它:CRF:条件随机域,统计模型用来样本标签预测;https://pystruct.github.io/

   

posted @ 2015-05-06 10:31  purejade  阅读(505)  评论(0编辑  收藏  举报