NLP对一篇文章进行处理的流程

包括特征抽取、特征选择、文本分类、文本聚类、模型评价

具体步骤如下:

1.读文件

2.分词

  自定义字典

  自定义停止词

  分词

  检测哪些词分的不准确、哪些词没有意义(循环以上三个步骤)

3.构建文档-词条矩阵并转换为数据框

  构建数据框时,也要进行一系列的数据处理(数据清洗、整合、转换,数据规约),如果维度过高的话,进行相应的约简

  如果数据过大的话:对数据集进行相应的容量削减

4.对数据框建立统计、挖掘模型

5.结果反馈

posted on 2018-04-02 09:47  小兔子的乌龟  阅读(224)  评论(0编辑  收藏  举报