NLP对一篇文章进行处理的流程
包括特征抽取、特征选择、文本分类、文本聚类、模型评价
具体步骤如下:
1.读文件
2.分词
自定义字典
自定义停止词
分词
检测哪些词分的不准确、哪些词没有意义(循环以上三个步骤)
3.构建文档-词条矩阵并转换为数据框
构建数据框时,也要进行一系列的数据处理(数据清洗、整合、转换,数据规约),如果维度过高的话,进行相应的约简
如果数据过大的话:对数据集进行相应的容量削减
4.对数据框建立统计、挖掘模型
5.结果反馈
包括特征抽取、特征选择、文本分类、文本聚类、模型评价
具体步骤如下:
1.读文件
2.分词
自定义字典
自定义停止词
分词
检测哪些词分的不准确、哪些词没有意义(循环以上三个步骤)
3.构建文档-词条矩阵并转换为数据框
构建数据框时,也要进行一系列的数据处理(数据清洗、整合、转换,数据规约),如果维度过高的话,进行相应的约简
如果数据过大的话:对数据集进行相应的容量削减
4.对数据框建立统计、挖掘模型
5.结果反馈