2018年11月27日

LDA主题模型

摘要: #!/usr/bin/env python # -*- coding:utf-8 -*- import numpy as np import pandas as pd import re df = pd.read_csv("HillaryEmails.csv") df = df[['Id','ExtractedBodyText']].dropna()#保留这两个信息,其他的扔掉 #文本预处理 d... 阅读全文

posted @ 2018-11-27 19:33 李凤五 阅读(216) 评论(0) 推荐(0) 编辑

西游记关键字提取和语句分词

摘要: #!/usr/bin/env python # -*- coding:utf-8 -*- """ str1 = 'as,gh,rt,ujrk' str2 = ',' str1 = str1[str1.find(str2)+1:] print(str1) s='as,gh,rt,ujrk' print(s.split(',')) import re pattern = re.compile(r'h... 阅读全文

posted @ 2018-11-27 19:31 李凤五 阅读(331) 评论(0) 推荐(0) 编辑

导航