LDA模型应用实践-希拉里邮件主题分类
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 | #coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, similarities import gensim from nltk.corpus import stopwords df = pd.read_csv( "./input/HillaryEmails.csv" ) # 原邮件数据中有很多Nan的值,直接扔了。 df = df[[ 'Id' , 'ExtractedBodyText' ]].dropna() def clean_email_text(text): text = text.replace( '\n' , " " ) #新行,我们是不需要的 text = re.sub(r "-" , " " , text) #把 "-" 的两个单词,分开。(比如:july-edu ==> july edu) text = re.sub(r "\d+/\d+/\d+" , "", text) #日期,对主体模型没什么意义 text = re.sub(r "[0-2]?[0-9]:[0-6][0-9]" , "", text) #时间,没意义 text = re.sub(r "[\w]+@[\.\w]+" , "", text) #邮件地址,没意义 text = re.sub(r "/[a-zA-Z]*[:\//\]*[A-Za-z0-9\-_]+\.+[A-Za-z0-9\.\/%&=\?\-_]+/i" , "", text) #网址,没意义 pure_text = '' # 以防还有其他特殊字符(数字)等等,我们直接把他们loop一遍,过滤掉 for letter in text: # 只留下字母和空格 if letter.isalpha() or letter = = ' ' : pure_text + = letter # 再把那些去除特殊字符后落单的单词,直接排除。 # 我们就只剩下有意义的单词了。 text = ' ' .join(word for word in pure_text.split() if len (word)> 1 ) return text docs = df[ 'ExtractedBodyText' ] docs = docs. apply ( lambda s: clean_email_text(s)) doclist = docs.values stopwords = set (stopwords.words( 'english' )) texts = [[word for word in doc.lower().split() if word not in stopwords] for doc in doclist] dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] lda = gensim.models.ldamodel.LdaModel(corpus = corpus, id2word = dictionary, num_topics = 20 ) print lda.print_topics(num_topics = 20 , num_words = 5 ) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)