隐藏页面特效

中文分词并将结果存入数据库

核心步骤:

  • 创建数据库连接
def get_conn(): """ 获取连接和游标 :return: """ conn=pymysql.connect(host="127.0.0.1", user="root", password="000000", db="news", charset="utf8") cursor=conn.cursor() return conn,cursor def close_conn(conn, cursor): """ 关闭连接和游标 :param conn: :param cursor: :return: """ if cursor: cursor.close() if conn: conn.close()
  • 读取文件
fn = open('F:\\PyCharm\\newsProject\\file\\youxi.txt', 'rt', encoding='utf-8') # 打开文件 string_data = fn.read() # 读出整个文件 fn.close() # 关闭文件
  • 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式 string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除
  • 文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False) # 精确模式分词 object_list = []
  • 去除停用词(停用词文件:stopword.txt)
remove_words = set() fr = open('F:\\PyCharm\\newsProject\\stopword\\stopword.txt', encoding = 'UTF-8') for word in fr: remove_words.add(str(word).strip()) fr.close()
for word in seg_list_exact: # 循环读出每个分词
if word not in remove_words: # 如果不在去除词库中
object_list.append(word) # 分词追加到列表
  • 词频统计并导入数据库
word_counts = collections.Counter(object_list) # 对分词做词频统计 word_counts_top10 = word_counts.most_common(100) # 获取前10最高频的词 print(word_counts_top10) # 输出检查 conn,course= get_conn() for i in word_counts_top10: sql="insert into result_game (name,values_data) values(%s,%s)" course.execute(sql,i) conn.commit() close_conn(conn,course)

__EOF__

本文作者CherriesOvO
本文链接https://www.cnblogs.com/zyj3955/p/15606819.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   CherriesOvO  阅读(226)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示