20240118打卡——信息领域热词分析03

数据清洗与预处理
做了什么:去除 HTML 标签、去重、分词(使用 Jieba 或 THULAC)。
学到什么:掌握文本数据清洗方法,理解分词算法的原理。
遇到的问题:分词精度低,停用词去除影响关键词提取。

闲来无事,准备整理一下园子博客,最近打算研究一下卷积神经网络

本文作者:丰川扬子

本文链接:https://www.cnblogs.com/newzeon/p/18678427

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   丰川扬子  阅读(2)  评论(0编辑  收藏  举报
历史上的今天:
2024-01-18 20240118打卡
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.