毕设之路01

这是距离上一次关于毕设博客很久之后的第二篇博客。

这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别:

 

那么就开始了训练:

找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练的数据集很丰富了吧算是):

 

 

训练的思路我觉得还有一些问题,这里先不多说。然后就是训练出来了第一张图示的结果集。目前还没进行回归测试,所以不知道准确率怎么样,之后就是数据分类,每一条新闻都要过一遍,这里参看了博客https://blog.csdn.net/qq_28626909/article/details/80382029进行文本分类(贝叶斯分类),效果还可以。

目前打算把分类页面做出来,之后就开始定时抓取数据定时分类显示,关联各网站追踪话题热度变化。这是近期的一个小目标。希望自己别再拖拉了。

成果图:

 

posted @ 2019-10-06 22:09  小程大序的猿  阅读(126)  评论(0编辑  收藏  举报