10 2019 档案

摘要:第八周打算对正规新闻进行提取时间、地点、人物、话题、动作,之后进行关联图可视化展示。 话题的提取打算采用精确提取关键字接近话题的方法,主要参考神策杯2018的赛题流程进行提取。 其他内容的提取继续进行优化,争取精准一点。 关联图初步打算采用较为简单的关联图。 如果时间合适,打算继续接着整体流程:并行 阅读全文
posted @ 2019-10-26 23:05 小程大序的猿 阅读(112) 评论(0) 推荐(0)
摘要:一开始按照网上的方法在配置文件加入自定义的词典不行,不知道是什么问题,这里给出链接,有兴趣的自己尝试:https://my.oschina.net/u/3793864/blog/3073171 说一下我的方法:在hanlp.java中添加路径即可,数组里直接加入 可以看到我是谁三个字被当成名词输出 阅读全文
posted @ 2019-10-22 23:23 小程大序的猿 阅读(1488) 评论(0) 推荐(0)
摘要:这是距离上一次关于毕设博客很久之后的第二篇博客。 这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别: 那么就开始了训练: 找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练 阅读全文
posted @ 2019-10-06 22:09 小程大序的猿 阅读(135) 评论(0) 推荐(0)