2019 年 12月 27 日随笔档案 - Yanqiang

2019年12月27日

【计算语言学实验】基于 Skip-Gram with Negative Sampling (SGNS) 的汉语词向量学习和评估

摘要：一、概述训练语料来源：维基媒体 https://dumps.wikimedia.org/backup index.html 汉语数据用word2vec训练词向量，并用所学得的词向量，计算 pku_sim_test.txt 文件中每行两个词间的余弦距离作为两词相似度，并输出到文件中。二、数据准备阅读全文

posted @ 2019-12-27 22:21 Yanqiang 阅读(1903) 评论(0) 推荐(0) 编辑

【数据挖掘实验】利用朴素贝叶斯方法对百万搜狐新闻文本数据进行分类

摘要：一、概述本实验做的是一个很常见的数据挖掘任务：新闻文本分类。语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据，下载地址：https://www.sogou.com/labs/resource/cs.php 实验工作主要包括以下几步： 1）语料库的数据预处理； 2）文本建模； 3）训练阅读全文

posted @ 2019-12-27 17:25 Yanqiang 阅读(1202) 评论(0) 推荐(0) 编辑

Morfeo

github.com/YanqiangWang

公告