会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
B0G3
人生若不装逼,那和咸鱼有何区别!
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2021年6月3日
NLP 文本处理 工具
摘要: 目录 1.中文语料常常遇到编码问题,将任意字符集文件转为utf-8编码 2.将unlabel文件夹中的所有.txt文件合并,每个文件之间空一行 3.随机抽取.txt文件中的60%,20%,5% 4.将已经分好词的文件去掉空格(正则),恢复成文件原来的样子 5.读取excel文件转换成.json文件
阅读全文
posted @ 2021-06-03 17:10 B0G3
阅读(142)
评论(0)
推荐(0)
编辑
GloVe 教程之实战入门+python gensim 词向量
摘要: 前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论? 果断需要试试。 GloVe 它来自斯坦福的一篇论文,GloVe全称应该是 Global Vectors for Word Representation 官网在此 http://nlp.stan
阅读全文
posted @ 2021-06-03 16:47 B0G3
阅读(1288)
评论(0)
推荐(0)
编辑
【word2vec】之 训练模型结果的结构探究 模型改造 python gensim
摘要: word2vec的安装,应用帖子好多,那如果想在训练的结果,也就是得到的向量上做点儿文章,该如何呢 下面来说说word2vec(python的gensim包)训练得到的模型,以及得到的向量是什么样子的 因为python训练得到的结果是二进制的,说白了就是乱码,现在既然想得到整个结果,该怎么弄呢。 其
阅读全文
posted @ 2021-06-03 16:46 B0G3
阅读(246)
评论(0)
推荐(0)
编辑
嵌入(embedding)层的理解
摘要: 嵌入(embedding)层的理解 首先,我们有一个one-hot编码的概念。 假设,我们中文,一共只有10个字。。。只是假设啊,那么我们用0-9就可以表示完 比如,这十个字就是“我从哪里来,要到何处去” 其分别对应“0-9”,如下: 我 从 哪 里 来 要 到 何 处 去 0 1 2 3 4 5
阅读全文
posted @ 2021-06-03 13:27 B0G3
阅读(397)
评论(0)
推荐(0)
编辑
公告