随笔分类 - NLP
摘要:参考:https://blog.csdn.net/liujh845633242/article/details/102668515 这里我重点说一下1D卷积,2D卷积很好理解,但是1D卷积就不是那么好理解了,以textcnn为例,在对句子长度进行卷积之后,再将词向量的维度SUM成1维,总而言之,大家
阅读全文
摘要:word2vec:https://www.jianshu.com/p/471d9bfbd72f 基于Hierarchical Softmax: https://www.cnblogs.com/pinard/p/7243513.html 基于Negative Sampling:https://www.
阅读全文
摘要:安装 参考:https://www.cnblogs.com/zrmw/p/10869325.html 分词: 注意先分句再分词 ,这些对象均来自nltk.tokenize库 1. word_tokenize 导入nltk的tokenize库后,tokens = nltk.word_tokenize(
阅读全文
摘要:本菜鸡的科研之路已经开始两三个月了,期间遇到了很多问题,现在想在这里总结一下。 1. 在阅读深度学习论文的时候,首先需要看看代码是否开源,如果没有开源应该向作者索要源码,然后在本地运行这些代码。这样做是很有必要的,因为深度学习就是一个玄学,论文里故事编的再漂亮也不能work,因此你需要用代码来进行验
阅读全文
摘要:现在做舆情分析的相关项目,在数据处理的时候,发现了一个问题。将数据写入到csv文件,用excel打开(默认)就会出现乱码,如果将数据写入到.xlsx文件就不会出现乱码,因为csv是通用格式,所以我猜想是excel的问题,在网上baidu了一下,发现果然是这样。 https://jingyan.bai
阅读全文
摘要:2018年google推出了bert模型,这个模型的性能要远超于以前所使用的模型,总的来说就是很牛。但是训练bert模型是异常昂贵的,对于一般人来说并不需要自己单独训练bert,只需要加载预训练模型,就可以完成相应的任务。下面我将以情感分类为例,介绍使用bert的方法。这里与我们之前调用API写代码
阅读全文