机器学习之词语识别——记录

内部学习了下word2vec和fasttext,感觉还是挺有意思的,稍微记一点东西吧。

两个东西一脉相承,出自同一人手;

所以很多东西都是相似的,比如

  • 思路:用周围元素估计中心元素
  • 每次都要修改的策略;
  • 完全随机的初始

可能是因为没有应用到,暂时没有感觉太多,先记录些资料吧,后面会用到

word2vec 
http://blog.csdn.net/itplus/article/details/37969519
这个系列可能是关于word2vec 最好的一个教程了
最著名的word2vec 论文:https://arxiv.org/pdf/1310.4546.pdf

fasttext 宏哥上次发那篇教程就很不错
https://heleifz.github.io/14732610572844.html

fasttext 与 word2vec 原理基本上完全一样,一点点区别就是把要预测的词改成了预测标签,并增加了n-gram 向量
论文参考: https://arxiv.org/pdf/1607.01759v2.pdf
官方git: https://github.com/facebookresearch/fastText

posted @ 2017-12-28 19:28  韧还  阅读(691)  评论(0编辑  收藏  举报