文本数据挖掘 - 随笔分类 - wqbin

txNLP 335-374

摘要：http://jalammar.github.io/illustrated-transformer/ 阅读全文

posted @ 2020-04-24 00:41 wqbin 阅读(157) 评论(0) 推荐(0)

word2vec的应用----使用gensim

摘要：11 阅读全文

posted @ 2020-04-20 14:58 wqbin 阅读(226) 评论(0) 推荐(0)

txNLP 301-374

摘要：深度学习领域的NLP 阅读全文

posted @ 2020-04-19 13:06 wqbin 阅读(133) 评论(0) 推荐(0)

txNLP 262-282

摘要：one-hot中只有一个非零向量，相对集中。而对于分布式表示，向量中有大量的非零向量，相对分散，把词的信息分布到各个向量中去了。这一点跟并行计算里的分布式并行相像。 Global Generation of Distributed Representation 在cs224n中Richard Soc 阅读全文

posted @ 2020-04-17 12:07 wqbin 阅读(196) 评论(0) 推荐(0)

txNLP 50-150

摘要：1.词性 2.马尔科夫模型与维特比 3.蒙特卡罗 4.构建目标函数词性标准 In corpus linguistics, part-of-speech tagging (POS tagging or also called grammatical tagging or word-category 阅读全文

posted @ 2020-03-18 20:35 wqbin 阅读(259) 评论(0) 推荐(0)

TXNLP 33-50

摘要：词向量：回顾基于检索的问答系统倒排表解决：坑爹的翻译。。。应该翻译成“反向索引” 常规的索引是文档到关键词的映射：文档——>关键词但是这样检索关键词的时候很费力，要一个文档一个文档的遍历一遍。于是人们发明了倒排索引~倒排索引是关键词到文档的映射关键词——>文档语言模型介绍解决上面的问题就阅读全文

posted @ 2019-10-12 22:02 wqbin 阅读(149) 评论(0) 推荐(0)

TXNLP 20-33

摘要：文本处理的流程缺点： 1.贪心算法可能只是局部最优 2.时间复杂度高 3.效率（max_len） 4.语义分歧还有对第一次出现单词的处理以及平滑处理。以后再讲。维特比算法登场：维特比算法定义：维特比算法是一种动态规划算法，用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是阅读全文

posted @ 2019-10-11 20:24 wqbin 阅读(238) 评论(0) 推荐(0)

TXNLP 09-17

摘要：上节课讲了一些算法的复杂度，都比较简单，我就没有单独截图。1 n n^2 nlogn logn。。。等等其实一些排序问题也比较简单。还是给大家列举一下. 归并排序：主定理定理。。吐血算法复杂度相关的知识：函数渐进阶，记号 O、Ω、θ和 o；Master 定理。先插一句，在算法复杂度分析中，l 阅读全文

posted @ 2019-10-09 21:04 wqbin 阅读(241) 评论(0) 推荐(0)

TXNLP 01-09

摘要：一般涉及生成文本都是比较难的。阅读全文

posted @ 2019-10-09 00:23 wqbin 阅读(174) 评论(0) 推荐(0)

王某的NLP之路前言

摘要：感谢基友jayjay指路，其实我的方向一直比较迷茫。因为自己是会计学出身的，前三年也没接触编程，第一次接触还是在2016年，尝试用聚宽的量化接口，当时顺便学了python 的一点知识。后来毕业一开始一些数据分析，写一写数据分析偏财务的分析报告。后来在亦师亦友的老常的带路下，从搭建hadoop集阅读全文

posted @ 2019-10-09 00:01 wqbin 阅读(248) 评论(0) 推荐(0)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

随笔分类 - 文本数据挖掘

公告