随笔分类 -  文本数据挖掘

NLP 传统NLP以及深度学习下的NLP
摘要:http://jalammar.github.io/illustrated-transformer/ 阅读全文
posted @ 2020-04-24 00:41 wqbin 阅读(157) 评论(0) 推荐(0)
摘要:11 阅读全文
posted @ 2020-04-20 14:58 wqbin 阅读(226) 评论(0) 推荐(0)
摘要:深度学习领域的NLP 阅读全文
posted @ 2020-04-19 13:06 wqbin 阅读(133) 评论(0) 推荐(0)
摘要:one-hot中只有一个非零向量,相对集中。而对于分布式表示,向量中有大量的非零向量,相对分散,把词的信息分布到各个向量中去了。这一点跟并行计算里的分布式并行相像。 Global Generation of Distributed Representation 在cs224n中Richard Soc 阅读全文
posted @ 2020-04-17 12:07 wqbin 阅读(196) 评论(0) 推荐(0)
摘要:1.词性 2.马尔科夫模型与维特比 3.蒙特卡罗 4.构建目标函数 词性标准 In corpus linguistics, part-of-speech tagging (POS tagging or also called grammatical tagging or word-category 阅读全文
posted @ 2020-03-18 20:35 wqbin 阅读(259) 评论(0) 推荐(0)
摘要:词向量: 回顾基于检索的问答系统 倒排表解决:坑爹的翻译。。。应该翻译成“反向索引” 常规的索引是文档到关键词的映射: 文档——>关键词但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。于是人们发明了倒排索引~倒排索引是关键词到文档的映射 关键词——>文档 语言模型介绍 解决上面的问题就 阅读全文
posted @ 2019-10-12 22:02 wqbin 阅读(149) 评论(0) 推荐(0)
摘要:文本处理的流程 缺点: 1.贪心算法可能只是局部最优 2.时间复杂度高 3.效率(max_len) 4.语义分歧 还有对第一次出现单词的处理以及平滑处理。以后再讲。 维特比算法登场: 维特比算法定义: 维特比算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是 阅读全文
posted @ 2019-10-11 20:24 wqbin 阅读(238) 评论(0) 推荐(0)
摘要:上节课讲了一些算法的复杂度,都比较简单,我就没有单独截图。1 n n^2 nlogn logn。。。等等 其实一些排序问题也比较简单。还是给大家列举一下. 归并排序: 主定理定理。。吐血 算法复杂度相关的知识:函数渐进阶,记号 O、Ω、θ和 o;Master 定理。 先插一句,在算法复杂度分析中,l 阅读全文
posted @ 2019-10-09 21:04 wqbin 阅读(241) 评论(0) 推荐(0)
摘要:一般涉及生成文本都是比较难的。 阅读全文
posted @ 2019-10-09 00:23 wqbin 阅读(174) 评论(0) 推荐(0)
摘要:感谢基友jayjay指路,其实我的方向一直比较迷茫。 因为自己是会计学出身的,前三年也没接触编程,第一次接触还是在2016年,尝试用聚宽的量化接口,当时顺便学了python 的一点知识。 后来毕业一开始一些数据分析,写一写数据分析偏财务的分析报告。 后来在亦师亦友的老常的带路下,从搭建hadoop集 阅读全文
posted @ 2019-10-09 00:01 wqbin 阅读(248) 评论(0) 推荐(0)