随笔分类 - 文本数据挖掘
NLP 传统NLP以及深度学习下的NLP
摘要:http://jalammar.github.io/illustrated-transformer/
阅读全文
摘要:one-hot中只有一个非零向量,相对集中。而对于分布式表示,向量中有大量的非零向量,相对分散,把词的信息分布到各个向量中去了。这一点跟并行计算里的分布式并行相像。 Global Generation of Distributed Representation 在cs224n中Richard Soc
阅读全文
摘要:1.词性 2.马尔科夫模型与维特比 3.蒙特卡罗 4.构建目标函数 词性标准 In corpus linguistics, part-of-speech tagging (POS tagging or also called grammatical tagging or word-category
阅读全文
摘要:词向量: 回顾基于检索的问答系统 倒排表解决:坑爹的翻译。。。应该翻译成“反向索引” 常规的索引是文档到关键词的映射: 文档——>关键词但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。于是人们发明了倒排索引~倒排索引是关键词到文档的映射 关键词——>文档 语言模型介绍 解决上面的问题就
阅读全文
摘要:文本处理的流程 缺点: 1.贪心算法可能只是局部最优 2.时间复杂度高 3.效率(max_len) 4.语义分歧 还有对第一次出现单词的处理以及平滑处理。以后再讲。 维特比算法登场: 维特比算法定义: 维特比算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是
阅读全文
摘要:上节课讲了一些算法的复杂度,都比较简单,我就没有单独截图。1 n n^2 nlogn logn。。。等等 其实一些排序问题也比较简单。还是给大家列举一下. 归并排序: 主定理定理。。吐血 算法复杂度相关的知识:函数渐进阶,记号 O、Ω、θ和 o;Master 定理。 先插一句,在算法复杂度分析中,l
阅读全文
摘要:感谢基友jayjay指路,其实我的方向一直比较迷茫。 因为自己是会计学出身的,前三年也没接触编程,第一次接触还是在2016年,尝试用聚宽的量化接口,当时顺便学了python 的一点知识。 后来毕业一开始一些数据分析,写一写数据分析偏财务的分析报告。 后来在亦师亦友的老常的带路下,从搭建hadoop集
阅读全文

浙公网安备 33010602011771号