随笔- 59
文章- 0
评论- 17
阅读-
18万
随笔分类 - Machine Learning
自然语言处理(八) 条件随机场(仅基础)
摘要:条件随机场 条件随机场 (conditional random field, CRF) 是给定一组随机变量构成马尔可夫随机场(稍后介绍)。一般在NLP中,特
阅读全文
蒙特卡洛树搜索(MonteCarlo Tree Search)MCTS 简述
摘要:蒙特卡洛树搜索(MonteCarlo Tree Search)MCTS AlphaGo, AlphaZero 的成功,让原本小众的MCTS火了一把。 MCTS算法的产生是以决策论、博弈论、蒙特卡洛方法以及老.虎.机算法为基础的。 在决策论中,主要涉及马尔可夫决策过程Markov Decision P
阅读全文
近似最近邻搜索 (三) 局部敏感哈希 LSH
摘要:LSH 目录LSH locality sensitive hashing(LSH) 是哈希算法中,比较重要的方法。LSH方法是将相似的数据以较高的概率哈希到同一个桶里面,从而达到近似邻检索的目的,另外,待测数据维度非常大时,lsh也可用于降维。 LSH族[1] LSH族 \(\mathcal H =
阅读全文
近似最近邻搜索 (二) 树方法
摘要:树方法 kd-tree kd-tree (k dimensional tree )是树方法的经典算法,其是二分搜索树在多维空间的推广。二分搜索树检索迅速的原因是规定将数据中大于当前节点数据的方在一侧(比如右子树),而不小于的放在另一侧(比如左子树),这样检索数据时,即可获得logn的速度。kd-tr
阅读全文
近似最近邻搜索 (四) HNSW: Hierarchical Navigable Small World graphs
摘要:HNSW: Hierarchical Navigable Small World graphs 近邻图技术, 目前绝大部分的近邻图检索技术采用贪婪检索形式。给定一个近邻图,从其中某一点(进入点的选择可以是随机也可以是根据某种逻辑)进入,然后迭代地计算当前点与query的距离,直到满足终止条件。使用近
阅读全文
近似最近邻搜索 (一) Approximate Nearest Neighbor Search(ANNS)
摘要:Approximate Nearest Neighbor Search(ANNS) 目录Approximate Nearest Neighbor Search(ANNS)树方法kd-tree 在一个给定的空间(或集合)中找到距离兴趣(或目标)对象最近的邻居,这个问题在多种领域都是非常基本而重要的,
阅读全文
自然语言处理(二) 新词发现或非监督词典构建
摘要:新词发现,未登录词识别,无监督词典构建 对自然语言进行处理时,经常需要维持一个词典,词典一般不会从头构建,网上有很多词典可供使用。然而有时,特别在特定领域词典就不易获得了。需要人为构建,人工成本太大,如何自动构建呢? 还有就是网上经常会出现很多新词,领域内也会因为如新产品、新技术、新应用的出现而出现
阅读全文
噪声对比估计 Noise-contrastive estimation
摘要:Noise-contrastive estimation 噪声对比估计 目录 Noise-contrastive estimation 噪声对比估计 这份简短的NCE博文是对自然语言处(四) 词向量编码 word2vec 的一个小补充或额外资料吧. 在统计中, 估计非标准化的模型参数是非常困难的,或
阅读全文
自然语言处理(三) 预训练模型:XLNet 和他的先辈们
摘要:预训练模型 在CV中,预训练模型如ImagNet取得很大的成功,而在NLP中之前一直没有一个可以承担此角色的模型,目前,预训练模型如雨后春笋,是当今NLP领域最热的研究领域之一。 预训练模型属于迁移学习,即在某一任务上训练的模型,经过微调(finetune)可以应用到其它任务上。 在NLP领域,最早
阅读全文
机器学习九 机器学习中常用的采样方法
摘要:采样方法 [TOC] 实际应用中,经常需要获得服从某一分布的样本集。不过,手动生成一般来说不太现实,需要求助于计算机,而计算机则只能实现对均匀分布进行抽样。其他的分布,甚至如高斯分布都是无法实现的。不过,通过均匀分布,可间接地生成服从其他分布的样本。这点很重要,下面会看到,所有的随机模拟都从均匀分布
阅读全文
自然语言处理(一) 关系抽取
摘要:Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作,特别在当今信息爆炸的背景下,显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格式,这是信息抽取的存在意义。信息抽取又可分为实体抽取或称命名实体识别,关系抽取以及事件抽取等。命名实体
阅读全文
皮质学习 HTM 知多少
摘要:Hierarchical Temporal Memeory 0.1 —— Pegasus 2017 06 22 [TOC] 引言 Hierarchical Temporal Memeory(HTM,层级时间记忆,皮质学习) 是一种全新的机器学习算法,模拟新大脑皮质(neocortex)进行信息处
阅读全文
机器学习八 遗传算法
摘要:遗传算法 The survival of the fittest 达尔文生物进行论 孟德尔遗传定律 1962年,美国Michigan大学的Holland教授提出的模拟生物进化及遗传机制而成的一种并行随机搜索最优化算法. 1975年,Holland出版了第一本系统论述遗传算法和人工自适应系统的专著《A
阅读全文
机器学习六 Xgboost: 一把屠龙刀的自我修养
摘要:[TOC] 引言 集成学习, 在机器学习中是一个非常重要的思想: 把多个弱分类器精巧地组合在一起,成为一个很强大的学习器. 集成学习也因此一直处在风口浪边. 集成学习主要分为bagging 及boosting, 二者分别(主要)解决偏倚 方差分解中的方差与偏倚. 目前, 一般会认为boosting的
阅读全文
机器学习五 EM 算法
摘要:目录引言经典示例EM算法GMM 推导参考文献: 引言 Expectation maximization (EM) 算法是一种非常神奇而强大的算法. EM算法于 1977年 由Dempster 等总结提出. 说EM算法神奇而强大是因为它可以解决含有隐变量的概率模型问题. EM算法是一个简单而又复杂的算
阅读全文
机器学习四 SVM
摘要:[TOC] 引言 在深度神经网终(Deep Neural Network, DNN) 大热之前, 在机器学习里有个明星算法就是今天要与大家分享的 支持向量机(Support Vector Machine, SVM ). 它是昔日的明星, 虽然现在没有DNN风光, 但它依然是机器学习领域内耀眼的存在,
阅读全文
机器学习三 集成学习二: Boosting
摘要:集成学习二: Boosting 目录集成学习二: Boosting引言AdaboostAdaboost 算法前向分步算法前向分步算法Boosting Tree回归树提升回归树Gradient Boosting参考文献: 引言 集成学习,的第二种方式称为Boosting. 不同于bagging的民主投
阅读全文
机器学习二 集成学习一: Bagging
摘要:''团结就是力量'' 对问题进行建模时, 算法无论如何优化都无法达到我们的要求,又或者精准算法的实现或调优成本太大, 这时,我们就会想,能不能把几个算法或模型结合起来,以'集体'的力量来解决问题? 这就是集成学习产生的原因. 偏倚与方差 在俱体讲解集成学习之前,先介绍一个概念偏倚-方差. 衡量模型的
阅读全文
机器学习一 牛顿法与拟牛顿法
摘要:牛顿法与拟牛顿法 优化问题是机器学习中非常重要的部分,无论应用何种算法,构建何种模型,最终我们的目的都是找到最优解的. 那优化算法是无法回避的. 当今机器学习,特别是深度学习中, 梯度下降算法(gradient descent algorithm) 可谓炙手可热. 不过优化算法不只其一种,其他算法也
阅读全文
自然语言处理(七): 高冷贵族: 隐马尔可夫模型
摘要:高冷贵族: 隐马尔可夫模型 引言 大家都用过Siri,Cortana之类的语音助手吧? 当你对着手机说出'我的女朋友温柔吗?',Siri 或Cortana就会根据你说的这句话翻译成一段文字,然后再作应答. 先不管应答部分, 你可曾想过: Siri是如何将你说的话翻译成一段文字的?嗯,猜对了, 这里就
阅读全文