摘要: 1. 引言 上一篇介绍了 "如何用无监督方法来训练sentence embedding" ,本文将介绍如何利用监督学习训练句子编码器从而获取sentence embedding,包括利用释义数据库PPDB、自然语言推理数据SNLI、以及综合利用监督训练数据和无监督训练数据。 2. 基于释义数据库PP 阅读全文
posted @ 2019-01-31 18:33 llhthinker 阅读(7096) 评论(4) 推荐(0) 编辑
摘要: 1. 引言 word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展。既然词可以embedding,句子也应该可以(其实, "万物皆可embedding" ,Embedding is All You Need ^_^)。近年来(2014 2018 阅读全文
posted @ 2019-01-30 16:24 llhthinker 阅读(25035) 评论(0) 推荐(2) 编辑
摘要: 1. 概况 1.1 任务 口语理解(Spoken Language Understanding, SLU) 作为语音识别与自然语言处理之间的一个新兴领域,其目的是为了让计算机从用户的讲话中理解他们的意图。SLU是口语对话系统( "Spoken Dialog Systems" )的一个非常关键的环节。 阅读全文
posted @ 2018-05-01 23:26 llhthinker 阅读(10299) 评论(1) 推荐(5) 编辑
摘要: 近期阅读了一些深度学习在文本分类中的应用相关论文( " 论文笔记 " ),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法官,并取得了最终评测第四名的成绩(比赛的具体思路和代码参见 " github项目repo " )。因此,本文总结了文本分类相关的深 阅读全文
posted @ 2017-12-28 12:55 llhthinker 阅读(19668) 评论(13) 推荐(10) 编辑
摘要: 本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。转载请保留原文链接:http://www.cnblogs.com/llhthinker/p/7287029.html 1. 信息量 信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或 阅读全文
posted @ 2017-08-04 21:33 llhthinker 阅读(3126) 评论(1) 推荐(2) 编辑
摘要: 导读: 分类问题是机器学习应用中的常见问题,而二分类问题是其中的典型,例如垃圾邮件的识别。本文基于UCI机器学习数据库中的银行营销数据集,从对数据集进行探索,数据预处理和特征工程,到学习模型的评估与选择,较为完整的展示了解决分类问题的大致流程。文中包含了一些常见问题的处理方式,例如缺失值的处理、非数 阅读全文
posted @ 2017-07-01 11:54 llhthinker 阅读(22469) 评论(1) 推荐(2) 编辑
摘要: 导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知。我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们。本文首先对Apriori算法进行简介,而后进一步介绍相关的基本概念,之后详细的介绍Apriori算法的具体策略和步骤,最后给出 阅读全文
posted @ 2017-04-16 22:16 llhthinker 阅读(120910) 评论(10) 推荐(15) 编辑
摘要: 1. 最关键的命令 manecho 2. 目录文件操作命令 ls: 查看目录下的文件信息或文件信息dir:pwd: 打印当前路径cd:改变路径mkdir:创建路径rmdir:删除路径cp:拷贝文件或目录mv:移动文件或目录,或改名rm: 删除文件或目录tree:输出该目录下的文件目录树 3. 查看文 阅读全文
posted @ 2017-03-15 20:55 llhthinker 阅读(3229) 评论(0) 推荐(0) 编辑
摘要: 导读 本文首先简单介绍了自然语言处理和科研过程中重要的四部曲——调研、思考、编程和写作,然后对中文分词问题进行了说明,介绍了中文分词存在的难点如消歧、颗粒度问题、分词标准等。接着,本文总结了调研文献中的分词方法,包括基于词典的最大匹配法以及其相应的改进方法、基于字标注的分词方法等,同时也介绍了当前中 阅读全文
posted @ 2017-01-20 18:20 llhthinker 阅读(9890) 评论(3) 推荐(2) 编辑
摘要: 10. Dimensionality Reduction Content 10. Dimensionality Reduction 10.1 Motivation 10.1.1 Motivation one: Data Compression 10.2.2 Motivation two: Visua 阅读全文
posted @ 2016-05-24 00:42 llhthinker 阅读(8620) 评论(0) 推荐(1) 编辑
摘要: 9. Clustering Content 9. Clustering 9.1 Supervised Learning and Unsupervised Learning 9.2 K-means algorithm(代码地址:https://github.com/llhthinker/Machine 阅读全文
posted @ 2016-05-15 01:15 llhthinker 阅读(10474) 评论(0) 推荐(0) 编辑
摘要: 8. Support Vector Machines(SVMs) Content 8. Support Vector Machines(SVMs) 8.1 Optimization Objection 8.2 Large margin intuition 8.3 Mathematics Behind 阅读全文
posted @ 2016-04-20 23:59 llhthinker 阅读(4828) 评论(3) 推荐(1) 编辑
摘要: 7 Machine Learning System Design Content 7 Machine Learning System Design 7.1 Prioritizing What to Work On 7.2 Error Analysis 7.3 Error Metrics for Sk 阅读全文
posted @ 2016-04-18 00:06 llhthinker 阅读(2033) 评论(0) 推荐(1) 编辑
摘要: 6. 学习模型的评估与选择 Content 6. 学习模型的评估与选择 6.1 如何调试学习算法 6.2 评估假设函数(Evaluating a hypothesis) 6.3 模型选择与训练/验证/测试集(Model selection and training/validation/test s 阅读全文
posted @ 2016-04-17 00:24 llhthinker 阅读(12490) 评论(1) 推荐(7) 编辑
摘要: 5 Neural Networks (part two) content: 5 Neural Networks (part two) 5.1 cost function 5.2 Back Propagation 5.3 神经网络总结 接上一篇4. Neural Networks (part one) 阅读全文
posted @ 2016-04-07 00:03 llhthinker 阅读(6665) 评论(0) 推荐(2) 编辑
TOP