随笔分类 -  机器学习

摘要:很久没有写总结了,这篇博客仅作为最近的一些尝试内容,记录一些心得。FFM的优势是可以处理高维稀疏样本的特征组合,已经在无数的CTR预估比赛和工业界中广泛应用,此外,其也可以与Deep Networks结合(如DeepFM等工作),很好地应用在数据规模足够大的工业场景中。Recurrent Entit 阅读全文
posted @ 2019-05-10 17:01 蓝鲸王子 阅读(586) 评论(0) 推荐(0) 编辑
摘要:在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们很难具体知道转移概率P。伴随着这类问题的产生,Q-Learning通过迭代来更新Q表拟合实际的转移概 阅读全文
posted @ 2019-03-30 16:04 蓝鲸王子 阅读(1839) 评论(0) 推荐(0) 编辑
摘要:在上一篇文章中介绍了MDP与Bellman方程,MDP可以对强化学习的问题进行建模,Bellman提供了计算价值函数的迭代公式。但在实际问题中,我们往往无法准确获知MDP过程中的转移概率P,因此无法直接将解决 MDP 问题的经典思路 value iteration 和 policy iterat 阅读全文
posted @ 2019-03-29 15:00 蓝鲸王子 阅读(3170) 评论(0) 推荐(1) 编辑
摘要:本文主要介绍强化学习的一些基本概念:包括MDP、Bellman方程等, 并且讲述了如何从 MDP 过渡到 Reinforcement Learning。 1. 强化学习基本概念 这里还是放上David Silver的课程的图,可以很清楚的看到整个交互过程。这就是人与环境交互的一种模型化表示,在每个时 阅读全文
posted @ 2019-03-28 16:53 蓝鲸王子 阅读(3981) 评论(0) 推荐(2) 编辑
摘要:根据《统计学习方法》一书中的描述,条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。 条件随机场是一种判别式模型。 一、理解条件随机场 1.1 HMM简单介绍 HMM即 阅读全文
posted @ 2017-12-15 17:05 蓝鲸王子 阅读(6832) 评论(0) 推荐(2) 编辑
摘要:EM算法,全称Expectation Maximization Algorithm,译作最大期望化算法或期望最大算法,是机器学习十大算法之一,吴军博士在《数学之美》书中称其为“上帝视角”算法,其重要性可见一斑。 EM算法是一种迭代算法,用于含有隐变量(hidden variable)的概率参数模型的 阅读全文
posted @ 2017-12-15 14:38 蓝鲸王子 阅读(1095) 评论(0) 推荐(0) 编辑
摘要:维特比算法(Viterbi algorithm)是在一个用途非常广的算法,本科学通信的时候已经听过这个算法,最近在看 HMM(Hidden Markov model) 的时候也看到了这个算法。于是决定研究一下这个算法的原理及其具体实现,如果了解动态规划的同学应该很容易了解维特比算法,因为维特比算法的 阅读全文
posted @ 2017-12-13 17:49 蓝鲸王子 阅读(1154) 评论(0) 推荐(0) 编辑
摘要:本文主要介绍隐马尔可夫模型以及该模型中的三大问题的解决方法。 隐马尔可夫模型的是处理序列问题的统计学模型,描述的过程为:由隐马尔科夫链随机生成不可观测的状态随机序列,然后各个状态分别生成一个观测,从而产生观测随机序列。 在这个过程中,不可观测的序列称为状态序列(state sequence), 由此 阅读全文
posted @ 2017-12-12 12:16 蓝鲸王子 阅读(12409) 评论(0) 推荐(3) 编辑
摘要:信息检索概述 信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] ... w[k]组成的查询串q,返回一个按查询q和文档d匹配度relevance(q, d)排序的相关文档列表D'。 对于这一问题,先后出 阅读全文
posted @ 2017-12-08 17:11 蓝鲸王子 阅读(452) 评论(0) 推荐(0) 编辑
摘要:一、数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一 阅读全文
posted @ 2017-12-02 19:29 蓝鲸王子 阅读(1593) 评论(0) 推荐(1) 编辑
摘要:监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:Y=f(X)或者条件概率分布:P(Y|X)监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach 阅读全文
posted @ 2017-11-21 17:34 蓝鲸王子 阅读(517) 评论(1) 推荐(0) 编辑
摘要:1. 从Google网页排序到PageRank算法 (1)谷歌网页怎么排序? 先对搜索关键词进行分词,如“技术社区”分词为“技术”和“社区”; 根据建立的倒排索引返回同时包含分词后结果的网页; 将返回的网页相关性(类似上篇文章所讲的文本相似度)网页,相关性越高排名越靠前 (2)怎么处理垃圾网页?那么 阅读全文
posted @ 2017-09-25 20:55 蓝鲸王子 阅读(4278) 评论(0) 推荐(2) 编辑
摘要:今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监 阅读全文
posted @ 2017-09-24 17:55 蓝鲸王子 阅读(910) 评论(0) 推荐(0) 编辑
摘要:在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能 阅读全文
posted @ 2017-09-24 16:08 蓝鲸王子 阅读(635) 评论(0) 推荐(0) 编辑
摘要:前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信 阅读全文
posted @ 2017-09-21 18:51 蓝鲸王子 阅读(604) 评论(0) 推荐(1) 编辑
摘要:引言 拿到这份文档时想必你的脑海中一直萦绕着这么一个问题,“机器学习/深度学习要怎么学呢?(怎么入门,又怎么进一步掌握?)”。关于这个问题其实并没有一个标准答案,有的人可能适合自底向上的学,也就是先从理论和数学开始,然后是算法实现,最后再通过一些项目去解决生活中的实际问题;有的人则可能适合自顶向下的 阅读全文
posted @ 2017-09-20 19:07 蓝鲸王子 阅读(2586) 评论(0) 推荐(1) 编辑
摘要:拉格朗日乘数法(Lagrange Multiplier Method)之前听数学老师授课的时候就是一知半解,现在越发感觉拉格朗日乘数法应用的广泛性,所以特意抽时间学习了麻省理工学院的在线数学课程。新学到的知识一定要立刻记录下来,希望对各位博友有些许帮助。 拉格朗日乘数法(Lagrange Multi 阅读全文
posted @ 2017-09-16 20:47 蓝鲸王子 阅读(1176) 评论(0) 推荐(0) 编辑
摘要:1. 安装Anaconda 2和3 Anaconda 2中的python2为主,Anaconda 3中的python3为辅。先装Anaconda 2,并在安装时选择注册为系统python,再装Anaconda 3,注意不要勾选任何选项。 2. 配置python2下的jupyter notebook 阅读全文
posted @ 2017-07-29 16:31 蓝鲸王子 阅读(2482) 评论(1) 推荐(0) 编辑
摘要:原创文章:http://blog.csdn.net/qccc_dm/article/details/63684453 首先XGBOOST,GBDT,RF都是集成算法,RF是Bagging的变体,与Bagging相比,RF加入了属性扰动,而XGBOOST,GBDT属于boosting. 一、Rando 阅读全文
posted @ 2017-07-25 16:27 蓝鲸王子 阅读(3008) 评论(1) 推荐(2) 编辑
摘要:1. Precision和Recall Precision,准确率/查准率。Recall,召回率/查全率。这两个指标分别以两个角度衡量分类系统的准确率。 例如,有一个池塘,里面共有1000条鱼,含100条鲫鱼。机器学习分类系统将这1000条鱼全部分类为“不是鲫鱼”,那么准确率也有90%(显然这样的分 阅读全文
posted @ 2017-07-21 09:05 蓝鲸王子 阅读(18524) 评论(0) 推荐(3) 编辑

点击右上角即可分享
微信分享提示