飞鸟各投林

导航

上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页

2017年3月31日 #

RF是如何工作的?

摘要: 随机森林的发展史 谈及随机森林算法的产生与发展,我们必须回溯到20世纪80年代。可以说,该算法是Leo Breiman, Adele Cutler, Ho Tin Kam, Dietterich, Amit和Geman这几位大师呕心沥血的共同结晶,他们中的每个人都对随机森林算法的早期发展作出了重要的 阅读全文

posted @ 2017-03-31 23:05 飞鸟各投林 阅读(391) 评论(0) 推荐(0) 编辑

RF的优缺点

摘要: 随机森林有什么优点,如: a. 对于很多数据集表现良好,精确度比较高; b. 不容易过拟合; c. 可以得到变量的重要性排序; d. 既能处理离散型数据,也能处理连续型数据,且不需要进行归一化处理; (美团被深入问到) e. 能够很好的处理缺失数据; f. 容易并行化 关于材料再说句题外话,我之前是 阅读全文

posted @ 2017-03-31 22:55 飞鸟各投林 阅读(1290) 评论(0) 推荐(0) 编辑

国内NLP的那些人那些会

摘要: 统计学和语言学专家都列在一起了,没有区分。1,黄昌宁,1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁大学进修,1986-1987年曾在香港理工大学任教,1999年4月加入微软中国研究院任主任研究员。中国计算机自然语言处理领域的 阅读全文

posted @ 2017-03-31 22:25 飞鸟各投林 阅读(483) 评论(0) 推荐(0) 编辑

B-、B+、B*树

摘要: B-树:多路搜索树,每个结点存储M/2到M个关键字,非叶子结点存储指向关键字范围的子结点;所有关键字在整颗树中出现,且只出现一次,非叶子结点可以命中; B+树:在B-树基础上,为叶子结点增加链表指针,所有关键字都在叶子结点中出现,非叶子结点作为叶子结点的索引;B+树总是到叶子结点才命中; B*树:  阅读全文

posted @ 2017-03-31 22:17 飞鸟各投林 阅读(206) 评论(0) 推荐(0) 编辑

2017年3月30日 #

关于LDA的gibbs采样,为什么可以获得正确的样本?

摘要: 算法里面是随机初始了一个分布,然后进行采样,然后根据每次采样的结果去更新分布,之后接着采样直到收敛。 1.首先明确一下MCMC方法。 当我们面对一个未知或者复杂的分布时,我们经常使用MCMC方法来进行分布采样。而采样的目的是得到这个分布的样本,通过这些样本,我们就能明确出该分布的具体结构。所以MCM 阅读全文

posted @ 2017-03-30 17:13 飞鸟各投林 阅读(972) 评论(0) 推荐(0) 编辑

LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?

摘要: 本文参考自:https://www.zhihu.com/question/21692336/answer/19387415 方法一: alpha 是 选择为 50/ k, 其中k是你选择的topic数,beta一般选为0.01吧,,这都是经验值,貌似效果比较好,收敛比较快一点。。有一篇paper, 阅读全文

posted @ 2017-03-30 17:08 飞鸟各投林 阅读(4895) 评论(0) 推荐(0) 编辑

如何确定LDA的主题个数

摘要: 本文参考自:https://www.zhihu.com/question/32286630 LDA中topic个数的确定是一个困难的问题。 当各个topic之间的相似度的最小的时候,就可以算是找到了合适的topic个数。 参考一种基于密度的自适应最优LDA模型选择方法 ,简略过程如下: 选取初始K值 阅读全文

posted @ 2017-03-30 16:55 飞鸟各投林 阅读(4633) 评论(0) 推荐(0) 编辑

2017年3月28日 #

SMO算法精解

摘要: 本文参考自:https://www.zhihu.com/question/40546280/answer/88539689 解决svm首先将原始问题转化到对偶问题,而对偶问题则是一个凸二次规划问题,理论上你用任何一个解决凸二次规划的软件包都可以解决,但是这样通常来说很慢,大数据情况下尤其不实际, s 阅读全文

posted @ 2017-03-28 19:23 飞鸟各投林 阅读(3450) 评论(0) 推荐(0) 编辑

奇异值与主成分分析(PCA)

摘要: 主成分分析在上一节里面也讲了一些,这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数 阅读全文

posted @ 2017-03-28 01:41 飞鸟各投林 阅读(664) 评论(0) 推荐(0) 编辑

随机深林和GBDT

摘要: 随机森林(Random Forest): 随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候 阅读全文

posted @ 2017-03-28 01:36 飞鸟各投林 阅读(251) 评论(0) 推荐(0) 编辑

2017年3月27日 #

最大熵模型

摘要: 我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。 让我们 阅读全文

posted @ 2017-03-27 22:40 飞鸟各投林 阅读(384) 评论(0) 推荐(0) 编辑

一文搞懂HMM(隐马尔可夫模型)

摘要: 本文转自于:http://www.cnblogs.com/skyme/p/4651331.html 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析 阅读全文

posted @ 2017-03-27 22:35 飞鸟各投林 阅读(731) 评论(0) 推荐(0) 编辑

2017年3月26日 #

HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)

摘要: 本文转自:http://www.cnblogs.com/syx-1987/p/4077325.html 路径1-1-1-1的概率:0.4*0.45*0.5=0.09 路径2-2-2-2的概率:0.018 路径1-2-1-2:0.06 路径1-1-2-2:0.066 由此可得最优路径为1-1-1-1 阅读全文

posted @ 2017-03-26 22:52 飞鸟各投林 阅读(1031) 评论(1) 推荐(0) 编辑

HMM,MEMM,CRF模型的比较

摘要: 本文参考自:http://blog.csdn.net/happyzhouxiaopei/article/details/7960876 这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移 概率和表现概率建立联合概 阅读全文

posted @ 2017-03-26 22:46 飞鸟各投林 阅读(18325) 评论(0) 推荐(0) 编辑

最大熵模型---关毅老师的课件

摘要: 最大熵模型 最大熵原理 举例 阅读全文

posted @ 2017-03-26 21:15 飞鸟各投林 阅读(245) 评论(0) 推荐(0) 编辑

盘点一下数据平滑算法

摘要: 本文参考来自于:http://blog.csdn.net/wwjiang_ustc/article/details/50732211 在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。 因此,为了防止对训练样本中未出现的新序列概率 阅读全文

posted @ 2017-03-26 20:55 飞鸟各投林 阅读(3308) 评论(0) 推荐(1) 编辑

通俗的解释交叉熵与相对熵

摘要: 一、交叉熵 (1):离散表示: (2):连续表示: 两项中 H(p)是 p的信息熵,后者是p和q的相对熵; 二、相对熵 (1):离散表示: (2):连续表示: 三、二者关系 阅读全文

posted @ 2017-03-26 20:46 飞鸟各投林 阅读(397) 评论(0) 推荐(0) 编辑

2017年3月24日 #

编辑距离问题

摘要: 本文来自于:http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个 阅读全文

posted @ 2017-03-24 00:12 飞鸟各投林 阅读(192) 评论(0) 推荐(0) 编辑

2017年3月23日 #

理解动态规划、分治法和贪心法

摘要: 本文转自:http://www.cnblogs.com/airwindow/p/4067902.html http://hi.baidu.com/35661327/blog/item/d5463e17f1e8d011972b439c.html 动态规划、分治法和贪心法都是利用求解子问题,而后利用子问 阅读全文

posted @ 2017-03-23 23:12 飞鸟各投林 阅读(769) 评论(0) 推荐(0) 编辑

2017 校招华为上机题

摘要: 1. 给定一个字符串,把字符串内的字母转换成该字母的下一个字母, a 换成b,z 换成a,Z 换成A,如aBf 转换成bCg,字符串内的其他字符不改变,给定函数,编写函数void Stringchang(const char*inpu,char*output)其中input 是输入字符串, outp 阅读全文

posted @ 2017-03-23 21:53 飞鸟各投林 阅读(215) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页