摘要: 在我的博客中,推荐以下专题 机器学习中的数学系列: 1) 回归(regression)、梯度下降(gradient descent) 2) 线性回归,偏差、方差权衡 3) 模型组合(Model Combining)之Boosting与Gradient Boosting 4) 线性判别分析(LDA), 阅读全文
posted @ 2011-05-02 10:13 LeftNotEasy 阅读(4526) 评论(0) 推荐(13) 编辑
摘要: 最近看到这个问题被谈得很多。铺天盖地的35岁、内卷化、996。这里也想谈谈自己的想法。 1)内卷化的形成 内卷为什么会形成呢?从公司内部的角度来说,同事之间做的事情也缺少独特性。那么既然每个人都差不多,那么与其招一个工作十年的人,还不如招个应届生。虽然说从代码的产出和质量来说,工作十年的工程师比应届 阅读全文
posted @ 2021-01-15 10:33 LeftNotEasy 阅读(2484) 评论(11) 推荐(15) 编辑
摘要: 最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看。今天准备写一写很多童鞋们w未必完全理解的最大似然估计的部分。 单纯从原理上来说,最大似然估计并不是一个非常难以理解的东西。最大似然 阅读全文
posted @ 2017-11-27 13:38 LeftNotEasy 阅读(14187) 评论(1) 推荐(6) 编辑
摘要: 最近看TensorFlow代码的时候,用Git pull下来最新的master一看,哇好多的更新,然后点击去之前看到一半的cc文件继续看,好多地方都改变了。但是一看Git log,有好多巨大的commit叫什么 "Merge commit for internal changes", "Merge 阅读全文
posted @ 2016-12-27 14:17 LeftNotEasy 阅读(3379) 评论(0) 推荐(1) 编辑
摘要: 把自己微博发的文章:http://www.weibo.com/1804230372/En7PdlgLb?from=page_1005051804230372_profile&wvr=6&mod=weibotime&type=comment 也转到博客来,算是自己写的很短的一篇博客了。 花了一些时间看 阅读全文
posted @ 2016-12-22 09:10 LeftNotEasy 阅读(9205) 评论(1) 推荐(0) 编辑
摘要: 人人都要学一点深度学习(1) 为什么我们需要它 版权声明 本文由 "@leftnoteasy" 发布于 "http://leftnoteasy.cnblogs.com" , 如需全文转载或有其他问题请联系wheeleast (at) gmail.com。 1.开篇 1.1 为什么我开始写这个系列博客 阅读全文
posted @ 2016-11-27 17:23 LeftNotEasy 阅读(9525) 评论(7) 推荐(3) 编辑
摘要: 前言 其实想写写关于开源的文章已经好久了,从在2010年开始接触Hadoop到现在已经有六个年头了,从最早的Hadoop用户和Contributor,再成为Committer,最后成为PMC (Product Management Committee,项目管理委员会) 委员,挫折、 欣喜都在交替在我 阅读全文
posted @ 2016-08-21 15:01 LeftNotEasy 阅读(10991) 评论(20) 推荐(29) 编辑
摘要: 前言: 很多年前,刚刚从大学毕业的时候,很多公司来校招。其中最烂俗的一个面试问题是:“你希望你之后三到五年的发展是什么?”。我当时的标准回答是(原话):“成为在某一方面能够独当一面的技术专家“。后来经历了几家不同的公司,换了不同的方向,才知道这个真是一个很难的问题。因为兵无常势,什么东西都是在不断的 阅读全文
posted @ 2016-08-14 18:21 LeftNotEasy 阅读(15220) 评论(36) 推荐(64) 编辑
摘要: 前言: 好吧我承认已经有四年多没有更新博客了。。。。 在这四年中发生了很多事情,换了工作,换了工作的方向。在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自己的理解和感悟。今天大概看了一下这个博客的总体阅读人数已经有70多万了,印象中之前还只有十多二十万。 阅读全文
posted @ 2016-07-05 07:50 LeftNotEasy 阅读(9716) 评论(12) 推荐(25) 编辑
摘要: 前言: 有一段时间没有写博客了(发现这是我博客最常见的开头,不过这次间隔真的好长),前段时间事情比较多,所以耽搁得也很多。 现在准备计划写一个新的专题,叫做《hadoop杂记》,里面的文章有深有浅,文章不是按入门-中级-高级的顺序组织的,如果想看看从入门到深入的书,比较推荐《the definitive guide of hadoop》。 今天主要想写写关于map-reduce v2(或者叫map-reduce next generation,或者叫YARN)与之前的map-reduce有什么不同。最近在学习Yarn的过程中,也参考了很多人的博客,里面的介绍都各有所长。不过一个很重要的问... 阅读全文
posted @ 2012-02-18 23:05 LeftNotEasy 阅读(27495) 评论(6) 推荐(10) 编辑
摘要: 今天听同事分享了一篇很有意思的讲座,叫做"Why Map-Reduce Is Not The Solution To Your Big-Data Problem"(为什么Map-Reduce不是你的“大数据”问题的解决方案)。同事很牛,也分享了很多非常有价值的观点,不过他预言Map-Reduce将会在5年之内消失(而且还呼吁有做存储方面的牛人来预言一下,Hdfs将在5年之内消失),这个话题如果成立的话,让我这个目前在Hadoop工程师,感到无比的压力。这里不为了争个你死我活,只是谈谈自己的一些想法。另外由于这位同事的分享是内部进行的,这里就不透露分享中具体的内容了,只谈谈自己的观点。 阅读全文
posted @ 2011-08-27 10:53 LeftNotEasy 阅读(30809) 评论(17) 推荐(25) 编辑
摘要: 项目首页: http://code.google.com/p/python-data-mining-platform/ (可能需FQ) 目前比如tutorial, install, release等内容,已经更新到项目首页的wiki中 项目介绍: 这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者中文文档)使用多种多样的算法去得到结果的一个平台。 算法能够通过xml配置文件去一个一个的运行,比如在开始的时候,我们可以先运行一下主成分分析算法去做特种选择,然后我们再运行随机森林算法来做分类。 目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的 阅读全文
posted @ 2011-05-29 20:24 LeftNotEasy 阅读(9206) 评论(12) 推荐(3) 编辑
摘要: 目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。 *当前版新增 加入了K-Means算法,能够对文本进行聚类 加入了基于补集的朴素贝叶斯算法,大大提升了分类的准确率,目前该算法在搜狗实验室文本分类数据中,对20000篇、8分类左右的数据的预测准确率在90%左右 阅读全文
posted @ 2011-05-15 22:21 LeftNotEasy 阅读(14885) 评论(5) 推荐(8) 编辑
摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 又有很长的一段时间没有更新博客 阅读全文
posted @ 2011-05-02 20:56 LeftNotEasy 阅读(173788) 评论(42) 推荐(52) 编辑
摘要: 在最近几年的paper上,如iccv这种重量级的会议,iccv 09年的里面有不少的文章都是与Boosting与随机森林相关的。模型组合+决策树相关的算法有两种比较基本的形式 - 随机森林与GBDT((Gradient Boost Decision Tree),其他的比较新的模型组合+决策树的算法都是来自这两种算法的延伸。本文主要侧重于GBDT,对于随机森林只是大概提提,因为它相对比较简单。 在看本文之前,建议先看看机器学习与数学(3)与其中引用的论文,本文中的GBDT主要基于此,而随机森林相对比较独立。 阅读全文
posted @ 2011-03-07 23:53 LeftNotEasy 阅读(221492) 评论(24) 推荐(35) 编辑
摘要: 项目目前主要关注中文文本的数据挖掘算法。由于每种数据挖掘算法的局限性都很大,就拿分类算法一样,决策树、朴素贝叶斯这两种算法都有着自己的特性,只能在某一种类型的类型的数据上应用比较良好,比如朴素贝叶斯,就对于那些短文本的分类比较适合,而决策树对于短文本、稀疏情况下就效果欠佳了,特别是在数据比较稀疏的情况。在这种情况下,当有一个数据挖掘任务的时候,怎样去找到一个合适的算法就非常重要了。如果从头开发算法,是一个成本很高的事情,特别是对文本来说就更麻烦,需要在前面做一些如分词、去停用词等等操作。如果有一个平台,可以支持快速的开发,让用户能够快速的看到,针对自己的数据,什么样的算法比较合适,就是本项目的一个初衷。 阅读全文
posted @ 2011-02-27 14:33 LeftNotEasy 阅读(23279) 评论(6) 推荐(12) 编辑
摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 上一次写了关于PCA与LDA的 阅读全文
posted @ 2011-01-19 22:27 LeftNotEasy 阅读(415884) 评论(84) 推荐(147) 编辑
摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。 谈到LDA,就不得不谈谈PCA,PCA是一个和LDA非常相关的算法,从 阅读全文
posted @ 2011-01-08 14:56 LeftNotEasy 阅读(208470) 评论(40) 推荐(31) 编辑
摘要: 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看,简单的random forest还比较容易弄懂,复杂一点的还会与boosting等算法结合(参见iccv09),对于boosting也不甚了解,所以临时抱佛脚的看了看。说起boosting,强哥 阅读全文
posted @ 2011-01-02 21:48 LeftNotEasy 阅读(111789) 评论(13) 推荐(17) 编辑
摘要: 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。如果有问题,请联系作者 wheeleast@gmail.com 前言: 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得。写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非常细,所以有些公式、知识点什么的就一带而过,里面的一些具体意义就不容易理解了。而写文章,特别是写科普性的文章,需要对里面的具体意义弄明白,甚至还 阅读全文
posted @ 2010-12-19 11:18 LeftNotEasy 阅读(69800) 评论(26) 推荐(16) 编辑
摘要: 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书,而且是200 阅读全文
posted @ 2010-12-05 23:51 LeftNotEasy 阅读(145741) 评论(43) 推荐(42) 编辑