LeftNotEasy

[置顶] 推荐本博客博文

摘要：在我的博客中，推荐以下专题机器学习中的数学系列： 1) 回归(regression)、梯度下降(gradient descent) 2) 线性回归，偏差、方差权衡 3) 模型组合(Model Combining)之Boosting与Gradient Boosting 4) 线性判别分析（LDA）, 阅读全文

posted @ 2011-05-02 10:13 LeftNotEasy 阅读(4581) 评论(0) 推荐(13)

2021年1月15日

也谈谈内卷化、996和程序员的发展

摘要：最近看到这个问题被谈得很多。铺天盖地的35岁、内卷化、996。这里也想谈谈自己的想法。 1）内卷化的形成内卷为什么会形成呢？从公司内部的角度来说，同事之间做的事情也缺少独特性。那么既然每个人都差不多，那么与其招一个工作十年的人，还不如招个应届生。虽然说从代码的产出和质量来说，工作十年的工程师比应届阅读全文

posted @ 2021-01-15 10:33 LeftNotEasy 阅读(2622) 评论(11) 推荐(15)

2017年11月27日

最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络

摘要：最近在看深度学习的"花书" （也就是Ian Goodfellow那本了），第五章机器学习基础部分的解释很精华，对比PRML少了很多复杂的推理，比较适合闲暇的时候翻开看看。今天准备写一写很多童鞋们w未必完全理解的最大似然估计的部分。单纯从原理上来说，最大似然估计并不是一个非常难以理解的东西。最大似然阅读全文

posted @ 2017-11-27 13:38 LeftNotEasy 阅读(14494) 评论(1) 推荐(6)

2016年12月27日

TensorFlow的开源与Hadoop的开源

摘要：最近看TensorFlow代码的时候，用Git pull下来最新的master一看，哇好多的更新，然后点击去之前看到一半的cc文件继续看，好多地方都改变了。但是一看Git log，有好多巨大的commit叫什么 "Merge commit for internal changes", "Merge 阅读全文

posted @ 2016-12-27 14:17 LeftNotEasy 阅读(3414) 评论(0) 推荐(1)

2016年12月22日

TensorFlow 源代码初读感受

摘要：把自己微博发的文章：http://www.weibo.com/1804230372/En7PdlgLb?from=page_1005051804230372_profile&wvr=6&mod=weibotime&type=comment 也转到博客来，算是自己写的很短的一篇博客了。花了一些时间看阅读全文

posted @ 2016-12-22 09:10 LeftNotEasy 阅读(9243) 评论(1) 推荐(0)

2016年11月27日

人人都要学一点深度学习（1）- 为什么我们需要它

posted @ 2016-11-27 17:23 LeftNotEasy 阅读(9599) 评论(7) 推荐(3)

2016年8月21日

开源的那些事儿（一）- 如何看待开源

摘要：前言其实想写写关于开源的文章已经好久了，从在2010年开始接触Hadoop到现在已经有六个年头了，从最早的Hadoop用户和Contributor，再成为Committer，最后成为PMC (Product Management Committee，项目管理委员会) 委员，挫折、欣喜都在交替在我阅读全文

posted @ 2016-08-21 15:01 LeftNotEasy 阅读(11042) 评论(20) 推荐(29)

2016年8月14日

程序员的选择

摘要：前言：很多年前，刚刚从大学毕业的时候，很多公司来校招。其中最烂俗的一个面试问题是：“你希望你之后三到五年的发展是什么？”。我当时的标准回答是（原话）：“成为在某一方面能够独当一面的技术专家“。后来经历了几家不同的公司，换了不同的方向，才知道这个真是一个很难的问题。因为兵无常势，什么东西都是在不断的阅读全文

posted @ 2016-08-14 18:21 LeftNotEasy 阅读(15284) 评论(36) 推荐(64)

2016年7月5日

从Hadoop Summit 2016看大数据行业与Hadoop的发展

摘要：前言：好吧我承认已经有四年多没有更新博客了。。。。在这四年中发生了很多事情，换了工作，换了工作的方向。在工作的第一年的时候接触机器学习，从那之后的一年非常狂热的学习机器学习的相关技术，也写了一些自己的理解和感悟。今天大概看了一下这个博客的总体阅读人数已经有70多万了，印象中之前还只有十多二十万。阅读全文

posted @ 2016-07-05 07:50 LeftNotEasy 阅读(9771) 评论(12) 推荐(25)

2012年2月18日

hadoop杂记-为什么会有Map-reduce v2 (Yarn)

摘要：前言：有一段时间没有写博客了(发现这是我博客最常见的开头，不过这次间隔真的好长），前段时间事情比较多，所以耽搁得也很多。现在准备计划写一个新的专题，叫做《hadoop杂记》，里面的文章有深有浅，文章不是按入门-中级-高级的顺序组织的，如果想看看从入门到深入的书，比较推荐《the definitive guide of hadoop》。今天主要想写写关于map-reduce v2(或者叫map-reduce next generation，或者叫YARN)与之前的map-reduce有什么不同。最近在学习Yarn的过程中，也参考了很多人的博客，里面的介绍都各有所长。不过一个很重要的问... 阅读全文

posted @ 2012-02-18 23:05 LeftNotEasy 阅读(27545) 评论(6) 推荐(10)

2011年8月27日

为什么Hadoop将一定会是分布式计算的未来？

摘要：今天听同事分享了一篇很有意思的讲座，叫做"Why Map-Reduce Is Not The Solution To Your Big-Data Problem"(为什么Map-Reduce不是你的“大数据”问题的解决方案)。同事很牛，也分享了很多非常有价值的观点，不过他预言Map-Reduce将会在5年之内消失（而且还呼吁有做存储方面的牛人来预言一下，Hdfs将在5年之内消失），这个话题如果成立的话，让我这个目前在Hadoop工程师，感到无比的压力。这里不为了争个你死我活，只是谈谈自己的一些想法。另外由于这位同事的分享是内部进行的，这里就不透露分享中具体的内容了，只谈谈自己的观点。阅读全文

posted @ 2011-08-27 10:53 LeftNotEasy 阅读(30868) 评论(17) 推荐(25)

2011年5月29日

PyMining-开源中文文本数据挖掘平台 Ver 0.2发布

摘要：项目首页： http://code.google.com/p/python-data-mining-platform/ （可能需FQ）目前比如tutorial, install, release等内容，已经更新到项目首页的wiki中项目介绍：这是一个能够根据源数据（比如说用csv格式表示的矩阵，或者中文文档）使用多种多样的算法去得到结果的一个平台。算法能够通过xml配置文件去一个一个的运行，比如在开始的时候，我们可以先运行一下主成分分析算法去做特种选择，然后我们再运行随机森林算法来做分类。目前算法主要是针对那些单机能够完成的任务，该架构良好的扩展性能够让你在很短的时间内完成自己想要的阅读全文

posted @ 2011-05-29 20:24 LeftNotEasy 阅读(9243) 评论(12) 推荐(3)

2011年5月15日

PyMining-开源中文文本数据挖掘平台 Ver 0.1发布

摘要：目前算法主要是针对那些单机能够完成的任务，该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法，并且用于工程之中（相信我，肯定比Weka更快更好）。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。 *当前版新增加入了K-Means算法，能够对文本进行聚类加入了基于补集的朴素贝叶斯算法，大大提升了分类的准确率，目前该算法在搜狗实验室文本分类数据中，对20000篇、8分类左右的数据的预测准确率在90%左右阅读全文

posted @ 2011-05-15 22:21 LeftNotEasy 阅读(14967) 评论(5) 推荐(8)

2011年5月2日

机器学习中的算法(2)-支持向量机(SVM)基础

posted @ 2011-05-02 20:56 LeftNotEasy 阅读(174263) 评论(42) 推荐(52)

2011年3月7日

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

摘要：在最近几年的paper上，如iccv这种重量级的会议，iccv 09年的里面有不少的文章都是与Boosting与随机森林相关的。模型组合+决策树相关的算法有两种比较基本的形式 - 随机森林与GBDT((Gradient Boost Decision Tree)，其他的比较新的模型组合+决策树的算法都是来自这两种算法的延伸。本文主要侧重于GBDT，对于随机森林只是大概提提，因为它相对比较简单。在看本文之前，建议先看看机器学习与数学(3)与其中引用的论文，本文中的GBDT主要基于此，而随机森林相对比较独立。阅读全文

posted @ 2011-03-07 23:53 LeftNotEasy 阅读(222000) 评论(24) 推荐(35)

2011年2月27日

支持中文文本的数据挖掘平台开源项目PyMining发布

摘要：项目目前主要关注中文文本的数据挖掘算法。由于每种数据挖掘算法的局限性都很大，就拿分类算法一样，决策树、朴素贝叶斯这两种算法都有着自己的特性，只能在某一种类型的类型的数据上应用比较良好，比如朴素贝叶斯，就对于那些短文本的分类比较适合，而决策树对于短文本、稀疏情况下就效果欠佳了，特别是在数据比较稀疏的情况。在这种情况下，当有一个数据挖掘任务的时候，怎样去找到一个合适的算法就非常重要了。如果从头开发算法，是一个成本很高的事情，特别是对文本来说就更麻烦，需要在前面做一些如分词、去停用词等等操作。如果有一个平台，可以支持快速的开发，让用户能够快速的看到，针对自己的数据，什么样的算法比较合适，就是本项目的一个初衷。阅读全文

posted @ 2011-02-27 14:33 LeftNotEasy 阅读(23408) 评论(6) 推荐(12)

2011年1月19日

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

posted @ 2011-01-19 22:27 LeftNotEasy 阅读(419914) 评论(85) 推荐(148)

2011年1月8日

机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)

摘要：版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com 前言：第二篇的文章中谈到，和部门老大一宁出去outing的时候，他给了我相当多的机器学习的建议，里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到，如果学习分类算法，最好从线性的入手，线性分类器最简单的就是LDA，它可以看做是简化版的SVM，如果想理解SVM这种分类器，那理解LDA就是很有必要的了。谈到LDA，就不得不谈谈PCA，PCA是一个和LDA非常相关的算法，从阅读全文

posted @ 2011-01-08 14:56 LeftNotEasy 阅读(209784) 评论(40) 推荐(31)

2011年1月2日

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

摘要：版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com 前言：本来上一章的结尾提到，准备写写线性分类的问题，文章都已经写得差不多了，但是突然听说最近Team准备做一套分布式的分类器，可能会使用Random Forest来做，下了几篇论文看了看，简单的random forest还比较容易弄懂，复杂一点的还会与boosting等算法结合（参见iccv09），对于boosting也不甚了解，所以临时抱佛脚的看了看。说起boosting，强哥阅读全文

posted @ 2011-01-02 21:48 LeftNotEasy 阅读(112058) 评论(13) 推荐(17)

2010年12月19日

机器学习中的数学(2)-线性回归，偏差、方差权衡

摘要：版权声明：本文由LeftNotEasy所有，发布于http://leftnoteasy.cnblogs.com。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。如果有问题，请联系作者 wheeleast@gmail.com 前言：距离上次发文章，也快有半个月的时间了，这半个月的时间里又在学习机器学习的道路上摸索着前进，积累了一点心得，以后会慢慢的写写这些心得。写文章是促进自己对知识认识的一个好方法，看书的时候往往不是非常细，所以有些公式、知识点什么的就一带而过，里面的一些具体意义就不容易理解了。而写文章，特别是写科普性的文章，需要对里面的具体意义弄明白，甚至还阅读全文

posted @ 2010-12-19 11:18 LeftNotEasy 阅读(70015) 评论(26) 推荐(16)

2010年12月5日

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

摘要：版权声明：本文由LeftNotEasy所有，发布于http://leftnoteasy.cnblogs.com。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。前言: 上次写过一篇关于贝叶斯概率论的数学，最近时间比较紧，coding的任务比较重，不过还是抽空看了一些机器学习的书和视频，其中很推荐两个：一个是stanford的machine learning公开课，在verycd可下载，可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书，而且是200 阅读全文

posted @ 2010-12-05 23:51 LeftNotEasy 阅读(146098) 评论(43) 推荐(42)

关注于 机器学习、数据挖掘、并行计算、数学

关注于机器学习、数据挖掘、并行计算、数学