机器学习建议（转）

机器学习说简单就简单，说难就难，但如果一个人不够聪明的话，他大概很难知道机器学习哪里难。基本上要学习机器学习，先修课程是algebra, calculus, probability theory, linear regression。这几门科学好了再学Machine learning是事半功倍的。此外近代数学的东西也要懂， functional analysis啥的。其实不懂也行，只是现在文献总是喜欢引用里面的概念，懂一些读起来方便。（我就很讨厌manifold learning这个名字，把许多人都吓跑了）real analysis最好用心学，对序列或函数的收敛性的理解很能帮助你了解这些模型的精髓。Optimization theory (ref. Convex optimization by Boyd)也是重中之重，在前面几门课学好并有一定python基础的时候可以仔细读一读。

其实机器学习需要看的书不多，必读的是elements of statistical learning。这本书涵盖范围很广，且深入浅出，习题也有一定难度，适合自学。你看过这本之后就知道其他什么书可以看什么书不需要看了。

再下来就是练习，这个是重中之重。我觉得做kaggle的比赛最有效。可以仿照别人写写code，也可以自己想想办法，但最主要的是要能够迅速完成编程并给出结果。我见过许多人光讨论就可以几天，但真正动起手来就萎了。

最后就是读source code并自己实现几个model from scratch。这个比较难，但是确是最锻炼人的。具体语言应该是越基础越好，比如C/C++什么的。等你自己写完了一两个model，再去用别人的package就会觉得得心应手许多了。我真心觉得这个比上coursera那些课强多了。上coursera最大的缺点就是容易变得似懂非懂纸上谈兵。我自己program过ensemble trees(C++)和deep learning solver(Python)，受益颇多。至于读source code，我觉得libsvm写得很好啊，不过算法对大一大二新生是难了点。此外，基于python的工具包scikit-learn的sourcecode很好读，建议大家多看看。

我看回答中有提到Matlab，我觉的matlab处理字符很麻烦，现在很多dataset都需要处理字符，所以并不是好的选择。

补充一点就是要学会发散思维，学会如何从data中找feature。关于这个的教程很缺，需要大量练习及一些天赋。

说实话machine learning虽然门槛不高，但真心是聪明人的游戏。

我要翻译一把quora了，再加点我的理解，我相信会是一个好答案，链接我都放到一起了，没插入到正文中，要求其实比较高了，我觉得我自己都差很远很远~~~我尽量持续更新翻译质量以及自己理解

1. Python/C++/R/Java - you will probably want to learn all of these languages at some point if you want a job in machine-learning. Python's Numpy and Scipy libraries [2] are awesome because they have similar functionality to MATLAB, but can be easily integrated into a web service and also used in Hadoop (see below). C++ will be needed to speed code up. R [3] is great for statistics and plots, and Hadoop [4] is written in Java, so you may need to implement mappers and reducers in Java (although you could use a scripting language via Hadoop streaming [5])

首先，你要熟悉这四种语言。Python因为开源的库比较多，可以看看Numpy和Scipy这两个库，这两个都可以很好的融入网站开发以及Hadoop。C++可以让你的代码跑的更快，R则是一个很好地统计工具。而你想很好地使用Hadoop你也必须懂得java，以及如何实现map reduce

2. Probability and Statistics: A good portion of learning algorithms are based on this theory. Naive Bayes [6], Gaussian Mixture Models [7], Hidden Markov Models [8], to name a few. You need to have a firm understanding of Probability and Stats to understand these models. Go nuts and study measure theory [9]. Use statistics as an model evaluation metric: confusion matrices, receiver-operator curves, p-values, etc.

我推荐统计学习方法李航写的，这算的上我mentor的mentor了。理解一些概率的理论，比如贝叶斯，SVM，CRF，HMM，决策树，AdaBoost，逻辑斯蒂回归，然后再稍微看看怎么做evaluation 比如P R F。也可以再看看假设检验的一些东西。

3. Applied Math + Algorithms: For discriminate models like SVMs [10], you need to have a firm understanding of algorithm theory. Even though you will probably never need to implement an SVM from scratch, it helps to understand how the algorithm works. You will need to understand subjects like convex optimization [11], gradient decent [12], quadratic programming [13], lagrange [14], partial differential equations [15], etc. Get used to looking at summations [16].

机器学习毕竟是需要极强极强数学基础的。我希望开始可以深入的了解一些算法的本质，SVM是个很好的下手点。可以从此入手，看看拉格朗日，凸优化都是些什么

4. Distributed Computing: Most machine learning jobs require working with large data sets these days (see Data Science) [17]. You cannot process this data on a single machine, you will have to distribute it across an entire cluster. Projects like Apache Hadoop [4] and cloud services like Amazon's EC2 [18] makes this very easy and cost-effective. Although Hadoop abstracts away a lot of the hard-core, distributed computing problems, you still need to have a firm understanding of map-reduce [22], distribute-file systems [19], etc. You will most likely want to check out Apache Mahout [20] and Apache Whirr [21].

熟悉分布计算，机器学习当今必须是多台机器跑大数据，要不然没啥意义。请熟悉Hadoop，这对找工作有很大很大的意义。百度等公司都需要hadoop基础。

5. Expertise in Unix Tools: Unless you are very fortunate, you are going to need to modify the format of your data sets so they can be loaded into R,Hadoop,HBase [23],etc. You can use a scripting language like python (using re) to do this but the best approach is probably just master all of the awesome unix tools that were designed for this: cat [24], grep [25], find [26], awk [27], sed [28], sort [29], cut [30], tr [31], and many more. Since all of the processing will most likely be on linux-based machine (Hadoop doesnt run on Window I believe), you will have access to these tools. You should learn to love them and use them as much as possible. They certainly have made my life a lot easier. A great example can be found here [1].

熟悉Unix的Tool以及命令。百度等公司都是依靠Linux工作的，可能现在依靠Windows的Service公司已经比较少了。所以怎么也要熟悉Unix操作系统的这些指令吧。我记得有个百度的面试题就是问文件复制的事情。

6. Become familiar with the Hadoop sub-projects: HBase, Zookeeper [32], Hive [33], Mahout, etc. These projects can help you store/access your data, and they scale.

机器学习终究和大数据息息相关，所以Hadoop的子项目要关注，比如HBase Zookeeper Hive等等

7. Learn about advanced signal processing techniques: feature extraction is one of the most important parts of machine-learning. If your features suck, no matter which algorithm you choose, your going to see horrible performance. Depending on the type of problem you are trying to solve, you may be able to utilize really cool advance signal processing algorithms like: wavelets [42], shearlets [43], curvelets [44], contourlets [45], bandlets [46]. Learn about time-frequency analysis [47], and try to apply it to your problems. If you have not read about Fourier Analysis[48] and Convolution[49], you will need to learn about this stuff too. The ladder is signal processing 101 stuff though.

这里主要是在讲特征的提取问题。无论是分类（classification）还是回归（regression）问题，都要解决特征选择和抽取（extraction）的问题。他给出了一些基础的特征抽取的工具如小波等，同时说需要掌握傅里叶分析和卷积等等。这部分我不大了解，大概就是说信号处理你要懂，比如傅里叶这些。。。

Finally, practice and read as much as you can. In your free time, read papers like Google Map-Reduce [34], Google File System [35], Google Big Table [36], The Unreasonable Effectiveness of Data [37],etc There are great free machine learning books online and you should read those also. [38][39][40]. Here is an awesome course I found and re-posted on github [41]. Instead of using open source packages, code up your own, and compare the results. If you can code an SVM from scratch, you will understand the concept of support vectors, gamma, cost, hyperplanes, etc. It's easy to just load some data up and start training, the hard part is making sense of it all.

最近在学teradata的aster数据挖掘工具，果然商业的框架跟hadoop的易学性易用性可拓展性都有天壤之别啊。建议有兴趣的同学自查资料，软件贵的惊人，但是对于自身维护团队水平一般的企业还是值得买的

-----------

不邀自来，结合我现在的工作以及当年机器学习的经验来讲一下自己的一些感受。
首先从机器学习的全流程说起。
输入：机器学习按输入数据分可以分结构化数据(表)，半结构化数据(文本，日志等)，非结构化数据(图片，录像)，后两者对应的分支中比较出名分别是文本挖掘和图像挖掘，其实就是通过提取特征的方式把半结构化数据非结构化数据转化为结构化数据，然后进行机器学习。
按输入数据是否预测状态分，可以分为有监督学习数据及无监督学习数据，直接决定后续模型是使用分类模型还是聚类模型。
同时如果数据量到达了T级，就要考虑时候hadoop框架了，这里要说明的是，hadoop框架只是解决大数据处理效率瓶颈的工具，除非你志向是做架构师，不然不用深究，掌握hadoop家族的sql处理工具hive和机器学习工具mahout就可以了，需要掌握java和sql，这是基础。
下一步，数据清洗和数据降维，在数据清洗方面不是学术界研究的重点，清洗方法有很多，主要通过描述性统计量填补缺失值和极端值，数据降维方面有较多比较出名的算法，如主成分分析，lasso，LDA线性判别分析，变量聚类等，数据降维是重点，因为维度过大容易产生维度灾难和过度拟合问题。
然后是数据分区(有监督学习才需要做)，分成训练集，验证集，测试集，分别用于训练模型，模型内修正，多模型效果对比用。不展开讨论。
接着建模，分为分类算法，聚类算法，规则关联算法，分类算法是大头，建议分别拜读支持向量机，概率图模型，神经网络(虽然我不喜欢但是google的深度学习就是用的神经网络)，决策树(C4.5)，逻辑回归(吐槽：线性回归什么的看不看得看个人水平)，混合高斯模型等，聚类算法有KNN，LDA潜在迪力克雷分析(做文本挖掘效果一流)，聚类算法研究不多，大多机器学习算法都是基于有监督学习的，即分类算法。规则关联算法有最简单的规则关联，路径关联分析，及协同过滤(推荐系统首选，输入数据量太大数据太稀疏跑数效率很低一般需要hadoop支持)，模型是机器学习的核心，还有一些优化模型，如EM模型等，建议阅读增加知识广度，要求学习人员要懂以下课程：概率论，高数，线性优化，线性代数还有英文，也可以边看论文边学。书籍的话推荐数据挖掘十大算法作为入门索引，然后根据每章节的参考文献找原文阅读，记得把公式推导一遍。
结果评估：本来不应该是重点，但是从个人学习和工作经历发现，有很多人不是很会看模型结果，甚至包括一些专业人士。所以如果有志做机器学习的千万要学会看结果，不然就丢人丢大了。
最直接的两个指标准确度percision和召回度recall，分别描述模型的精度和泛化性的，模型结果应在两者取得均衡。最小平方误差也是描述准确度的，算法不一样，大家更喜欢用这个评估模型精度。还有一些K-S值，基尼值，ROC值也是描述准确度和拟合度的，不同的软件会使用不同的指标，注意一下。还有就是提升度，事件捕获率这些就是描述分类预测下前百分之几数据的预测准确性情况的，不展开讨论。最直接的学法就是认真读论文的实验部分，看看它的指标评价量。
最后是工具和语言，按现在数据挖掘与机器学习的趋势，必须掌握java，python，原因是hadoop是处理大数据的框架，已成趋势，hadoop是java写的，挖掘工具mahout是java写的。python的好处在于底层基于C，语法简单，效率高，而且有很多开源的算法可以直接用，支持mapreduce。可以选择掌握R，同python，但是R效率木有python高，如果是针对商业分析建议学习SAS，因为它集成了一套专业的数据可视化及数据分析方案，大大方便了数据展示功能，这是作为商业分析所必须的。
最后补充一点，很多做数据挖掘和机器学习的人最后都走火入魔执着技术忽略了业务的重要性，忽略了模型可解释性的重要性，埋头苦干做出业务人员不能理解的黑箱模型，无法说服业务使用，最终沦为鸡肋的存在，所以在学习过程中要时刻设想技术适应的业务场景，在算法效果接近时选择高可解释性算法，做好结果的图形化展示，让业务理解，这才是王道。
补充，andrew ng的公开课不错，但还是建议先看论文。

这两天看到李航老师的《统计学习方法》，感觉写的非常好，适合入门，机器学习的基本概念都有，但是不太深入，中文书写，所有专业名词给出英文翻译。适合给初学者建立概念，可以系统的了解机器学习。

原答案：
强烈推荐这个UFLDL教程 - Ufldl。这是Andrew Ng写的关于非监督特征学习与深度学习的教程，关键是有一批无私且专业的网友，将其翻译成中文，并有中英文对照，与Andrew Ng商量后贴在了原网址上。非常感谢这些人啊。
对于一个初学者，如果单纯从英文教材（视频）入手的话，会比较吃力，很多概念都没建立起来，很多术语都没有掌握，而这个教程设计机器学习很多的基本概念，并附有matlab习题，通过循序渐进的练习，可以更快掌握基本概念。
另外这个的好处是不像一般教材，面面俱到，很多追究的太深，不利于初学者建立概念！有了这个的基础之后，再去看相关著作或者论文，肯定得心应手。

台大林轩田的《机器学习基石》和《机器学习技法》公开课，很适合入门，算法基本都是从function fitting和最优化的角度来讲，很少涉及统计，作业的理论题有一定难度。

posted on 2015-03-21 12:40 nangeblog 阅读(1083) 评论(0) 编辑收藏举报