随笔分类 - 机器学习
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天这篇是Pytorch专题第一篇文章。 大家好,由于我最近自己在学习Pytorch框架的运用,并且也是为了响应许多读者的需求,推出了这个Pytorch专题。由于这个专题是周末加更的,所以不能保证更新进度,我尽量和其他专题一样,每周一更。
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第25篇文章,我们一起来聊聊AdaBoost。 我们目前为止已经学过了好几个模型,光决策树的生成算法就有三种。但是我们每次进行分类的时候,每次都是采用一个模型进行训练和预测。我们日常在做一个决策的时候,往往会咨询好几个人
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 上次给大家推荐了免费的spark集群之后,就有很多小伙伴来问我有没有好的云GPU平台推荐。我一直没给大家推荐,主要原因是我常年使用Mac,对GPU配置了解不深,不过云GPU平台我倒是用过几个,今天就和大家来简单聊聊。 Colab 首先来介绍
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天这篇是机器学习专题的第24篇文章,我们来聊聊回归树模型。 所谓的回归树模型其实就是用树形模型来解决回归问题,树模型当中最经典的自然还是决策树模型,它也是几乎所有树模型的基础。虽然基本结构都是使用决策树,但是根据预测方法的不同也可以分为两
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是numpy专题的第四篇文章,numpy中的数组重塑与三元表达式。 首先我们来看数组重塑,所谓的重塑本质上就是改变数组的shape。在保证数组当中所有元素不变的前提下,变更数组形状的操作。比如常用的操作主要有两个,一个是转置,另外一个是
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法。 CART算法全称是Classification and regression tree,也就是分类回归树的意思。和之前介绍的ID3和C4.5一样,C
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是numpy专题的第三篇,我们来聊聊numpy当中的索引。 上篇的末尾其实我们简单地提到了索引,但是没有过多深入。没有过多深入的原因也很简单,因为numpy当中关于索引的用法实在是很多,并不是我们想的那样用一个下标去获取数据就完事了。
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第22篇文章,我们继续决策树的话题。 上一篇文章当中介绍了一种最简单构造决策树的方法——ID3算法,也就是每次选择一个特征进行拆分数据。这个特征有多少个取值那么就划分出多少个分叉,整个建树的过程非常简单。如果错过了上篇文
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习专题的第21篇文章,我们一起来看一个新的模型——决策树。 决策树的定义 决策树是我本人非常喜欢的机器学习模型,非常直观容易理解,并且和数据结构的结合很紧密。我们学习的门槛也很低,相比于那些动辄一堆公式的模型来说,实在是简单
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是Numpy专题的第二篇,我们来进入正题,来看看Numpy的运算。 上一篇文章当中曾经提到过,同样大小的数据,使用Numpy的运算速度会是我们自己写循环来计算的上百倍甚至更多。并且Numpy的API非常简单,通常只要简单几行代码就可
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 概率统计专题 的第六篇,我们来看看方差相关的概念。 方差的定义 方差在我们的日常生活当中非常常见,它主要是为了 提供样本离群程度的描述 。举个简单的例子,我们去买一包薯片,一般来说一袋薯片当中的数量是固定的。我们假设平均每袋当中
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习专题的第20篇文章,我们来看看FP growth算法。 这个算法挺冷门的,至少比Apriori算法冷门。很多数据挖掘的教材还会提一提Apriori,但是提到FP growth的相对要少很多。原因也简单,因为从功能的角度上来
阅读全文
摘要:当当当,我又开新坑了,这次的专题是Python机器学习中一个非常重要的工具包,也就是大名鼎鼎的numpy。 所以今天的文章是Numpy专题的第一篇。 俗话说得好,机器学习要想玩的溜,你可以不会写Python,但一定不能不会调库(大雾)。Numpy可以说是Python中最基础也是最重要的工具库了,要用
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习专题的第19篇文章,我们来看经典的Apriori算法。 Apriori算法号称是十大数据挖掘算法之一,在大数据时代威风无两,哪怕是没有听说过这个算法的人,对于那个著名的啤酒与尿布的故事也耳熟能详。但遗憾的是,随着时代的演进
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习专题的第18篇文章,我们来看看机器学习领域当中,非常重要的其他几个指标。 混淆矩阵 在上一篇文章当中,我们在介绍召回率、准确率这些概念之前,先讲了TP、FP、FN、和FP这几个值。我们再来简单地回顾一下,我们不能死记硬背这
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习真题的第17篇文章,我们来讲讲机器学习模型的评估。 在之前的文章当中我们已经介绍了好几个模型了,有朴素贝叶斯、KNN、KMeans、EM还有线性回归和逻辑回归。今天我们来和大家聊聊该怎么评估这些模型。 均方差 这个概念很简
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习的第16篇文章,我们来继续上周KD Tree的话题。 如果有没有看过上篇文章或者是最新关注的小伙伴,可以点击一下下方的传送门: 【硬核】机器学习与数据结构的完美结合——KD Tree 旋转不可行分析 上周我们实现了KD T
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习的第15篇文章,之前的文章当中讲了Kmeans的相关优化,还讲了大名鼎鼎的EM算法。有些小伙伴表示喜欢看这些硬核的,于是今天上点硬菜,我们来看一个机器学习领域经常用到的数据结构——KD Tree。 从线段树到KD树 在讲K
阅读全文
摘要:本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是 机器学习专题的第14篇 文章,我们来聊聊大名鼎鼎的EM算法。 EM算法的英文全称是 Expectation maximization algorithm,即最大期望算法,或者是期望最大化算法。EM算法号称是 十大机器学习算法之一 ,
阅读全文
摘要:本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是机器学习专题的第13篇文章,我们来看下Kmeans算法的优化。 在上一篇文章当中我们一起学习了Kmeans这个聚类算法,在算法的最后我们提出了一个问题:Kmeans算法虽然效果不错,但是每一次迭代都需要遍历全量的数据,一旦数据量过
阅读全文