摘要: 系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 逻辑回归 算法介绍 今天我们一起来学习使用非常广泛的分类算法:逻辑回归,是的,你没有看错,虽然它名字里有回归,但是它确实是个分类算法,作为除了感知机以外,最最最简单的分类算法,下面我们把它与感知机对比来进行学习; 从决策边界上看 感知 阅读全文
posted @ 2021-06-24 16:05 HoLoong 阅读(563) 评论(1) 推荐(0) 编辑
摘要: 系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 算法介绍 今天我们来一起学习一个除了线性回归、多项式回归外最最最简单的回归算法:岭回归,如果用等式来介绍岭回归,那么就是:\(岭回归 = 多项式回归 + 惩罚项\),\(多项式回归 = 线性回归 + 多项式特征构建\),从上述等式可以 阅读全文
posted @ 2021-06-18 10:00 HoLoong 阅读(1710) 评论(1) 推荐(0) 编辑
摘要: 系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 算法介绍 今天我们来一起学习一个除了线性回归外最最最简单的回归算法:多项式回归; 从线性回归到多项式回归 事实上与线性回归相比,多项式回归没有增加任何需要推导的东西,唯一增加的是对原始数据进行多项式特征转换,这有点类似我们在非线性问题 阅读全文
posted @ 2021-06-17 09:55 HoLoong 阅读(706) 评论(1) 推荐(0) 编辑
摘要: 系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 算法介绍 前面两篇分别介绍了分类与回归问题中各自最简单的算法,有一点相同的是它们都是线性的,而实际工作中遇到的基本都是非线性问题,而能够处理非线性问题是机器学习有实用价值的基础; 首先,非线性问题在分类与回归中的表现是不同的,在回归问 阅读全文
posted @ 2021-06-15 15:20 HoLoong 阅读(1812) 评论(1) 推荐(0) 编辑
摘要: 系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 如果说感知机是最最最简单的分类算法,那么线性回归就是最最最简单的回归算法,所以这一篇我们就一起来快活的用两种姿势手撸线性回归吧; 算法介绍 线性回归通过超平面拟合数据点,经验误差一般使用MSE(均平方误差),优化方法为最小二乘法,算法 阅读全文
posted @ 2021-06-11 18:02 HoLoong 阅读(694) 评论(1) 推荐(0) 编辑
摘要: 系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 感知机(Perceptron)是最最最简单的机器学习算法(分类),同时也是深度学习中神经元的基础组件; 算法介绍 感知机与逻辑回归、SVM类似的是同样是构建一个分割超平面来实现对数据点的分类,不同点在于超平面的查找过程更加的简单粗暴, 阅读全文
posted @ 2021-06-11 11:59 HoLoong 阅读(683) 评论(1) 推荐(2) 编辑
摘要: 全部内容来源于《Python深度学习》,以练习为主,理论知识较少,掺杂有一些个人的理解,虽然不算很准确,但是胜在简单易懂,这本书是目前看到最适合没有深度学习经验的同学们入门的书籍了,不妨试试,该书作者:Francois Chollet,即Keras之父,该书译者:张亮; 相关内容以及代码已经在Kag 阅读全文
posted @ 2021-05-21 10:09 HoLoong 阅读(242) 评论(0) 推荐(1) 编辑
摘要: What is Pig Apache Pig是MapReduce的一个抽象,它是一个工具/平台(所以说它并不完全是一门语言),用于分析较大数据集,并将其表示为数据流; Pig通常与Hadoop一起使用,使用Pig进行数据处理、分析时,需要使用其提供的Pig Latin脚本语言编写相应脚本,这些脚本执 阅读全文
posted @ 2021-01-19 14:06 HoLoong 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 首先介绍下我的情况和需求,如果你跟我类似,那么这篇文章将很有帮助; 我之前的技术栈主要是Java、Python,机器学习方面主要用到是pandas、numpy、sklearn、scipy、matplotlib等等,因为工作需要使用spark,所以理所应当的开始学习pyspark; 之后一方面团队其他 阅读全文
posted @ 2020-10-20 15:48 HoLoong 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 该篇文档基于kaggle course,通过简单的理论介绍、程序代码、运行图以及动画等来帮助大家入门深度学习,既然是入门,所以没有太多模型推导以及高级技巧相关,都是深度学习中最基础的内容,希望大家看过之后可以自己动手基于Tensorflow或者Keras搭建一个处理回归或者分类问题的简单的神经网络模 阅读全文
posted @ 2020-10-14 19:25 HoLoong 阅读(2017) 评论(3) 推荐(0) 编辑
摘要: 机器学习可解释性分析 可解释性通常是指使用人类可以理解的方式,基于当前的业务,针对模型的结果进行总结分析; 一般来说,计算机通常无法解释它自身的预测结果,此时就需要一定的人工参与来完成可解释性工作; 目录: 是什么:什么叫可解释性; 为什么:为什么要对模型结果进行解释; 怎么做:如何有效的进行可解释 阅读全文
posted @ 2020-09-30 15:43 HoLoong 阅读(2266) 评论(1) 推荐(0) 编辑
摘要: Spark - Frequent Pattern Mining 官方文档:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html 挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步,这也是近些年数据挖掘领 阅读全文
posted @ 2020-09-29 17:31 HoLoong 阅读(724) 评论(1) 推荐(0) 编辑
摘要: Spark - Parquet 概述 Apache Parquet属于Hadoop生态圈的一种新型列式存储格式,既然属于Hadoop生态圈,因此也兼容大多圈内计算框架(Hadoop、Spark),另外Parquet是平台、语言无关的,这使得它的适用性很广,只要相关语言有对应支持的类库就可以用; Pa 阅读全文
posted @ 2020-09-29 16:27 HoLoong 阅读(4426) 评论(1) 推荐(1) 编辑
摘要: Spark - ML Tuning 官方文档:https://spark.apache.org/docs/2.2.0/ml-tuning.html 这一章节主要讲述如何通过使用MLlib的工具来调试模型算法和pipeline,内置的交叉验证和其他工具允许用户优化模型和pipeline中的超参数; 目 阅读全文
posted @ 2020-09-28 10:52 HoLoong 阅读(838) 评论(1) 推荐(0) 编辑
摘要: Spark - Clustering 官方文档:https://spark.apache.org/docs/2.2.0/ml-clustering.html 这部分介绍MLlib中的聚类算法; 目录: K-means: 输入列; 输出列; Latent Dirichlet allocation(LD 阅读全文
posted @ 2020-09-27 18:58 HoLoong 阅读(2258) 评论(1) 推荐(0) 编辑
摘要: Spark(3) - Extracting, transforming, selecting features 官方文档链接:https://spark.apache.org/docs/2.2.0/ml-features.html 概述 该章节包含基于特征的算法工作,下面是粗略的对算法分组: 提取: 阅读全文
posted @ 2020-09-25 12:13 HoLoong 阅读(1515) 评论(1) 推荐(0) 编辑
摘要: Spark Job-Stage-Task实例理解 基于一个word count的简单例子理解Job、Stage、Task的关系,以及各自产生的方式和对并行、分区等的联系; 相关概念 Job:Job是由Action触发的,因此一个Job包含一个Action和N个Transform操作; Stage:S 阅读全文
posted @ 2020-09-21 16:59 HoLoong 阅读(804) 评论(3) 推荐(1) 编辑
摘要: ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述 在这一部分,我们将要介绍ML Pipelines,它提供了基于DataFrame上统一的高等级API,可以帮助使用者创建和调试机器学习工作 阅读全文
posted @ 2020-09-17 18:30 HoLoong 阅读(2172) 评论(1) 推荐(1) 编辑
摘要: Android Path绘制的折线如何变得平滑 多个点可以连成一个折线,如何将折线的拟合处变为曲线,使得整个线看上去更加平滑呢? 分下来有以下三种实现方法: 方法1: Paint.setStrokeJoin(Paint.Join.ROUND) 这个方法可以将path中所有线段的Join方式设置为RO 阅读全文
posted @ 2020-06-10 18:10 HoLoong 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 动态规划求最短路径算法,与穷举法相比优点在于大大降低了时间复杂度; 假如从起点A到终点S的最短路径Road经过点B1,那么从起点A到B1的最短路径的终点就是B1,否则如果存在一个B2使得A到B2的距离小于B1,那么起点A到终点S的最短路径Road就不应该经过B1,而应该经过B2,这显示是矛盾的,证明 阅读全文
posted @ 2020-06-10 17:37 HoLoong 阅读(343) 评论(0) 推荐(0) 编辑