07 2018 档案

摘要:本篇介绍了异常点检测相关的知识 更多内容参考 "机器学习&深度学习" 我感觉这篇整理的很好很用心,可以详细参考: https://blog.csdn.net/Snail_Moved_Slowly/article/details/78826088 什么是异常点检测?比如针对飞机的引擎做测试,x1代表温 阅读全文
posted @ 2018-07-31 20:59 xingoo 阅读(1146) 评论(0) 推荐(0) 编辑
摘要:本章重点讲述了降维方法以及其中最主要的PCA主成分分析的原理、使用 更多内容参考 "机器学习&深度学习" 降维的作用:数据压缩与可视化 降维的第一个作用就是进行数据的压缩,解决磁盘和计算的问题。比如把二维数据降维到一维: 或者数据从三维降维到2维。 降维的另一个作用就是进行可视化,比如我们的数据有很 阅读全文
posted @ 2018-07-30 20:18 xingoo 阅读(878) 评论(0) 推荐(0) 编辑
摘要:本章讲述的是一个复杂的机器学习系统,通过它可以看到机器学习的系统是如何组装起来的;另外也说明了一个复杂的流水线系统如何定位瓶颈与分配资源。 更多内容参考 "机器学习&深度学习" OCR的问题就是根据图片识别图片中的文字: 这种OCR识别的问题可以理解成三个步骤: 1. 文本检测 2. 字符切分 3. 阅读全文
posted @ 2018-07-26 20:34 xingoo 阅读(1468) 评论(0) 推荐(0) 编辑
摘要:本章讲述的是第一个无监督的机器学习算法,在无监督的算法中,样本数据只有特征向量,并没有标注的y值。比如聚类算法,它可以用在市场分类、社交网络分析、天体数据分析等等。 更多内容参考 "机器学习&深度学习" 在做聚类时,最简单的算法就是k means,一般的流程是: 1. 首先随机选择k个聚类中心点 2 阅读全文
posted @ 2018-07-25 21:25 xingoo 阅读(999) 评论(0) 推荐(0) 编辑
摘要:本章主要围绕机器学习的推荐实践过程以及评测指标,一方面告诉我们如何优化我们的模型;另一方面告诉我们对于分类的算法,使用精确率和召回率或者F1值来衡量效果更佳。最后还强调了下,在大部分的机器学习中,训练样本对模型的准确率都有一定的影响。 更多内容参考 "机器学习&深度学习" 机器学习最佳实践 针对垃圾 阅读全文
posted @ 2018-07-24 20:14 xingoo 阅读(696) 评论(0) 推荐(0) 编辑
摘要:本篇讲述了在机器学习应用时,如何进行下一步的优化。如训练样本的切分验证?基于交叉验证的参数与特征选择?在训练集与验证集上的学习曲率变化?在高偏差或者高方差时如何进行下一步的优化,增加训练样本是否有效? 更多内容参考 "机器学习&深度学习" 如果已经创建好了一个机器学习的模型,当我们训练之后发现还存在 阅读全文
posted @ 2018-07-23 20:45 xingoo 阅读(748) 评论(0) 推荐(0) 编辑
摘要:本篇讲述了神经网络的误差反向传播以及训练一个神经网络模型的流程 更多内容参考 "机器学习&深度学习" 神经网络可以理解为两个过程:信号的正向传播和误差的反向传播。在正向的传播过程中,计算方法为Sj=wij xi+bj,其中i是样本、j是层数。然后xj=f(Sj),f为激活函数。引入激活函数的原因是可 阅读全文
posted @ 2018-07-22 15:21 xingoo 阅读(605) 评论(0) 推荐(0) 编辑
摘要:本章讲述了神经网络的起源与神经元模型,并且描述了前馈型神经网络的构造。 更多内容参考 "机器学习&深度学习" 在传统的线性回归或者逻辑回归中,如果特征很多,想要手动组合很多有效的特征是不现实的;而且处理这么大的特征数据量,计算上也很复杂。 神经网络最开始起源于生物信息中的大脑,在上世纪80 90年代 阅读全文
posted @ 2018-07-20 23:30 xingoo 阅读(708) 评论(0) 推荐(0) 编辑
摘要:python基础 图像基础 图像的主要用途:分类、目标检测、图像分割、图像描述、图像生成 相关的组件:OpenCV、Tensorflow、Keras 图像的预处理:平滑与去噪——高斯滤波、中值滤波、曲率驱动滤波 图像的预处理:图像锐化 图像的预处理:边缘检测算子——Sobel、canny、拉普拉斯 阅读全文
posted @ 2018-07-20 17:38 xingoo 阅读(2836) 评论(0) 推荐(1) 编辑
摘要:本章讲述了机器学习中如何解决过拟合问题——正则化。讲述了正则化的作用以及在线性回归和逻辑回归是怎么参与到梯度优化中的。 更多内容参考 "机器学习&深度学习" 在训练过程中,在训练集中有时效果比较差,我们叫做欠拟合;有时候效果过于完美,在测试集上效果很差,我们叫做过拟合。因为欠拟合和过拟合都不能良好的 阅读全文
posted @ 2018-07-19 21:17 xingoo 阅读(1155) 评论(0) 推荐(0) 编辑
摘要:本章主要讲解了逻辑回归相关的问题,比如什么是分类?逻辑回归如何定义损失函数?逻辑回归如何求最优解?如何理解决策边界?如何解决多分类的问题? 更多内容参考 "机器学习&深度学习" 有的时候我们遇到的问题并不是线性的问题,而是分类的问题。比如判断邮件是否是垃圾邮件,信用卡交易是否正常,肿瘤是良性还是恶性 阅读全文
posted @ 2018-07-18 20:52 xingoo 阅读(1860) 评论(0) 推荐(0) 编辑
摘要:本篇主要讲的是多变量的线性回归,从表达式的构建到矩阵的表示方法,再到损失函数和梯度下降求解方法,再到特征的缩放标准化,梯度下降的自动收敛和学习率调整,特征的常用构造方法、多维融合、高次项、平方根,最后基于正规方程的求解。 更多内容参考 "机器学习&深度学习" 在平时遇到的一些问题,更多的是多特征的 阅读全文
posted @ 2018-07-16 23:23 xingoo 阅读(812) 评论(0) 推荐(0) 编辑
摘要:更多内容参考 "机器学习&深度学习" 矩阵的表示 矩阵的索引 向量的表示 矩阵的加法 矩阵与实数的乘法 矩阵的表达式 矩阵与向量的乘法 矩阵与矩阵的乘法 矩阵特性——不满足交换律 矩阵特性——满足结合律 单位矩阵 矩阵的逆 矩阵的转置 阅读全文
posted @ 2018-07-15 10:02 xingoo 阅读(640) 评论(0) 推荐(0) 编辑
摘要:HBase是以Region为最小的存储和负载单元(这里可不是HDFS的存储单元),因此Region的负载管理,关系到了数据读写的性能。先抛开Region如何切分不说,看看Region是如何分配到各个RegionServer的吧。 更多内容参考—— "我的大数据学习之路" Region在HBase中的 阅读全文
posted @ 2018-07-12 18:47 xingoo 阅读(3792) 评论(0) 推荐(0) 编辑
摘要:无论是ICF基于物品的协同过滤、UCF基于用户的协同过滤、基于内容的推荐,最基本的环节都是计算相似度。如果样本特征维度很高或者的维度很大,都会导致无法直接计算。设想一下100w 100w的二维矩阵,计算相似度怎么算? 更多内容参考—— "我的大数据学习之路——xingoo" 在spark中RowMa 阅读全文
posted @ 2018-07-11 21:54 xingoo 阅读(4010) 评论(1) 推荐(0) 编辑
摘要:第一章讲述了基本的机器学习的概念以及分类,这里从单变量的线性回归入手,吴恩达讲解了机器学习中的几个重要因素,如模型、损失函数、优化方法等 更多内容参考 "机器学习&深度学习" 首先以房价预测入手: | 房子的面积 | 每平米的房价 | | : : | : : | |2104 | 460| | 141 阅读全文
posted @ 2018-07-10 18:25 xingoo 阅读(1186) 评论(0) 推荐(0) 编辑
摘要:在阅读spark mllib源码的时候,发现一个出镜率很高的函数——aggregate和treeAggregate,比如matrix.columnSimilarities()中。为了好好理解这两个方法的使用,于是整理了本篇内容。 由于treeAggregate是在aggregate基础上的优化版本, 阅读全文
posted @ 2018-07-09 20:33 xingoo 阅读(1419) 评论(0) 推荐(1) 编辑
摘要:机器学习目前已经应用在很多领域,比如网页搜索、垃圾邮件过滤、点击率预测、生物信息、无人驾驶、无人机、手写体识别、自然语言处理、计算机视觉。 更多内容参考 "机器学习&深度学习" 什么是机器学习 1 机器学习一些比较难以变成的能力——Arthur Samuel 2 通过给定任务T以及性能度量P以及经验 阅读全文
posted @ 2018-07-08 18:09 xingoo 阅读(1401) 评论(0) 推荐(0) 编辑
摘要:Spark MLlib里面提供了几种基本的数据类型,虽然大部分在调包的时候用不到,但是在自己写算法的时候,还是很需要了解的。MLlib支持单机版本的local vectors向量和martix矩阵,也支持集群版本的matrix矩阵。他们背后使用的都是ScalaNLP中的Breeze。 更多内容参考 阅读全文
posted @ 2018-07-07 15:11 xingoo 阅读(7063) 评论(0) 推荐(1) 编辑
摘要:最近在用Spark MLlib进行特征处理时,对于StringIndexer和IndexToString遇到了点问题,查阅官方文档也没有解决疑惑。无奈之下翻看源码才明白其中一二...这就给大家娓娓道来。 更多内容参考 "我的大数据学习之路" 文档说明 StringIndexer 字符串转索引 Str 阅读全文
posted @ 2018-07-05 21:03 xingoo 阅读(4014) 评论(0) 推荐(1) 编辑
摘要:这两年AI很火热,各种无人驾驶、机器人、无人机层出不穷,新零售也是AI的一个很热的方向。AI与新零售的结合现在也有不少案例了,比如京东X无人超市、超嗨的智能购物车等等。在大型百货商场或者超市,有一个很典型的场景就是室内导航,比如查询一个你不知道具体位置的品牌店铺、寻找一个不知道摆放在哪的商品。本篇就 阅读全文
posted @ 2018-07-03 18:07 xingoo 阅读(3882) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示