摘要:
本章主要围绕机器学习的推荐实践过程以及评测指标,一方面告诉我们如何优化我们的模型;另一方面告诉我们对于分类的算法,使用精确率和召回率或者F1值来衡量效果更佳。最后还强调了下,在大部分的机器学习中,训练样本对模型的准确率都有一定的影响。 更多内容参考 "机器学习&深度学习" 机器学习最佳实践 针对垃圾 阅读全文
摘要:
本篇讲述了在机器学习应用时,如何进行下一步的优化。如训练样本的切分验证?基于交叉验证的参数与特征选择?在训练集与验证集上的学习曲率变化?在高偏差或者高方差时如何进行下一步的优化,增加训练样本是否有效? 更多内容参考 "机器学习&深度学习" 如果已经创建好了一个机器学习的模型,当我们训练之后发现还存在 阅读全文
摘要:
本篇讲述了神经网络的误差反向传播以及训练一个神经网络模型的流程 更多内容参考 "机器学习&深度学习" 神经网络可以理解为两个过程:信号的正向传播和误差的反向传播。在正向的传播过程中,计算方法为Sj=wij xi+bj,其中i是样本、j是层数。然后xj=f(Sj),f为激活函数。引入激活函数的原因是可 阅读全文
摘要:
本章讲述了神经网络的起源与神经元模型,并且描述了前馈型神经网络的构造。 更多内容参考 "机器学习&深度学习" 在传统的线性回归或者逻辑回归中,如果特征很多,想要手动组合很多有效的特征是不现实的;而且处理这么大的特征数据量,计算上也很复杂。 神经网络最开始起源于生物信息中的大脑,在上世纪80 90年代 阅读全文
摘要:
python基础 图像基础 图像的主要用途:分类、目标检测、图像分割、图像描述、图像生成 相关的组件:OpenCV、Tensorflow、Keras 图像的预处理:平滑与去噪——高斯滤波、中值滤波、曲率驱动滤波 图像的预处理:图像锐化 图像的预处理:边缘检测算子——Sobel、canny、拉普拉斯 阅读全文
摘要:
本章讲述了机器学习中如何解决过拟合问题——正则化。讲述了正则化的作用以及在线性回归和逻辑回归是怎么参与到梯度优化中的。 更多内容参考 "机器学习&深度学习" 在训练过程中,在训练集中有时效果比较差,我们叫做欠拟合;有时候效果过于完美,在测试集上效果很差,我们叫做过拟合。因为欠拟合和过拟合都不能良好的 阅读全文
摘要:
本章主要讲解了逻辑回归相关的问题,比如什么是分类?逻辑回归如何定义损失函数?逻辑回归如何求最优解?如何理解决策边界?如何解决多分类的问题? 更多内容参考 "机器学习&深度学习" 有的时候我们遇到的问题并不是线性的问题,而是分类的问题。比如判断邮件是否是垃圾邮件,信用卡交易是否正常,肿瘤是良性还是恶性 阅读全文
摘要:
本篇主要讲的是多变量的线性回归,从表达式的构建到矩阵的表示方法,再到损失函数和梯度下降求解方法,再到特征的缩放标准化,梯度下降的自动收敛和学习率调整,特征的常用构造方法、多维融合、高次项、平方根,最后基于正规方程的求解。 更多内容参考 "机器学习&深度学习" 在平时遇到的一些问题,更多的是多特征的 阅读全文
摘要:
更多内容参考 "机器学习&深度学习" 矩阵的表示 矩阵的索引 向量的表示 矩阵的加法 矩阵与实数的乘法 矩阵的表达式 矩阵与向量的乘法 矩阵与矩阵的乘法 矩阵特性——不满足交换律 矩阵特性——满足结合律 单位矩阵 矩阵的逆 矩阵的转置 阅读全文
摘要:
HBase是以Region为最小的存储和负载单元(这里可不是HDFS的存储单元),因此Region的负载管理,关系到了数据读写的性能。先抛开Region如何切分不说,看看Region是如何分配到各个RegionServer的吧。 更多内容参考—— "我的大数据学习之路" Region在HBase中的 阅读全文