随笔分类 - 机器学习
摘要:优点 解决分类问题,天然可以解决多分类问题 思想简单,效果强大 可以解决回归问题,距离最近的k个点的平均值,考虑上距离的话,可以使用加权平均,sklearn提供了KNeighborsRegressor 缺点 效率低下,m个特征n个样本,预测一个数据的时间复杂度为O(m * n) 可以使用树结构KD-
阅读全文
摘要:最小二乘法概述 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
阅读全文
摘要:超参数和模型参数 超参数是指运行机器学习算法之前要指定的参数 KNN算法中的K就是一个超参数 模型参数:算法过程中学习的参数 KNN算法没有模型参数 调参是指调超参数 如何寻找好的超参数 领域知识 经验数值 实验搜索 寻找最好的K 数据准备 from sklearn.neighbors import
阅读全文
摘要:介绍 机器学习是人工智能的一部分,而深度学习又是机器学习的一部分,机器学习主要分为监督学习,无监督学习,半监督学习,增强学习4种,监督学习主要有分类问题和回归问题。 什么是机器学习 可以理解为最终得到的就是函数f(x) 主要任务 分类 回归 分类任务 二分类 判断邮件是否是垃圾邮件 判断发放给客户信
阅读全文
摘要:简介 k近邻算法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。 它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数
阅读全文
摘要:简介 用Python做可视化展示是非常便捷的,现成的工具包有很多,不仅可以做成一个平面图,而且还可以交互展示。Matplotlib算是最老牌且使用范围最广的画图工具了。 常规绘图方法 import matplotlib.pyplot as plt import numpy as mp %matplo
阅读全文
摘要:简介 Pandas工具包是专门用作数据处理和分析的,其底层的计算其实都是由Numpy来完成,再把复杂的操作全部封装起来,使其用起来十分高效、简洁。在数据科学领域,无论哪个方向都是跟数据打交道,所以Pandas工具包是非常实用的。 数据预处理 import pandas as pd df = pd.r
阅读全文
摘要:简介 Anaconda 是Python的一个发行版,里面内置了很多工具,不用单独安装,Anaconda将Python和许多与科学计算相关的库捆绑在一起,形成了一个方便的科学计算环境,安装了Ananconda就相当于安装了Python外加这些模块和库。 相比Python增加的内容: Python(sh
阅读全文
摘要:简介 在Python数据科学领域,Numpy是用得最广泛的工具包之一,基本上所有任务都能看到它的影子。在数据处理上非常实用,并且其底层函数都设计得十分高效,可以快速地进行数值计算。基本上后续要用到的其他和数据处理相关的工具包(如sklearn机器学习建模工具包)都是以Numpy为底层的。 通常来说,
阅读全文
摘要:### 前言 在机器学习的算法训练数据前,一般要进行数据归一化,统一量纲。 以上图为例,样本间的距离被发现时间所主导,肿瘤大小就被忽略了。 将天换算成年之后,样本间的距离又被肿瘤大小所主导,发现时间被忽略了。 解决方法就是将所有数据映射到同一尺度。 ### 最值归一化 将数据映射到0-1之间,适用于
阅读全文