01 2021 档案
摘要:1 sklearn模型的保存和加载API from sklearn.externals import joblib 保存:joblib.dump(estimator, 'test.pkl') 加载:estimator = joblib.load('test.pkl') 2 线性回归的模型保存加载案例
阅读全文
摘要:(1)开会沟通讨论:这个会可能是需求会,也有可能是设计评审会等。因为架构师需要针对软件需求中的业务场景和流程,功能性需求进行功能性架构设计。因此,沟通和讨论要占工作的很大一部分。(2)技术架构设计:当然如果不是资深架构或技术总监,那么未必会设计一套全新的架构,往往是在现有基础上改进,比如做扩容,分库
阅读全文
摘要:1 API sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 具有l2正则化的线性回归 alpha:正则化力度,也叫 λ λ取值:0~1 1~10 solver:会根据数据
阅读全文
摘要:1 Ridge Regression (岭回归,又名 Tikhonov regularization) 岭回归是线性回归的正则化版本,即在原来的线性回归的 cost function 中添加正则项(regularization term): 以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代
阅读全文
摘要:1 定义 过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简
阅读全文
摘要:1 案例背景介绍 数据介绍 给定的这些特征,是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用,只需要使用这些特征。到后面量化很多特征需要我们自己去寻找 2 案例分析 回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。 数据分割与标准化处理 回归预测 线性
阅读全文
摘要:sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 参数 fit_intercept:是否计算偏置 属性 LinearRegression.coef_:回归系数 LinearRegression.intercept_:
阅读全文
摘要:1 全梯度下降算法(FG)计算训练集所有样本误差,对其求和再取平均值作为目标函数。 权重向量沿其梯度相反的方向移动,从而使当前目标函数减少得最多。 因为在执行每次更新时,我们需要在整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢,同时,批梯度下降法无法处理超出内存容量限制的数据集。 批梯度下
阅读全文
摘要:假设刚才的房子例子,真实的数据之间存在这样的关系: 真实关系:真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率 那么现在呢,我们随意指定一个关系(猜测) 随机指定关系:预测房子价格 = 0.25×中心区域的距离
阅读全文
摘要:1 线性回归API sklearn.linear_model.LinearRegression() LinearRegression.coef_:回归系数 2 举例 2.1 步骤分析 1.获取数据集 2.数据基本处理(该案例中省略) 3.特征工程(该案例中省略) 4.机器学习 5.模型评估(该案例中
阅读全文
摘要:第一:扎实的技术积累。软件行业中的不少架构师都是从程序员成长起来的,扎实的研发基础能让架构师的设计方案更具可行性。当然,并不是所有的架构师都需要掌握技术细节,随着目前软件行业的快速发展,不少架构师的关注点往往是方案的本身,所以目前行业中也有一部分架构师并不了解很多技术细节。 第二:较强的学习能力。学
阅读全文
摘要:1 线性回归应用场景 房价预测 销售额度预测 贷款额度预测 举例: 2 什么是线性回归 2.1 定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,多
阅读全文
摘要:1 项目描述 本次比赛的目的是预测一个人将要签到的地方。 为了本次比赛,Facebook创建了一个虚拟世界,其中包括10公里*10公里共100平方公里的约10万个地方。 对于给定的坐标集,您的任务将根据用户的位置,准确性和时间戳等预测用户下一次的签到位置。 数据被制作成类似于来自移动设备的位置数据。
阅读全文
摘要:1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 1.1 分析 我们之前知道数据分为训
阅读全文
摘要:案例:鸢尾花种类预测 2.1 数据集介绍 Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。关于数据集的具体介绍: 2.2 步骤分析 1.获取数据集 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估
阅读全文
摘要:1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a represen
阅读全文
摘要:1 案例:鸢尾花种类预测 Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。关于数据集的具体介绍: 2 scikit-learn中数据集介绍 2.1 scikit-learn数据集API介绍 sklearn.datase
阅读全文
摘要:问题导入: 实现k近邻算法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索。 这在特征空间的维数大及训练数据容量大时尤其必要。 k近邻法最简单的实现是线性扫描(穷举搜索),即要计算输入实例与每一个训练实例的距离。计算并存储好以后,再查找K近邻。当训练集很大时,计算非常耗时。 为了提高kNN搜索的
阅读全文
摘要:IEEE在2004年4月公布的“IEEE Standard 1471”中,提出了IEEE自己对软件架构的定义:“软件系统架构是根据具有参考意义的实践而定义出来的。主要表述了一个系统的基本组织结构、基本组成构件和相互的关系。以及构件于外部环境间的关系。同时,软件系统架构为后续的设计和架构演化提供了指导
阅读全文
摘要:1 K值选择说明 举例说明: K值过小: 容易受到异常点的影响 k值过大: 受到样本均衡的问题 K值选择问题,李航博士的一书「统计学习方法」上所说: 1) 选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同
阅读全文
摘要:1 欧式距离(Euclidean Distance): 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 举例: X=[[1,1],[2,2],[3,3],[4,4]]; 经计算得: d = 1.4142 2.8284 4.2426 1.4
阅读全文
摘要:1 Scikit-learn工具介绍 Python语言的机器学习工具 Scikit-learn包括许多知名的机器学习算法的实现 Scikit-learn文档完善,容易上手,丰富的API 目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 安装好
阅读全文
摘要:K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover
阅读全文
摘要:  ![](https://i
阅读全文