随笔档案「2021年1月」 - 你的深渊

模型的保存和加载

摘要：1 sklearn模型的保存和加载API from sklearn.externals import joblib 保存：joblib.dump(estimator, 'test.pkl') 加载：estimator = joblib.load('test.pkl') 2 线性回归的模型保存加载案例阅读全文

posted @ 2021-01-31 16:50 你的深渊阅读(281) 评论(0) 推荐(0)

架构师的工作内容——《架构之美》读后感之三

摘要：（1）开会沟通讨论：这个会可能是需求会，也有可能是设计评审会等。因为架构师需要针对软件需求中的业务场景和流程，功能性需求进行功能性架构设计。因此，沟通和讨论要占工作的很大一部分。（2）技术架构设计：当然如果不是资深架构或技术总监，那么未必会设计一套全新的架构，往往是在现有基础上改进，比如做扩容，分库阅读全文

posted @ 2021-01-31 12:23 你的深渊阅读(128) 评论(0) 推荐(0)

线性回归的改进-岭回归

摘要：1 API sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 具有l2正则化的线性回归 alpha:正则化力度，也叫 λ λ取值：0~1 1~10 solver:会根据数据阅读全文

posted @ 2021-01-30 22:59 你的深渊阅读(157) 评论(0) 推荐(0)

正则化线性模型

摘要：1 Ridge Regression (岭回归，又名 Tikhonov regularization) 岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）: 以达到在拟合数据的同时，使模型权重尽可能小的目的,岭回归代阅读全文

posted @ 2021-01-29 22:31 你的深渊阅读(216) 评论(0) 推荐(0)

欠拟合和过拟合

摘要：1 定义过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简阅读全文

posted @ 2021-01-28 21:12 你的深渊阅读(409) 评论(0) 推荐(0)

案例：波士顿房价预测

摘要：1 案例背景介绍数据介绍给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找 2 案例分析回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理。数据分割与标准化处理回归预测线性阅读全文

posted @ 2021-01-27 15:46 你的深渊阅读(551) 评论(0) 推荐(0)

线性回归api

摘要：sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化参数 fit_intercept：是否计算偏置属性 LinearRegression.coef_：回归系数 LinearRegression.intercept_：阅读全文

posted @ 2021-01-26 13:45 你的深渊阅读(93) 评论(0) 推荐(0)

梯度下降法介绍

摘要：1 全梯度下降算法（FG）计算训练集所有样本误差，对其求和再取平均值作为目标函数。权重向量沿其梯度相反的方向移动，从而使当前目标函数减少得最多。因为在执行每次更新时，我们需要在整个数据集上计算所有的梯度，所以批梯度下降法的速度会很慢，同时，批梯度下降法无法处理超出内存容量限制的数据集。批梯度下阅读全文

posted @ 2021-01-25 17:12 你的深渊阅读(225) 评论(0) 推荐(0)

线性回归的损失和优化

摘要：假设刚才的房子例子，真实的数据之间存在这样的关系：真实关系：真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率那么现在呢，我们随意指定一个关系（猜测）随机指定关系：预测房子价格 = 0.25×中心区域的距离阅读全文

posted @ 2021-01-24 16:41 你的深渊阅读(329) 评论(0) 推荐(0)

线性回归api

摘要：1 线性回归API sklearn.linear_model.LinearRegression() LinearRegression.coef_：回归系数 2 举例 2.1 步骤分析 1.获取数据集 2.数据基本处理（该案例中省略） 3.特征工程（该案例中省略） 4.机器学习 5.模型评估（该案例中阅读全文

posted @ 2021-01-23 18:21 你的深渊阅读(63) 评论(0) 推荐(0)

软件架构师应该具备哪些素质——《架构之美》读后感之二

摘要：第一：扎实的技术积累。软件行业中的不少架构师都是从程序员成长起来的，扎实的研发基础能让架构师的设计方案更具可行性。当然，并不是所有的架构师都需要掌握技术细节，随着目前软件行业的快速发展，不少架构师的关注点往往是方案的本身，所以目前行业中也有一部分架构师并不了解很多技术细节。第二：较强的学习能力。学阅读全文

posted @ 2021-01-23 17:02 你的深渊阅读(147) 评论(0) 推荐(0)

线性回归简介

摘要：1 线性回归应用场景房价预测销售额度预测贷款额度预测举例： 2 什么是线性回归 2.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多阅读全文

posted @ 2021-01-22 11:35 你的深渊阅读(367) 评论(0) 推荐(0)

案例2：预测facebook签到位置

摘要：1 项目描述本次比赛的目的是预测一个人将要签到的地方。为了本次比赛，Facebook创建了一个虚拟世界，其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集，您的任务将根据用户的位置，准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。阅读全文

posted @ 2021-01-21 14:51 你的深渊阅读(311) 评论(0) 推荐(0)

交叉验证，网格搜索

摘要：1 什么是交叉验证(cross validation) 交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。 1.1 分析我们之前知道数据分为训阅读全文

posted @ 2021-01-20 12:23 你的深渊阅读(348) 评论(0) 推荐(0)

鸢尾花种类预测—流程实现

摘要：案例：鸢尾花种类预测 2.1 数据集介绍 Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。关于数据集的具体介绍： 2.2 步骤分析 1.获取数据集 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估阅读全文

posted @ 2021-01-19 23:44 你的深渊阅读(352) 评论(0) 推荐(0)

特征工程-特征预处理

摘要：1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a represen 阅读全文

posted @ 2021-01-18 15:32 你的深渊阅读(205) 评论(0) 推荐(0)

鸢尾花种类预测--数据集

摘要：1 案例：鸢尾花种类预测 Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。关于数据集的具体介绍： 2 scikit-learn中数据集介绍 2.1 scikit-learn数据集API介绍 sklearn.datase 阅读全文

posted @ 2021-01-17 11:52 你的深渊阅读(512) 评论(0) 推荐(0)

kd树

摘要：问题导入：实现k近邻算法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。 k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。为了提高kNN搜索的阅读全文

posted @ 2021-01-16 12:34 你的深渊阅读(293) 评论(0) 推荐(0)

软件架构师的定义、分类和职责——《架构之美》读后感之一

摘要：IEEE在2004年4月公布的“IEEE Standard 1471”中，提出了IEEE自己对软件架构的定义:“软件系统架构是根据具有参考意义的实践而定义出来的。主要表述了一个系统的基本组织结构、基本组成构件和相互的关系。以及构件于外部环境间的关系。同时，软件系统架构为后续的设计和架构演化提供了指导阅读全文

posted @ 2021-01-15 17:00 你的深渊阅读(307) 评论(0) 推荐(0)

k值的选择

摘要：1 K值选择说明举例说明： K值过小：容易受到异常点的影响 k值过大：受到样本均衡的问题 K值选择问题，李航博士的一书「统计学习方法」上所说： 1) 选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同阅读全文

posted @ 2021-01-15 10:26 你的深渊阅读(853) 评论(0) 推荐(0)

距离度量

摘要：1 欧式距离(Euclidean Distance)：欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。举例: X=[[1,1],[2,2],[3,3],[4,4]]; 经计算得: d = 1.4142 2.8284 4.2426 1.4 阅读全文

posted @ 2021-01-14 15:25 你的深渊阅读(358) 评论(0) 推荐(0)

k近邻算法api初步使用

摘要：1 Scikit-learn工具介绍 Python语言的机器学习工具 Scikit-learn包括许多知名的机器学习算法的实现 Scikit-learn文档完善，容易上手，丰富的API 目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 安装好阅读全文

posted @ 2021-01-13 21:22 你的深渊阅读(118) 评论(0) 推荐(0)

K-近邻算法

摘要：K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover 阅读全文

posted @ 2021-01-12 15:14 你的深渊阅读(77) 评论(0) 推荐(0)

Anaconda安装配置及使用

摘要：![](https://img2020.cnblogs.com/blog/1660128/202101/1660128-20210111175430377-312422671.png) ![](https://img2020.cnblogs.com/blog/1660128/202101/1660128-20210111175502009-1946713443.png) ![](https://i 阅读全文

posted @ 2021-01-11 17:56 你的深渊阅读(84) 评论(0) 推荐(0)

你的深渊

代码改变世界

01 2021 档案

公告