摘要:
建模工作就是从上述三个文件中对数据迚行加工,提取特征幵建立合适的模型,对贷后表现做预测。 阅读全文
摘要:
1.查询课程编号为“01”的课程比“02”的课程成绩高的所有学生的学号(重点) SELECT a.s_id,a.s_score FROM (SELECT * FROM score WHERE c_id='01') as a INNER JOIN (SELECT * FROM score WHERE 阅读全文
摘要:
, 分类模型评估: 二分类:标注分类只有两类的分类,一个类叫做二分类的正类,用1表示;另个一类叫做二分类的负类,用0表示。一般来说,正类是我们比较关注的类,比如:“员工是否离职”,离职的叫做正类,不离职的叫做负类。 注:有的时候0和1不是直接得到的,而是我们得到了一个数据在经过模型输出后,划分为正类 阅读全文
摘要:
分类和回归都属于监督学习,特点就是他们都有一个标注,而标注的存在就是给分类任务或者回归任务一个指引,告诉算法,具备什么样特征的数据是什么样的标注,也就是它叫什么名字,哪些数据是一样的,哪些数据是不一样的,都是通过标注来区分的。 无监督学习:没有标注,目的就是试图给这些数据加上标注,而打标注并不是随便 阅读全文
摘要:
线性回归: 把自变量叫特征,把因变量叫标注,只是这个标注是连续值,而不是离散值,如果多个变量间的关系用线性关系去考量,那就是线性回归;若果多个变量间用多项式关系去考量,那就是多项式回归。类似的,可以由多种回归方法,同一系列的样本,可以用线性回归去拟合; 同样,也可以用二次函数去拟合 那么,如何判断哪 阅读全文
摘要:
点学习:通过接收到的数据,归纳提取相同与不同 机器学习: 让计算机以数据为基础,进行归纳与总结 模型:数据解释现象的系统 机器学习: 1.监督学习(机器学习的过程有标注:相当于告诉模型,在什么样的数据特征下应该输出什么样的结果,机器学习的任务就是提炼出输入与标注间的关系,并进行预测) 根据标注是离散 阅读全文
摘要:
特征工程 , , 异常值(空值)处理 空值、重复值、四分位数上下1.5倍到3倍边界范围以外、业务实际情况下不允许出现的值 集中值:均值,中位数,众数等 , , , 特征选择: , , 特征变换: 对指化:将数据进行对数化和指数化的过程 指数化:将一个数进行指数变换的过程,指数的底数一般取自然底数e 阅读全文
摘要:
, , , , , , 阅读全文
摘要:
梯度下降法:(Gradient Descent),梯度法用来求一个函数的最优值 , 如果第一个点导数不为零的话,那么这点肯定不在极值点上! 有时候一上来η的取值不是很准确,需要通过调参的方式来找到适合的η值 , , import numpy as np import matplotlib.pyplo 阅读全文
摘要:
1.解决回归问题 2.思想简单,实现容易 3.许多强大的非线性模型的基础 4.结果具有很好的可解释性 5.蕴含机器学习中的很多重要思想 所谓的建模的过程,其实就是找到一个模型最大程度的拟合我们的数据。在线性回归算法中,这个模型就是一个直线方程,所谓的最大拟合我们的数据,其实本质是找到一个函数 ,在这 阅读全文