摘要: 线性回归(正规方程求解,损失函数形式为最小二乘法) 案例: from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.preprocessing 阅读全文
posted @ 2021-05-26 15:21 纵横捭阖行 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 决策树的三种算法实现 当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似,我们就不去举例计算。 ID3 信息增益 最大的准则 C4.5 信息增益比 最大的准则 CART 分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的默认原则 优势:划分更加细致(从后面例子的树显示来理 阅读全文
posted @ 2021-05-26 13:30 纵横捭阖行 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 朴素? 假设:特征与特征之间是相互独立 贝叶斯公式(变式如下): P(B|A)=P(A|B)*P(B)/P(A) 应用场景: 文本分类 单词作为特征 拉普拉斯平滑系数: 目的:防止计算出的分类概率为0 计算出现 影院,支付宝,云计算 属于娱乐的概率?(未算分母P(A)) P(娱乐|影院,支付宝,云计 阅读全文
posted @ 2021-05-26 11:31 纵横捭阖行 阅读(49) 评论(0) 推荐(0) 编辑
摘要: KNN核心思想: 你的“邻居”来推断出你的类别 计算距离: 欧氏距离 曼哈顿距离 绝对值距离 明可夫斯基距离 如果取的最近的电影数量不一样?会是什么结果? k 值取得过小,容易受到异常点的影响 k 值取得过大,样本不均衡的影响(投票机制,少数服从多数,一般取奇数) 结合前面数据,分析K-近邻算法需要 阅读全文
posted @ 2021-05-26 10:52 纵横捭阖行 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 转换器 - 特征工程的父类 1 实例化 (实例化的是一个转换器类(Transformer)) 2 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) 标准化: (x - mean) / std fit_transform() fit() 计算 每一列的平均值、标准差 trans 阅读全文
posted @ 2021-05-26 10:03 纵横捭阖行 阅读(52) 评论(0) 推荐(0) 编辑