小小喽啰 - 博客园

2020年9月4日

摘要：函数语法： open(name[, mode[, buffering]]) 默认用法如下： open #<function io.open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd= 阅读全文

posted @ 2020-09-04 17:16 小小喽啰阅读(729) 评论(0) 推荐(0) 编辑

np.tile() 重复生成数组

摘要： np.tile(a,n) 功能是将a(a可以不是数组）重复n次，构成一个新的数组，n可以是int，或者是tuple 1.n是int from numpy import * a=[0,1,2] tile(a,2) #array([0, 1, 2, 0, 1, 2]) 2.n是tuple（i,j）反正阅读全文

posted @ 2020-09-04 15:22 小小喽啰阅读(672) 评论(0) 推荐(0) 编辑

KNN（K近邻法）算法原理

摘要：一、K近邻概述 k近邻法（k-nearest neighbor, kNN）是一种基本分类与回归方法（有监督学习的一种），KNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k（k一般不超过20）个最相邻的样本中的大多数属于某一个类别，则该样本也阅读全文

posted @ 2020-09-04 10:45 小小喽啰阅读(2945) 评论(0) 推荐(0) 编辑

class sklearn.neighbors.KNeighborsClassifier K近邻（KNN）参数详解

摘要： k近邻法（k-nearest neighbor, kNN）是一种基本分类与回归方法，其基本做法是：给定测试实例，基于某种距离度量找出训练集中与其最靠近的k个实例点，然后基于这k个最近邻的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这k个实例中出现最多的标记类别作为预测结果；在回归任务阅读全文

posted @ 2020-09-04 09:57 小小喽啰阅读(5300) 评论(0) 推荐(1) 编辑

2020年9月3日

建模常用的自定义函数(ks,auc等）

摘要： 1.统计拆分训练集测试集之后的分布 def summary(data_train, data_test, y): ''' 函数目标：统计数据拆分训练集和测试集之后的分布（如样本数量，坏账率之类的）变量： data_train:训练集（包括label） data_test:测试集（包括label), 阅读全文

posted @ 2020-09-03 17:43 小小喽啰阅读(1118) 评论(0) 推荐(0) 编辑

L1和L2正则化

摘要：一、损失函数的l1、l2正则化机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作 ℓ1-norm 和ℓ2-norm，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。 L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对阅读全文

posted @ 2020-09-03 16:11 小小喽啰阅读(384) 评论(0) 推荐(0) 编辑

||x|| 范数

摘要：经常会遇到一些函数表达式里面有|| ||，有的甚至带有上下标，不明白这个是什么意思，查阅资料才明白里面的意思，下面解释一些这几种用法 1.L1-norm（L1范数） X的 L1-norm 的定义为：两个向量或矩阵的 L1-norm 为在计算机视觉科学家眼中，它叫做绝对偏差和（Sum of A 阅读全文

posted @ 2020-09-03 15:21 小小喽啰阅读(1123) 评论(0) 推荐(1) 编辑

损失函数

摘要：一、损失函数和代价函数、目标函数的区别和练习在机器学习中，经常会碰到 Loss Function、Cost Function 和 Objective Function，这三个术语，我们要了解他们之间的区别和联系。（1）损失函数（Loss Function）通常是针对单个训练样本而言，给定一个模型阅读全文

posted @ 2020-09-03 12:18 小小喽啰阅读(1075) 评论(0) 推荐(0) 编辑

2020年9月2日

pd.Categorical.from_codes()用于类别替换

摘要：原来版本是pd.Factor，新版本换成了pd.Categorical.from_codes()，功能都一样；实例： pd.Categorical.from_codes(iris.target, iris.target_names) 原来的target是这样的： array([0, 0, 0, 0 阅读全文

posted @ 2020-09-02 18:46 小小喽啰阅读(1005) 评论(0) 推荐(1) 编辑

2020年9月1日

Random Forest随机深林集成算法

摘要：一、什么是随机深林随机森林（Random Forest，简称RF）就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们阅读全文

posted @ 2020-09-01 19:46 小小喽啰阅读(418) 评论(0) 推荐(0) 编辑