机器学习 - 随笔分类 - 落日峡谷

曼哈顿距离、欧拉距离、余弦距离等

摘要：最近刚好用到距离相关的知识，于是过来回顾记录一下 ~~~ 相信大家都非常熟悉欧拉公式了，从小到大使用的最多的距离公式，比如两点之间的距离、点到直线的距离等。如今，在机器学习等领域，还有一些其他的公式也应用的非常广，例如曼哈顿距离、余弦距离、马氏距离等。这些距离部分直观表示如下：其中，每个距离都阅读全文

posted @ 2020-04-17 19:43 落日峡谷阅读(2912) 评论(1) 推荐(0) 编辑

轮盘赌算法

摘要：轮盘赌在遗传算法中应用的很多，效果也不错，而且它的思想很简单直观 —— 物竞天择、适者生存 —— 越强获得的资源越多 —— 在一个圆中，扇形的面积越大，圆中的点落在该扇形的概率越大。其主要步骤是： 1. 计算每个个体被选中的概率p（在遗传算法中，先通过适应度函数计算适应度，然后根据适应度计算选择概阅读全文

posted @ 2020-04-17 10:24 落日峡谷阅读(7869) 评论(0) 推荐(0) 编辑

ROC曲线学习

摘要：ROC曲线：全称 Receiver Operating Characteristic曲线，即受试者工作特性曲线，在机器学习领域常用于判断分类器的好坏。要了解ROC曲线，首先要了解该曲线的横纵坐标 —— FPR（1-特异度）和TPR（召回率或者灵敏度）。 1. 基本概念 —— 混淆矩阵绘制混淆矩阵阅读全文

posted @ 2020-04-06 19:50 落日峡谷阅读(1343) 评论(0) 推荐(0) 编辑

Python计算皮尔逊 pearson相关系数

摘要：pearson相关系数：用于判断数据是否线性相关的方法。注意：不线性相关并不代表不相关，因为可能是非线性相关。 Python计算pearson相关系数： 1. 使用numpy计算（corrcoef），以下是先标准化再求相关系数 import numpy as np import pandas as 阅读全文

posted @ 2020-03-31 21:04 落日峡谷阅读(32498) 评论(0) 推荐(1) 编辑

Python数据标准化、归一化

摘要：在进行数据分析或者机器学习时，通常需要对数据进行预处理，其中主要的步骤就是数据标准化/归一化。常用的数据标准化和归一化方法主要有： 1. 最大最小标准化 y=(x-min(x))/(max(x)-min(x))，x为一序列，即x={x1,x2,x3......}，max(x)为最大值，min(x) 阅读全文

posted @ 2020-03-31 20:17 落日峡谷阅读(7080) 评论(0) 推荐(0) 编辑

Word2Vec 计算词语之间的余弦相似度

摘要：python中常用的分析文档、计算词语相似度的包 —— Word2Vec函数；该函数在gensim.models.Word2Vec包内。分析文本和计算相似度有几个步骤：导入需要用到的库： # 导入第三包 import jieba import pandas as pd import gensim 阅读全文

posted @ 2020-02-22 14:41 落日峡谷阅读(13028) 评论(0) 推荐(0) 编辑

sklearn.feature_extraction.text 的TfidfVectorizer函数

摘要：TfidfVectorizer函数主要用于，将文档（句子）等通过 tf-idf值来进行表示，也就是用一个tf-idf值的矩阵来表示文档（句子也可）。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长，这里只阅读全文

posted @ 2019-12-06 21:12 落日峡谷阅读(3975) 评论(0) 推荐(0) 编辑

sklearn.model_selection 的train_test_split方法和参数

摘要：train_test_split是sklearn中用于划分数据集，即将原始数据集划分成测试集和训练集两部分的函数。 from sklearn.model_selection import train_test_split 1. 其函数源代码是： def train_test_split(*array 阅读全文

posted @ 2019-12-06 19:46 落日峡谷阅读(13010) 评论(0) 推荐(0) 编辑

sklearn的class_weight设置为'balanced'的计算方法

摘要：分类的时候，当不同类别的样本量差异很大时，很容易影响分类结果，因此要么每个类别的数据量大致相同，要么就要进行校正。 sklearn的做法可以是加权，加权就要涉及到class_weight和sample_weight，当不设置class_weight参数时，默认值是所有类别的权值为1。在python 阅读全文

posted @ 2019-12-05 21:44 落日峡谷阅读(21272) 评论(0) 推荐(1) 编辑

Python绘制混淆矩阵，汉字显示label

摘要：1. 在计算出混淆矩阵之后，想自己绘制图形（并且在图形上显示汉字），可用 #coding=utf-8 import matplotlib.pyplot as plt import numpy as np confusion = np.array(([91,0,0],[0,92,1],[0,0,95] 阅读全文

posted @ 2019-10-15 09:09 落日峡谷阅读(17269) 评论(2) 推荐(0) 编辑

落日峡谷

随笔分类 - 机器学习

曼哈顿距离、欧拉距离、余弦距离等

轮盘赌算法

ROC曲线学习

Python计算皮尔逊 pearson相关系数

Python数据标准化、归一化

Word2Vec 计算词语之间的余弦相似度

sklearn.feature_extraction.text 的TfidfVectorizer函数

sklearn.model_selection 的train_test_split方法和参数

sklearn的class_weight设置为'balanced'的计算方法

Python绘制混淆矩阵，汉字显示label

公告

导航

统计

搜索

常用链接

我的标签

积分与排名

随笔分类 (171)

随笔档案 (150)

阅读排行榜

评论排行榜

推荐排行榜

最新评论