随笔分类 -  机器学习

机器学习算法与参数等
曼哈顿距离、欧拉距离、余弦距离等
摘要:最近刚好用到距离相关的知识,于是过来回顾记录一下 ~~~ 相信大家都非常熟悉欧拉公式了,从小到大使用的最多的距离公式,比如两点之间的距离、点到直线的距离等。 如今,在机器学习等领域,还有一些其他的公式也应用的非常广,例如曼哈顿距离、余弦距离、马氏距离等。 这些距离部分直观表示如下: 其中,每个距离都 阅读全文

posted @ 2020-04-17 19:43 落日峡谷 阅读(2912) 评论(1) 推荐(0) 编辑

轮盘赌算法
摘要:轮盘赌在遗传算法中应用的很多,效果也不错,而且它的思想很简单直观 —— 物竞天择、适者生存 —— 越强获得的资源越多 —— 在一个圆中,扇形的面积越大,圆中的点落在该扇形的概率越大。 其主要步骤是: 1. 计算每个个体被选中的概率p(在遗传算法中,先通过适应度函数计算适应度,然后根据适应度计算选择概 阅读全文

posted @ 2020-04-17 10:24 落日峡谷 阅读(7869) 评论(0) 推荐(0) 编辑

ROC曲线学习
摘要:ROC曲线:全称 Receiver Operating Characteristic曲线,即受试者工作特性曲线,在机器学习领域常用于判断分类器的好坏。 要了解ROC曲线,首先要了解该曲线的横纵坐标 —— FPR(1-特异度)和TPR(召回率或者灵敏度)。 1. 基本概念 —— 混淆矩阵 绘制混淆矩阵 阅读全文

posted @ 2020-04-06 19:50 落日峡谷 阅读(1343) 评论(0) 推荐(0) 编辑

Python计算皮尔逊 pearson相关系数
摘要:pearson相关系数:用于判断数据是否线性相关的方法。 注意:不线性相关并不代表不相关,因为可能是非线性相关。 Python计算pearson相关系数: 1. 使用numpy计算(corrcoef),以下是先标准化再求相关系数 import numpy as np import pandas as 阅读全文

posted @ 2020-03-31 21:04 落日峡谷 阅读(32498) 评论(0) 推荐(1) 编辑

Python数据标准化、归一化
摘要:在进行数据分析或者机器学习时,通常需要对数据进行预处理,其中主要的步骤就是数据标准化/归一化。 常用的数据标准化和归一化方法主要有: 1. 最大最小标准化 y=(x-min(x))/(max(x)-min(x)),x为一序列,即x={x1,x2,x3......},max(x)为最大值,min(x) 阅读全文

posted @ 2020-03-31 20:17 落日峡谷 阅读(7080) 评论(0) 推荐(0) 编辑

Word2Vec 计算词语之间的余弦相似度
摘要:python中常用的分析文档、计算词语相似度的包 —— Word2Vec函数;该函数在gensim.models.Word2Vec包内。 分析文本和计算相似度有几个步骤: 导入需要用到的库: # 导入第三包 import jieba import pandas as pd import gensim 阅读全文

posted @ 2020-02-22 14:41 落日峡谷 阅读(13028) 评论(0) 推荐(0) 编辑

sklearn.feature_extraction.text 的TfidfVectorizer函数
摘要:TfidfVectorizer函数主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可)。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长,这里只 阅读全文

posted @ 2019-12-06 21:12 落日峡谷 阅读(3975) 评论(0) 推荐(0) 编辑

sklearn.model_selection 的train_test_split方法和参数
摘要:train_test_split是sklearn中用于划分数据集,即将原始数据集划分成测试集和训练集两部分的函数。 from sklearn.model_selection import train_test_split 1. 其函数源代码是: def train_test_split(*array 阅读全文

posted @ 2019-12-06 19:46 落日峡谷 阅读(13010) 评论(0) 推荐(0) 编辑

sklearn的class_weight设置为'balanced'的计算方法
摘要:分类的时候,当不同类别的样本量差异很大时,很容易影响分类结果,因此要么每个类别的数据量大致相同,要么就要进行校正。 sklearn的做法可以是加权,加权就要涉及到class_weight和sample_weight,当不设置class_weight参数时,默认值是所有类别的权值为1。 在python 阅读全文

posted @ 2019-12-05 21:44 落日峡谷 阅读(21272) 评论(0) 推荐(1) 编辑

Python绘制混淆矩阵,汉字显示label
摘要:1. 在计算出混淆矩阵之后,想自己绘制图形(并且在图形上显示汉字),可用 #coding=utf-8 import matplotlib.pyplot as plt import numpy as np confusion = np.array(([91,0,0],[0,92,1],[0,0,95] 阅读全文

posted @ 2019-10-15 09:09 落日峡谷 阅读(17269) 评论(2) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示