随笔 - 480  文章 - 0 评论 - 45 阅读 - 73万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

01 2019 档案
机器学习入门-文本特征-word2vec词向量模型 1.word2vec(进行word2vec映射编码)2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
摘要:函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp 阅读全文
posted @ 2019-01-27 12:26 python我的最爱 阅读(5731) 评论(0) 推荐(0) 编辑
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
摘要:函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component 阅读全文
posted @ 2019-01-27 00:28 python我的最爱 阅读(4467) 评论(0) 推荐(0) 编辑
机器学习入门-文本数据-使用聚类增加文本的标签属性
摘要:通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 阅读全文
posted @ 2019-01-26 23:43 python我的最爱 阅读(1507) 评论(0) 推荐(0) 编辑
机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)
摘要:函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 阅读全文
posted @ 2019-01-26 21:40 python我的最爱 阅读(8209) 评论(0) 推荐(0) 编辑
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)
摘要:TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 阅读全文
posted @ 2019-01-26 19:54 python我的最爱 阅读(954) 评论(0) 推荐(0) 编辑
机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型
摘要:函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe 阅读全文
posted @ 2019-01-26 19:37 python我的最爱 阅读(5198) 评论(0) 推荐(1) 编辑
机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
摘要:函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 阅读全文
posted @ 2019-01-26 18:50 python我的最爱 阅读(2070) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-时间特征处理
摘要:我们可以将一连串的时间特征进行拆分,比如:2015-03-08 10:30:00.360000+00:00, 我们可以将其转换为日期类型,然后从里面提取年,月,日等时间信息 对于一些hour,month等信息,我们也可以使用pd.cut将hour信息按照时刻转换为离散数据,如morning,afte 阅读全文
posted @ 2019-01-26 10:05 python我的最爱 阅读(2696) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-对数据进行log变化
摘要:对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布 因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布 进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化 代码: 第一步: 阅读全文
posted @ 2019-01-25 22:27 python我的最爱 阅读(6908) 评论(1) 推荐(1) 编辑
机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分,生成新的特征)
摘要:函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画出图形中的竖线 3. pd.qcut(feature, cut_list, labels) 用于对特征进行 阅读全文
posted @ 2019-01-25 22:05 python我的最爱 阅读(1387) 评论(0) 推荐(2) 编辑
机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
摘要:函数说明: 1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图 对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化 就好比:我们可以将0-9岁用0表示 10-19用1表示 20-29用2表示 ... 下面我们对一个年龄 阅读全文
posted @ 2019-01-25 19:44 python我的最爱 阅读(1742) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)
摘要:函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2,即^2, interaction_only表示是否只使用a*b, include_ 阅读全文
posted @ 2019-01-25 19:13 python我的最爱 阅读(2760) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)
摘要:函数说明: 1. Binarizer(threshold=0.9) 将数据进行二值化,threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征:存在0还有其他的一些数 二值化指的是:将大于0的特征使用1表示,将等于0的特征还是用0表示 对于二值化操作:使用两种方法 第一 阅读全文
posted @ 2019-01-25 18:32 python我的最爱 阅读(1387) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
摘要:1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd 阅读全文
posted @ 2019-01-25 16:30 python我的最爱 阅读(1298) 评论(0) 推荐(0) 编辑
机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)
摘要:使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合 在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数组合,进行参数的微调 1. RandomedSearchCV(estimator=rf, param 阅读全文
posted @ 2019-01-24 19:49 python我的最爱 阅读(792) 评论(0) 推荐(0) 编辑
机器学习入门-随机森林预测气温-减少特征-研究时间和精度的关系
摘要:我们进行了两部分的实验: 1:提取特征重要性之和大于95%的前5个特征,进行结果的预测,并统计时间 直接使用特征进行结果的预测,统计时间 2:在上述的基础上,研究了少量数据集所花的时间,以及精度的差异 代码: 第一步:数据读取 第二步:pd.dummies() 对文本标签进行one-hot编码 第三 阅读全文
posted @ 2019-01-24 16:35 python我的最爱 阅读(791) 评论(0) 推荐(0) 编辑
机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
摘要:在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性。 在这个博客中,我们将从两方面来研究数据对预测结果的影响 第一方面:特征不变,只增加样本的数据 第二方面:增加特征数,增加样本的数据 1.sns.pairplot 画出两个变量的关系图,用于研究变量之间的线性相关性,sns. 阅读全文
posted @ 2019-01-24 11:01 python我的最爱 阅读(1815) 评论(1) 推荐(0) 编辑
机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转
摘要:在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) # 将数据中的文字标签转换为one-hot编码形式,增加了特征的列数 3. rf.feature_i 阅读全文
posted @ 2019-01-23 22:33 python我的最爱 阅读(4869) 评论(2) 推荐(0) 编辑
机器学习入门-主成分分析(PCA)
摘要:主成分分析: 用途:降维中最常用的一种方法 目标:提取有用的信息(基于方差的大小) 存在的问题:降维后的数据将失去原本的数据意义 向量的内积:A*B = |A|*|B|*cos(a) 如果|B| = 1,那么A*B = |A| * cos(a) 即在B的方向上对A做投影 基变化: 如果向量为(3, 阅读全文
posted @ 2019-01-23 13:54 python我的最爱 阅读(726) 评论(0) 推荐(0) 编辑
机器学习入门-线性判别分析(LDA)1.LabelEncoder(进行标签的数字映射) 2.LinearDiscriminantAnalysis (sklearn的LDA模块)
摘要:1.from sklearn.processing import LabelEncoder 进行标签的代码编译 首先需要通过model.fit 进行预编译,然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi 阅读全文
posted @ 2019-01-21 23:48 python我的最爱 阅读(2774) 评论(0) 推荐(1) 编辑
机器学习入门-轮廓系数 聚类效果的评估
摘要:聚类评估:轮廓系数 计算样本到同簇其他样本的平均距离ai, ai越小,说明样本越应该被聚类到该簇 计算样本到其他簇样本的平均距离bi,这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1, 说明b(i) 远大于a(i), 说明分类 阅读全文
posted @ 2019-01-21 11:25 python我的最爱 阅读(894) 评论(0) 推荐(0) 编辑
多种聚类算法概述(BIRCH, DBSCAN, K-means, MEAN-SHIFT)
摘要:BIRCH:是一种使用树分类的算法,适用的范围是样本数大,特征数小的算法,因为特征数大的话,那么树模型结构就会要复杂很多 DBSCAN:基于概率密度的聚类方法:速度相对较慢,不适用于大型的数据,输入参数有r和k k-means:是通过不断更新聚类中心所进行的一种参数变化,需要输入的参数是需要聚成几类 阅读全文
posted @ 2019-01-21 11:19 python我的最爱 阅读(1196) 评论(0) 推荐(0) 编辑
机器学习入门-DBSCAN聚类算法
摘要:DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个点在半径r的范围内,如果存在k个值,那么这个点就成为核心对象 直接密度可达:若点p在q的邻域内,且q 阅读全文
posted @ 2019-01-21 10:42 python我的最爱 阅读(741) 评论(0) 推荐(0) 编辑
机器学习入门-K-means算法
摘要:无监督问题,我们手里没有标签 聚类:相似的东西聚在一起 难点:如何进行调参 K-means算法 需要制定k值,用来获得到底有几个簇,即几种类型 质心:均值,即向量各维取平均值 距离的度量: 欧式距离和余弦相似度 优化目标: min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最 阅读全文
posted @ 2019-01-19 12:27 python我的最爱 阅读(465) 评论(0) 推荐(0) 编辑
机器学习入门-贝叶斯构造LDA主题模型,构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).
摘要:1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文
posted @ 2019-01-19 00:23 python我的最爱 阅读(1522) 评论(0) 推荐(0) 编辑
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
摘要:1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac 阅读全文
posted @ 2019-01-19 00:09 python我的最爱 阅读(5543) 评论(0) 推荐(0) 编辑
机器学习入门-贝叶斯统计语料库的词频.groupby() collections
摘要:1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], 阅读全文
posted @ 2019-01-18 23:59 python我的最爱 阅读(539) 评论(0) 推荐(0) 编辑
机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建
摘要:1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入,根据词频做一个数字的映射,max_feature表示的是最大的特征数 需要先使用 阅读全文
posted @ 2019-01-18 23:49 python我的最爱 阅读(553) 评论(0) 推荐(0) 编辑
机器学习入门-贝叶斯垃圾邮件过滤(原理)
摘要:贝叶斯里面的参数原理 最大似然: 即最符合观测数据的最有优势,即p(D|h)最大 奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率 最大似然: 当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的 奥卡姆剃刀: 如果平面上有N个点,我们使用n 阅读全文
posted @ 2019-01-18 18:23 python我的最爱 阅读(2005) 评论(0) 推荐(0) 编辑
机器学习入门-贝叶斯拼写纠错实例
摘要:问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 阅读全文
posted @ 2019-01-18 17:51 python我的最爱 阅读(550) 评论(0) 推荐(0) 编辑
机器学习入门-贝叶斯算法(原理)
摘要:贝叶斯要解决的问题: 正向概率: 假设一个袋子里面有红球4个,黑球6个,那么从袋子里抽出红球的概率 逆向概率,假设我们不知道袋子里面黑白求的比例,一连抽取一个或多个球,观察取出球的颜色,来判断取出红球的概率 例子1 : 假设一个学校有40%的女生, 60%的男生,女生50%穿长裤, 50%穿短裤,男 阅读全文
posted @ 2019-01-18 17:13 python我的最爱 阅读(370) 评论(0) 推荐(0) 编辑
机器学习入门-集成算法(bagging, boosting, stacking)
摘要:目的:为了让训练效果更好 bagging:是一种并行的算法,训练多个分类器,取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法,根据前一次的结果,进行加权来提高训练效果 stacking; 是一种堆叠算法,第一步使用多个算法求出结果,再将结果作为特征输入到下一 阅读全文
posted @ 2019-01-17 13:16 python我的最爱 阅读(4077) 评论(0) 推荐(0) 编辑
机器学习入门-显示特征重要性的排序
摘要:根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性 阅读全文
posted @ 2019-01-17 10:31 python我的最爱 阅读(10259) 评论(0) 推荐(0) 编辑
机器学习入门-使用GridSearch进行网格参数搜索GridSeach(RandomRegressor(), param_grid, cv=3)
摘要:1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身, 第二个参数是传入的参数组合, cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索,比如参数为[1, 2, 3], [1, 2, 阅读全文
posted @ 2019-01-17 10:23 python我的最爱 阅读(1241) 评论(0) 推荐(0) 编辑
机器学习入门-决策树使用实例(代码)
摘要:from sklearn import tree from sklearn.cross_validation import train_test_split # 数据拆分 train_x, test_x, train_y, test_y = train_test_split(housing.data, housing.target, test_size=0.1, random_state=42... 阅读全文
posted @ 2019-01-17 09:48 python我的最爱 阅读(501) 评论(0) 推荐(0) 编辑
机器学习入门-决策树的可视化展示
摘要:from sklearn import tree from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() dtr = tree.Deci 阅读全文
posted @ 2019-01-17 09:35 python我的最爱 阅读(2015) 评论(0) 推荐(0) 编辑
机器学习入门-决策树算法
摘要:决策树:从根节点开始一步步到叶子节点,所有的数据最后都落到叶子节点里面,既可以用来做分类也可以用来做回归 树的组成: 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点,最终的决策结果 对于一些连续的变量来说,通常使用一刀切的方式。 决策树的训练与测试 训练阶段通过构造一棵树 阅读全文
posted @ 2019-01-15 21:00 python我的最爱 阅读(981) 评论(0) 推荐(0) 编辑
机器学习入门-数据下采样 np.random_choice
摘要:1. np.random_choice(array, len) 进行随机的数据选择,array表示抽取的对象,len表示抽取样本的个数 数据的下采样是对多的数据进行np.random.choice 随机的抽取,抽取出于少的样本相同的索引个数,将两组索引进行合并,从原始数据中重新取值 阅读全文
posted @ 2019-01-15 13:18 python我的最爱 阅读(1117) 评论(0) 推荐(0) 编辑
机器学习入门-信用卡欺诈数据案例
摘要:在前几个博客,我们将各个部分进行了拆分,现在写一个整体的代码 1.统计两种标签的个数,画直方图 2. 变量与标签的拆分, 训练集与测试集数据的拆分(train_test_split), 对训练数据进行下采样 3. 使用交叉验证进行超参数正则化因子的选择 KFold 4. 混淆矩阵的绘制,即准确度,召 阅读全文
posted @ 2019-01-15 13:14 python我的最爱 阅读(686) 评论(0) 推荐(0) 编辑
机器学习入门-数据过采样(上采样)1. SMOTE
摘要:from imblearn.over_sampling import SMOTE # 导入 overstamp = SMOTE(random_state=0) # 对训练集的数据进行上采样,测试集的数据不需要SMOTE_train_x, SMOTE_train_y = overstamp.fit_s 阅读全文
posted @ 2019-01-15 13:01 python我的最爱 阅读(5312) 评论(0) 推荐(0) 编辑
机器学习入门-概率阈值的逻辑回归对准确度和召回率的影响 lr.predict_proba(获得预测样本的概率值)
摘要:1.lr.predict_proba(under_text_x) 获得的是正负的概率值 在sklearn逻辑回归的计算过程中,使用的是大于0.5的是正值,小于0.5的是负值,我们使用使用不同的概率结果判定来研究概率阈值对结果的影响 从图中我们可以看出,阈值越小,被判为正的越多,即大于阈值的就是为正, 阅读全文
posted @ 2019-01-15 12:42 python我的最爱 阅读(9510) 评论(0) 推荐(0) 编辑
机器学习入门-混淆矩阵-准确度-召回率-F1score 1.itertools.product 2. confusion_matrix(test_y, pred_y)
摘要:1. itertools.product 进行数据的多种组合 intertools.product(range(0, 1), range(0, 1)) 组合的情况[0, 0], [0, 1], [1, 0], [1, 1] 2. confusion_matrix(test_y, pred_y) # 阅读全文
posted @ 2019-01-15 11:53 python我的最爱 阅读(1604) 评论(0) 推荐(0) 编辑
机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold, recall_score(召回率)
摘要:1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例, random_state 随机种子 2. KFold(l 阅读全文
posted @ 2019-01-15 10:45 python我的最爱 阅读(1207) 评论(0) 推荐(0) 编辑
机器学习入门-逻辑回归算法
摘要:梯度下降: 对theta1, theta2, theta3 分别求最快梯度下降的方向,然后根据给定的学习率,进行theta1, theta2, theta3的参数跟新 假定目标函数 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X) 梯度下降的策略分为 阅读全文
posted @ 2019-01-12 18:07 python我的最爱 阅读(472) 评论(0) 推荐(0) 编辑
机器学习入门-线性回归算法(原理)
摘要:数据:工资和年龄(2个特征) 目标:预测银行会贷款多少钱(标签) 考虑: 工资和年龄影响银行贷款,它们各自的影响大小(参数) x1, x2 表示的是两个特征(年龄, 工资) y 是银行最终会借我们多少钱 找到一条最合适线(一些高维点)来最好拟合我们的数据点 假设theta1是年龄的参数, theta 阅读全文
posted @ 2019-01-12 16:43 python我的最爱 阅读(346) 评论(0) 推荐(0) 编辑
机器学习入门-Knn算法
摘要:knn算法不需要进行训练, 耗时,适用于多标签分类情况 1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离、 2. 将求得的欧式距离进行降序排序,取前n_个 3. 计算这前n_个的y值的平均或者(类别),获得测试数据的预测值 4.根据测试数据的实际值和测试数据的预测值计算当前的rmse 阅读全文
posted @ 2019-01-11 14:37 python我的最爱 阅读(668) 评论(0) 推荐(0) 编辑
可视化库-seaborn-热力图(第五天)
摘要:1. 画一个基本的热力图, 通过热力图用来观察样本的分布情况 2. 通过vmin 和 vmax设置热力图的区间 3.center=0 对于有正有负的数据而言颜色差异更大 4. 取出三个特征进行热力图的绘制figures.pivot() 第三个属性表示热力图上实际的值 5. linewidth 使得格 阅读全文
posted @ 2019-01-09 19:55 python我的最爱 阅读(14843) 评论(0) 推荐(1) 编辑
可视化库-seaborn-Facetgrid(第五天)
摘要:1. sns.Facetgrid 画一个基本的直方图 2 . 添加sns.Facetgrid属性hue,画散点图 3. 使用color='0.1'来定义颜色, margin_titles=True把标题分开, fit_reg是否画拟合曲线,sns.regplot画回归图 4. 绘制条形图,同时使用C 阅读全文
posted @ 2019-01-09 19:31 python我的最爱 阅读(1595) 评论(0) 推荐(0) 编辑
可视化库-seaborn-多变量分析绘图(第五天)
摘要:1. sns.stripplot(x='data', y='total_bill', data=tips, jitter=True), 画出竖形的样子,jitter=True为了使得数据尽量分开 2. sns.swarmplot画出圣诞树的样子,hue='sex' 加入一种新的分类属性 3.绘制盒图 阅读全文
posted @ 2019-01-09 17:00 python我的最爱 阅读(921) 评论(0) 推荐(0) 编辑
可视化库-seaborn-回归分析绘图(第五天)
摘要:1. sns.regplot() 和 sns.lmplot() 绘制回归曲线 2. 对于离散的变量来说,可以添加x_jitter产生随机的偏移 阅读全文
posted @ 2019-01-09 16:25 python我的最爱 阅读(522) 评论(0) 推荐(0) 编辑
可视化库-seaborn-单变量绘图(第五天)
摘要:1. sns.distplot 画直方图 2. 查看数据分布情况, 画出概率密度曲线 fit=stats.gamma 3.sns.jointplot() #绘制带直方图的散点图,对于sns最好是转换为df形式 4.sns.jointplot(kind='hex') # 画出散点图的分布颜色的图 5. 阅读全文
posted @ 2019-01-09 16:05 python我的最爱 阅读(420) 评论(0) 推荐(0) 编辑
可视化库-seaborn-调色板(第五天)
摘要:1. 基础的调色板的演示 color_palette() 设置传入的任何颜色,不传使用默认颜色,set_palette() 设置所有图的颜色# 6种主题 2. 圆形画板 # 使用sns.color_palette('hls', 8) 来设置, 'hls'表示颜色空间, 8表示颜色的个数 3. pat 阅读全文
posted @ 2019-01-09 13:52 python我的最爱 阅读(1737) 评论(0) 推荐(0) 编辑
可视化库-seaborn-布局风格设置(第五天)
摘要:1. sns.set_style() 进行风格设置, sns.set() 进行设置的重置, 五种风格 2. 使用sns.boxplot 绘制盒图 3. sns.despine(left=True) 去除左边的框图 4. 风格细节设置, sns.violinplot画小提琴图, despine(off 阅读全文
posted @ 2019-01-09 12:25 python我的最爱 阅读(1308) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-Pandas与sklearn结合(第四天)
摘要:1. 计算每一种的比例的百分比 2. 通过pd将数据导入,进行缺失值补充,画出特征的PCA图 阅读全文
posted @ 2019-01-08 17:23 python我的最爱 阅读(465) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-饼图与布局(第四天)
摘要:1。 画出一个基本的饼图,通过plt.pie() 2. 设置子图布局,通过plt.subplot2grid((3, 3), (0, 0)) 3. 在一个大图里面嵌套一个小图, 通过添加一个坐标系来完成 fig.add_axes([left, bottom, width, height]) 4. in 阅读全文
posted @ 2019-01-08 16:33 python我的最爱 阅读(1571) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-3D图(第四天)
摘要:1. 画三维图片图 axes = Axes3D(fig)这一步将二维坐标转换为三维坐标,axes.plot_surface() 2. 构造三维坐标系的两种方法, 同时画三维曲线图ax=fig.add_subplot(111, projection='3d') ax = fig.gca(project 阅读全文
posted @ 2019-01-08 15:15 python我的最爱 阅读(556) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-散点图(第四天)
摘要:1. 画基本的散点图 plt.scatterdata[:, 0], data[:, 1], marker='o', color='r', label='class1', alpha=0.4) np.random.multivariate_normal 根据均值和协方差生成多行列表 2. 将散点图的文 阅读全文
posted @ 2019-01-08 13:29 python我的最爱 阅读(539) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-直方图(第四天)
摘要:1.plt.hist(array, bins, color) # array表示数值, bins表示的是bin的范围 2. 将两个直方图放在一张图上 阅读全文
posted @ 2019-01-08 12:55 python我的最爱 阅读(260) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-盒图(第四天)
摘要:盒图由五个数值点组成,最小观测值,下四分位数,中位数,上四分位数,最大观测值 IQR = Q3 - Q1 Q3表示上四分位数, Q1表示下四分位数,IQR表示盒图的长度 最小观测值 min =Q1 - 1.5*IQR 最大观测值 max=Q3 + 1.5*IQR , 大于最大值或者小于最小值就是离群 阅读全文
posted @ 2019-01-08 12:30 python我的最爱 阅读(4914) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib-条形图(第四天)
摘要:1.画两个条形图,bar和barh, 同时axes[0].axhline画一条横线,axes[1].axvline画一条竖线 2.根据条形图y的大小设置每个条形图的颜色 3.fill_between 进行填充操作, .consum 表示的是进行累加操作,将前一个值累加到当前值 4. fill_bet 阅读全文
posted @ 2019-01-08 10:46 python我的最爱 阅读(3129) 评论(0) 推荐(0) 编辑
可视化库-Matplotlib基础设置(第三天)
摘要:1.画一个基本的图 2. 画多条直线 3. linewidth指定线条的宽度,marker='o', markerfacecolor表示mark颜色,markersize # 表示标志物的大小 4. plt.setp(line, color='r', linewidth=2.0, alpha=0.5 阅读全文
posted @ 2019-01-07 21:47 python我的最爱 阅读(590) 评论(0) 推荐(1) 编辑
np归纳总结(全)第一天
摘要:1.概述 1.np.array() # 将列表转换为数组 2..shape # 打印矩阵的维度, 也可以使用np.shape 2.array 结构 3.dtype 打印数组的数据类型 4. .itemsize # 判断数组中每一个数字所占的字节数 5. .size # 打印出数组中的元素个数, 不关 阅读全文
posted @ 2019-01-04 19:12 python我的最爱 阅读(4400) 评论(2) 推荐(1) 编辑

点击右上角即可分享
微信分享提示