随笔档案「2019年1月」 - python我的最爱

机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)

摘要：函数说明： 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明：corp 阅读全文

posted @ 2019-01-27 12:26 python我的最爱阅读(5809) 评论(0) 推荐(0)

机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)

摘要：函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型，将文本分成不同的主题参数说明:n_topics 表示分为多少个主题， max_iters表示最大的迭代次数， random_state 表示随机种子 2. LDA.component 阅读全文

posted @ 2019-01-27 00:28 python我的最爱阅读(4546) 评论(0) 推荐(0)

机器学习入门-文本数据-使用聚类增加文本的标签属性

摘要：通过对特征做一个kmeans聚类，将聚类的结果做为文本的标签值，可以使得样本的特征更多我们从sklearn.cluster中导入Kmeans建立模型进行聚类代码：第一步：使用Dataframe格式化数据和使用数据格式化数据第二步：对字符串进行分词和去除停用词，并使用' '.join完成连接阅读全文

posted @ 2019-01-26 23:43 python我的最爱阅读(1549) 评论(0) 推荐(0)

摘要：函数说明： 1. cosing_similarity(array) 输入的样本为array格式，为经过词袋模型编码以后的向量化特征，用于计算两两样本之间的相关性当我们使用词频或者TFidf构造出词袋模型，并对每一个文章内容做词统计以后，我们如果要判断两个文章内容的相关性，这时候我们需要对数字映射阅读全文

posted @ 2019-01-26 21:40 python我的最爱阅读(8298) 评论(0) 推荐(0)

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)

摘要：TF-idf模型：TF表示的是词频：即这个词在一篇文档中出现的频率 idf表示的是逆文档频率，即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小，表示这个词越稀有，在这篇文档中也是越重要的 TF-idf：表示TF*idf, 即词频*逆文档频率词袋模型不仅考虑了一个词阅读全文

posted @ 2019-01-26 19:54 python我的最爱阅读(1025) 评论(0) 推荐(0)

机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型

摘要：函数说明： 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合，构造出新的词袋标签参数说明：ngram_range=(2, 2) 表示选用2个词进行前后的组合，构成新的标签值 Ngram模型表示的是，对于词频而言，只考虑一个词，这里我们在CountVe 阅读全文

posted @ 2019-01-26 19:37 python我的最爱阅读(5299) 评论(0) 推荐(1)

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

摘要：函数说明： 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换，这里我们用来去除标点符号参数说明：r'[^a-zA-Z0-9\s]' 配对的模式，^表示起始位置，\s表示终止位置，[]表示取中间部分，这个的意思是找出除字符串阅读全文

posted @ 2019-01-26 18:50 python我的最爱阅读(2177) 评论(0) 推荐(0)

机器学习入门-数值特征-时间特征处理

摘要：我们可以将一连串的时间特征进行拆分，比如：2015-03-08 10:30:00.360000+00:00，我们可以将其转换为日期类型，然后从里面提取年，月，日等时间信息对于一些hour，month等信息，我们也可以使用pd.cut将hour信息按照时刻转换为离散数据，如morning，afte 阅读全文

posted @ 2019-01-26 10:05 python我的最爱阅读(2782) 评论(0) 推荐(0)

机器学习入门-数值特征-对数据进行log变化

摘要：对于一些标签和特征来说，分布不一定符合正态分布，而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化，使得数据在一定程度上可以符合正态分布进行log变化，就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0，而不能进行log变化代码：第一步：阅读全文

posted @ 2019-01-25 22:27 python我的最爱阅读(7061) 评论(1) 推荐(1)

机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)

摘要：函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值，这里用来求出4分位出的数值 2. plt.axvline() # 用于画出图形中的竖线 3. pd.qcut(feature, cut_list, labels) 用于对特征进行阅读全文

posted @ 2019-01-25 22:05 python我的最爱阅读(1441) 评论(0) 推荐(2)

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

摘要：函数说明: 1. .hist 对于Dataframe格式的数据，我们可以使用.hist直接画出直方图对于一些像年龄和工资一样的连续数据，我们可以对其进行分段标记处理，使得这些连续的数据变成离散化就好比：我们可以将0-9岁用0表示 10-19用1表示 20-29用2表示 ... 下面我们对一个年龄阅读全文

posted @ 2019-01-25 19:44 python我的最爱阅读(1800) 评论(0) 推荐(0)

机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)

摘要：函数说明： 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2，即^2, interaction_only表示是否只使用a*b, include_ 阅读全文

posted @ 2019-01-25 19:13 python我的最爱阅读(2851) 评论(0) 推荐(0)

机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)

摘要：函数说明： 1. Binarizer(threshold=0.9) 将数据进行二值化，threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征：存在0还有其他的一些数二值化指的是：将大于0的特征使用1表示，将等于0的特征还是用0表示对于二值化操作：使用两种方法第一阅读全文

posted @ 2019-01-25 18:32 python我的最爱阅读(1484) 评论(0) 推荐(0)

机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)

摘要：1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码，输入的参数必须是二维的，因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd 阅读全文

posted @ 2019-01-25 16:30 python我的最爱阅读(1359) 评论(0) 推荐(0)

机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)

摘要：使用了RamdomedSearchCV迭代100次，从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上，使用GridSearchCV在上面最佳参数的周围选择一些合适的参数组合，进行参数的微调 1. RandomedSearchCV(estimator=rf, param 阅读全文

posted @ 2019-01-24 19:49 python我的最爱阅读(856) 评论(0) 推荐(0)

机器学习入门-随机森林预测气温-减少特征-研究时间和精度的关系

摘要：我们进行了两部分的实验： 1：提取特征重要性之和大于95%的前5个特征，进行结果的预测，并统计时间直接使用特征进行结果的预测，统计时间 2：在上述的基础上，研究了少量数据集所花的时间，以及精度的差异代码：第一步：数据读取第二步：pd.dummies() 对文本标签进行one-hot编码第三阅读全文

posted @ 2019-01-24 16:35 python我的最爱阅读(836) 评论(0) 推荐(0)

机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)

摘要：在上一个博客中，我们构建了随机森林温度预测的基础模型，并且研究了特征重要性。在这个博客中，我们将从两方面来研究数据对预测结果的影响第一方面：特征不变，只增加样本的数据第二方面：增加特征数，增加样本的数据 1.sns.pairplot 画出两个变量的关系图，用于研究变量之间的线性相关性，sns. 阅读全文

posted @ 2019-01-24 11:01 python我的最爱阅读(1871) 评论(1) 推荐(0)

机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转

摘要：在这个案例中： 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) # 将数据中的文字标签转换为one-hot编码形式，增加了特征的列数 3. rf.feature_i 阅读全文

posted @ 2019-01-23 22:33 python我的最爱阅读(4909) 评论(2) 推荐(0)

机器学习入门-主成分分析(PCA)

摘要：主成分分析：用途：降维中最常用的一种方法目标：提取有用的信息(基于方差的大小) 存在的问题：降维后的数据将失去原本的数据意义向量的内积：A*B = |A|*|B|*cos(a) 如果|B| = 1，那么A*B = |A| * cos(a) 即在B的方向上对A做投影基变化: 如果向量为(3, 阅读全文

posted @ 2019-01-23 13:54 python我的最爱阅读(778) 评论(0) 推荐(0)

机器学习入门-线性判别分析（LDA）1.LabelEncoder(进行标签的数字映射) 2.LinearDiscriminantAnalysis (sklearn的LDA模块)

摘要：1.from sklearn.processing import LabelEncoder 进行标签的代码编译首先需要通过model.fit 进行预编译，然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi 阅读全文

posted @ 2019-01-21 23:48 python我的最爱阅读(2868) 评论(0) 推荐(1)

机器学习入门-轮廓系数聚类效果的评估

摘要：聚类评估：轮廓系数计算样本到同簇其他样本的平均距离ai， ai越小，说明样本越应该被聚类到该簇计算样本到其他簇样本的平均距离bi，这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1，说明b(i) 远大于a(i)，说明分类阅读全文

posted @ 2019-01-21 11:25 python我的最爱阅读(951) 评论(0) 推荐(0)

多种聚类算法概述（BIRCH, DBSCAN， K-means， MEAN-SHIFT）

摘要：BIRCH:是一种使用树分类的算法，适用的范围是样本数大，特征数小的算法，因为特征数大的话，那么树模型结构就会要复杂很多 DBSCAN：基于概率密度的聚类方法：速度相对较慢，不适用于大型的数据，输入参数有r和k k-means：是通过不断更新聚类中心所进行的一种参数变化，需要输入的参数是需要聚成几类阅读全文

posted @ 2019-01-21 11:19 python我的最爱阅读(1246) 评论(0) 推荐(0)

机器学习入门-DBSCAN聚类算法

摘要：DBSCAN 聚类算法又称为密度聚类，是一种不断发张下线而不断扩张的算法，主要的参数是半径r和k值 DBSCAN的几个概念：核心对象：某个点的密度达到算法设定的阈值则其为核心点，核心点的意思就是一个点在半径r的范围内，如果存在k个值，那么这个点就成为核心对象直接密度可达：若点p在q的邻域内，且q 阅读全文

posted @ 2019-01-21 10:42 python我的最爱阅读(785) 评论(0) 推荐(0)

机器学习入门-K-means算法

摘要：无监督问题，我们手里没有标签聚类：相似的东西聚在一起难点：如何进行调参 K-means算法需要制定k值，用来获得到底有几个簇，即几种类型质心：均值，即向量各维取平均值距离的度量：欧式距离和余弦相似度优化目标： min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最阅读全文

posted @ 2019-01-19 12:27 python我的最爱阅读(490) 评论(0) 推荐(0)

机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).

摘要：1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典， 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文

posted @ 2019-01-19 00:23 python我的最爱阅读(1579) 评论(0) 推荐(0)

机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)

摘要：1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以第一步：进行语料库的读取第二步：进行分词操作第三步：载入停用词，同时对分词后的语料库进行停用词的去除第四步：选取一段文本分词列表，串接成字符串，使用jieba.analyse.extrac 阅读全文

posted @ 2019-01-19 00:09 python我的最爱阅读(5670) 评论(0) 推荐(0)

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

摘要：1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = ['counts], 阅读全文

posted @ 2019-01-18 23:59 python我的最爱阅读(573) 评论(0) 推荐(0)

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

摘要：1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据词频做一个数字的映射，max_feature表示的是最大的特征数需要先使用阅读全文

posted @ 2019-01-18 23:49 python我的最爱阅读(581) 评论(0) 推荐(0)

机器学习入门-贝叶斯垃圾邮件过滤(原理)

摘要：贝叶斯里面的参数原理最大似然：即最符合观测数据的最有优势，即p(D|h)最大奥卡姆剃刀：即越常见的越有可能发生，即p(h) 表示的是先验概率最大似然：当我们投掷一枚硬币，观测到的是正面，那么我们猜测投掷正面的概率为1，即最大似然值的概率是最大的奥卡姆剃刀：如果平面上有N个点，我们使用n 阅读全文

posted @ 2019-01-18 18:23 python我的最爱阅读(2053) 评论(0) 推荐(0)

机器学习入门-贝叶斯拼写纠错实例

摘要：问题如果我们看到用户输入一个不在字典中的词，我们需要推测他实际想要输入的词使用贝叶斯公式表示： p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p（用户输入|实际想要输入）实阅读全文

posted @ 2019-01-18 17:51 python我的最爱阅读(595) 评论(0) 推荐(0)

机器学习入门-贝叶斯算法(原理)

摘要：贝叶斯要解决的问题：正向概率：假设一个袋子里面有红球4个，黑球6个，那么从袋子里抽出红球的概率逆向概率，假设我们不知道袋子里面黑白求的比例，一连抽取一个或多个球，观察取出球的颜色，来判断取出红球的概率例子1 ：假设一个学校有40%的女生， 60%的男生，女生50%穿长裤， 50%穿短裤，男阅读全文

posted @ 2019-01-18 17:13 python我的最爱阅读(390) 评论(0) 推荐(0)

机器学习入门-集成算法(bagging, boosting, stacking)

摘要：目的：为了让训练效果更好 bagging：是一种并行的算法，训练多个分类器，取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法，根据前一次的结果，进行加权来提高训练效果 stacking; 是一种堆叠算法，第一步使用多个算法求出结果，再将结果作为特征输入到下一阅读全文

posted @ 2019-01-17 13:16 python我的最爱阅读(4138) 评论(0) 推荐(0)

机器学习入门-显示特征重要性的排序

摘要：根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性阅读全文

posted @ 2019-01-17 10:31 python我的最爱阅读(10418) 评论(0) 推荐(0)

机器学习入门-使用GridSearch进行网格参数搜索GridSeach(RandomRegressor(), param_grid, cv=3)

摘要：1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身，第二个参数是传入的参数组合， cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索，比如参数为[1, 2, 3], [1, 2, 阅读全文

posted @ 2019-01-17 10:23 python我的最爱阅读(1283) 评论(0) 推荐(0)

机器学习入门-决策树使用实例(代码)

摘要：from sklearn import tree from sklearn.cross_validation import train_test_split # 数据拆分 train_x, test_x, train_y, test_y = train_test_split(housing.data, housing.target, test_size=0.1, random_state=42... 阅读全文

posted @ 2019-01-17 09:48 python我的最爱阅读(524) 评论(0) 推荐(0)

机器学习入门-决策树的可视化展示

摘要：from sklearn import tree from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() dtr = tree.Deci 阅读全文

posted @ 2019-01-17 09:35 python我的最爱阅读(2037) 评论(0) 推荐(0)

机器学习入门-决策树算法

摘要：决策树：从根节点开始一步步到叶子节点，所有的数据最后都落到叶子节点里面，既可以用来做分类也可以用来做回归树的组成： 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点，最终的决策结果对于一些连续的变量来说，通常使用一刀切的方式。决策树的训练与测试训练阶段通过构造一棵树阅读全文

posted @ 2019-01-15 21:00 python我的最爱阅读(1008) 评论(0) 推荐(0)

机器学习入门-数据下采样 np.random_choice

摘要：1. np.random_choice(array, len) 进行随机的数据选择，array表示抽取的对象，len表示抽取样本的个数数据的下采样是对多的数据进行np.random.choice 随机的抽取，抽取出于少的样本相同的索引个数，将两组索引进行合并，从原始数据中重新取值阅读全文

posted @ 2019-01-15 13:18 python我的最爱阅读(1144) 评论(0) 推荐(0)

机器学习入门-信用卡欺诈数据案例

摘要：在前几个博客，我们将各个部分进行了拆分，现在写一个整体的代码 1.统计两种标签的个数，画直方图 2. 变量与标签的拆分，训练集与测试集数据的拆分(train_test_split)，对训练数据进行下采样 3. 使用交叉验证进行超参数正则化因子的选择 KFold 4. 混淆矩阵的绘制，即准确度，召阅读全文

posted @ 2019-01-15 13:14 python我的最爱阅读(701) 评论(0) 推荐(0)

机器学习入门-数据过采样（上采样）1. SMOTE

摘要：from imblearn.over_sampling import SMOTE # 导入 overstamp = SMOTE(random_state=0) # 对训练集的数据进行上采样，测试集的数据不需要SMOTE_train_x, SMOTE_train_y = overstamp.fit_s 阅读全文

posted @ 2019-01-15 13:01 python我的最爱阅读(5414) 评论(0) 推荐(0)

机器学习入门-概率阈值的逻辑回归对准确度和召回率的影响 lr.predict_proba(获得预测样本的概率值)

摘要：1.lr.predict_proba(under_text_x) 获得的是正负的概率值在sklearn逻辑回归的计算过程中，使用的是大于0.5的是正值，小于0.5的是负值，我们使用使用不同的概率结果判定来研究概率阈值对结果的影响从图中我们可以看出，阈值越小，被判为正的越多，即大于阈值的就是为正，阅读全文

posted @ 2019-01-15 12:42 python我的最爱阅读(9631) 评论(0) 推荐(0)

机器学习入门-混淆矩阵-准确度-召回率-F1score 1.itertools.product 2. confusion_matrix(test_y, pred_y)

摘要：1. itertools.product 进行数据的多种组合 intertools.product(range(0, 1), range(0, 1)) 组合的情况[0, 0], [0, 1], [1, 0], [1, 1] 2. confusion_matrix(test_y, pred_y) # 阅读全文

posted @ 2019-01-15 11:53 python我的最爱阅读(1714) 评论(0) 推荐(0)

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)

摘要：1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例， random_state 随机种子 2. KFold(l 阅读全文

posted @ 2019-01-15 10:45 python我的最爱阅读(1292) 评论(0) 推荐(0)

机器学习入门-逻辑回归算法

摘要：梯度下降：对theta1， theta2， theta3 分别求最快梯度下降的方向，然后根据给定的学习率，进行theta1， theta2， theta3的参数跟新假定目标函数 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X) 梯度下降的策略分为阅读全文

posted @ 2019-01-12 18:07 python我的最爱阅读(491) 评论(0) 推荐(0)

机器学习入门-线性回归算法(原理)

摘要：数据：工资和年龄（2个特征）目标：预测银行会贷款多少钱(标签) 考虑：工资和年龄影响银行贷款，它们各自的影响大小（参数） x1， x2 表示的是两个特征（年龄，工资） y 是银行最终会借我们多少钱找到一条最合适线（一些高维点）来最好拟合我们的数据点假设theta1是年龄的参数， theta 阅读全文

posted @ 2019-01-12 16:43 python我的最爱阅读(355) 评论(0) 推荐(0)

机器学习入门-Knn算法

摘要：knn算法不需要进行训练，耗时，适用于多标签分类情况 1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离、 2. 将求得的欧式距离进行降序排序，取前n_个 3. 计算这前n_个的y值的平均或者(类别)，获得测试数据的预测值 4.根据测试数据的实际值和测试数据的预测值计算当前的rmse 阅读全文

posted @ 2019-01-11 14:37 python我的最爱阅读(693) 评论(0) 推荐(0)

可视化库-seaborn-热力图(第五天)

摘要：1. 画一个基本的热力图，通过热力图用来观察样本的分布情况 2. 通过vmin 和 vmax设置热力图的区间 3.center=0 对于有正有负的数据而言颜色差异更大 4. 取出三个特征进行热力图的绘制figures.pivot() 第三个属性表示热力图上实际的值 5. linewidth 使得格阅读全文

posted @ 2019-01-09 19:55 python我的最爱阅读(15016) 评论(0) 推荐(1)

可视化库-seaborn-Facetgrid(第五天)

摘要：1. sns.Facetgrid 画一个基本的直方图 2 . 添加sns.Facetgrid属性hue,画散点图 3. 使用color='0.1'来定义颜色, margin_titles=True把标题分开， fit_reg是否画拟合曲线,sns.regplot画回归图 4. 绘制条形图，同时使用C 阅读全文

posted @ 2019-01-09 19:31 python我的最爱阅读(1650) 评论(0) 推荐(0)

可视化库-seaborn-多变量分析绘图(第五天)

摘要：1. sns.stripplot(x='data', y='total_bill', data=tips, jitter=True), 画出竖形的样子,jitter=True为了使得数据尽量分开 2. sns.swarmplot画出圣诞树的样子,hue='sex' 加入一种新的分类属性 3.绘制盒图阅读全文

posted @ 2019-01-09 17:00 python我的最爱阅读(967) 评论(0) 推荐(0)

可视化库-seaborn-回归分析绘图(第五天)

摘要：1. sns.regplot() 和 sns.lmplot() 绘制回归曲线 2. 对于离散的变量来说，可以添加x_jitter产生随机的偏移阅读全文

posted @ 2019-01-09 16:25 python我的最爱阅读(550) 评论(0) 推荐(0)

可视化库-seaborn-单变量绘图(第五天)

摘要：1. sns.distplot 画直方图 2. 查看数据分布情况，画出概率密度曲线 fit=stats.gamma 3.sns.jointplot() #绘制带直方图的散点图，对于sns最好是转换为df形式 4.sns.jointplot(kind='hex') # 画出散点图的分布颜色的图 5. 阅读全文

posted @ 2019-01-09 16:05 python我的最爱阅读(446) 评论(0) 推荐(0)

可视化库-seaborn-调色板(第五天)

摘要：1. 基础的调色板的演示 color_palette() 设置传入的任何颜色，不传使用默认颜色，set_palette() 设置所有图的颜色# 6种主题 2. 圆形画板 # 使用sns.color_palette('hls', 8) 来设置, 'hls'表示颜色空间, 8表示颜色的个数 3. pat 阅读全文

posted @ 2019-01-09 13:52 python我的最爱阅读(1829) 评论(0) 推荐(0)

可视化库-seaborn-布局风格设置(第五天)

摘要：1. sns.set_style() 进行风格设置, sns.set() 进行设置的重置，五种风格 2. 使用sns.boxplot 绘制盒图 3. sns.despine(left=True) 去除左边的框图 4. 风格细节设置, sns.violinplot画小提琴图， despine(off 阅读全文

posted @ 2019-01-09 12:25 python我的最爱阅读(1351) 评论(0) 推荐(0)

可视化库-Matplotlib-Pandas与sklearn结合(第四天)

摘要：1. 计算每一种的比例的百分比 2. 通过pd将数据导入，进行缺失值补充，画出特征的PCA图阅读全文

posted @ 2019-01-08 17:23 python我的最爱阅读(491) 评论(0) 推荐(0)

可视化库-Matplotlib-饼图与布局(第四天)

摘要：1。画出一个基本的饼图，通过plt.pie() 2. 设置子图布局，通过plt.subplot2grid((3, 3), (0, 0)) 3. 在一个大图里面嵌套一个小图，通过添加一个坐标系来完成 fig.add_axes([left, bottom, width, height]) 4. in 阅读全文

posted @ 2019-01-08 16:33 python我的最爱阅读(1610) 评论(0) 推荐(0)

可视化库-Matplotlib-3D图(第四天)

摘要：1. 画三维图片图 axes = Axes3D(fig)这一步将二维坐标转换为三维坐标，axes.plot_surface() 2. 构造三维坐标系的两种方法，同时画三维曲线图ax=fig.add_subplot(111, projection='3d') ax = fig.gca(project 阅读全文

posted @ 2019-01-08 15:15 python我的最爱阅读(607) 评论(0) 推荐(0)

可视化库-Matplotlib-散点图(第四天)

摘要：1. 画基本的散点图 plt.scatterdata[:, 0], data[:, 1], marker='o', color='r', label='class1', alpha=0.4) np.random.multivariate_normal 根据均值和协方差生成多行列表 2. 将散点图的文阅读全文

posted @ 2019-01-08 13:29 python我的最爱阅读(569) 评论(0) 推荐(0)

可视化库-Matplotlib-直方图(第四天)

摘要：1.plt.hist(array, bins, color) # array表示数值， bins表示的是bin的范围 2. 将两个直方图放在一张图上阅读全文

posted @ 2019-01-08 12:55 python我的最爱阅读(286) 评论(0) 推荐(0)

可视化库-Matplotlib-盒图(第四天)

摘要：盒图由五个数值点组成，最小观测值，下四分位数，中位数，上四分位数，最大观测值 IQR = Q3 - Q1 Q3表示上四分位数， Q1表示下四分位数，IQR表示盒图的长度最小观测值 min =Q1 - 1.5*IQR 最大观测值 max=Q3 + 1.5*IQR ，大于最大值或者小于最小值就是离群阅读全文

posted @ 2019-01-08 12:30 python我的最爱阅读(4946) 评论(0) 推荐(0)

可视化库-Matplotlib-条形图(第四天)

摘要：1.画两个条形图，bar和barh，同时axes[0].axhline画一条横线，axes[1].axvline画一条竖线 2.根据条形图y的大小设置每个条形图的颜色 3.fill_between 进行填充操作， .consum 表示的是进行累加操作，将前一个值累加到当前值 4. fill_bet 阅读全文

posted @ 2019-01-08 10:46 python我的最爱阅读(3192) 评论(0) 推荐(0)

可视化库-Matplotlib基础设置(第三天)

摘要：1.画一个基本的图 2. 画多条直线 3. linewidth指定线条的宽度，marker='o', markerfacecolor表示mark颜色，markersize # 表示标志物的大小 4. plt.setp(line, color='r', linewidth=2.0, alpha=0.5 阅读全文

posted @ 2019-01-07 21:47 python我的最爱阅读(614) 评论(0) 推荐(1)

np归纳总结(全)第一天

摘要：1.概述 1.np.array() # 将列表转换为数组 2..shape # 打印矩阵的维度, 也可以使用np.shape 2.array 结构 3.dtype 打印数组的数据类型 4. .itemsize # 判断数组中每一个数字所占的字节数 5. .size # 打印出数组中的元素个数, 不关阅读全文

posted @ 2019-01-04 19:12 python我的最爱阅读(4470) 评论(2) 推荐(1)