摘要:一、sparse模块: python中scipy模块中,有一个模块叫sparse模块,就是专门为了解决稀疏矩阵而生。本文的大部分内容,其实就是基于sparse模块而来的 导入模块:from scipy import sparse 二、七种矩阵类型 coo_matrix dok_matrix lil_
阅读全文
摘要:pandas:知识脑图 https://bigquant.com/community/t/topic/129755 1、read_csv(url):读取数据 2、help(read_csv):打印函数相关用法 3、数据名.dtypes:读取数据的类型(int、float……) 4、type(数据名)
阅读全文
摘要:1、去除网页的标签,如<br/> 2、将标点符号等去掉,用正则表达式。 去除特殊符号: 3、将文本中的单词小写化,并将data用空格分开 4、去掉停用词 5、将所有的词连接成一个句子 6、把空格前缀去除 7、删除短词,删除句子中词语长度小于3的词,如haa,hi等无意义的词 8、分词 9、提取词干
阅读全文
摘要:1、读取数据 2、认识数据 ①数据特征的量纲差距(即归一化/标准化处理) ②数据分布不均衡(比方说分类,0-1分类,0的数据远远大于1的数据) 处理方式:下采样、过采样。 下采样:将多的数据变得和少的数据一样少。 过采样:将少的数据变得和多的数据一样多。 以下是下采样: 过采样:SMOTE算法、AD
阅读全文
摘要:1、df.describe():该函数主要对数据进行一个基本的统计,输出数据的总数量(count)、平均值(mean)、标准差(std)、最小值和最大值(min、max)、分位数(四分位) 2、sort_values(by="列名/行名"):对该列或该行进行值排序 3、df.replace(to_r
阅读全文
摘要:一、shuffle函数: import numpy.random def shuffleData(data): np.random.shufflr(data) cols=data.shape[1] X=data[:,0:cols-1] Y=data[:,cols-1:] return X,Y 二、n
阅读全文
摘要:1、常见的分类算法主要有: (1)KNN算法 (2)贝叶斯方法 (3)决策树 (4)人工神经网络 (5)支持向量机(SVM) 2、KNN算法 (1)KNN应用场景: 比方说样本中有很多零食、很多电器、很多服装,给一个未知样本,把样本归于哪一类?就可以用KNN算法。分别计算未知样本和已知的每个样本之间
阅读全文
摘要:1、import jieba jieba的cut函数有三个模式:全模式、精准模式、搜索引擎模式 1 精确模式,试图将句子最精确地切开,适合文本分析; 2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率
阅读全文
摘要:1、CTR: (1)几个概念: impression(展示):用户看到该广告的次数。也就是一个广告被显示了多少次,它就计数多少。比如:打开网站的一个页面,网站上的所有广告就被显示了一次,每个广告增加1个,如果刷新就再增加一个。 click(点击):用户点击该广告的次数 CTR:click throu
阅读全文
摘要:1、数据规约概念和目的 数据规约是产生更小且保留数据完整性的新数据集。 意义:降低无效错误数据的影响、更有效率、降低存储成本。 2、属性规约 (1)属性合并(降维):比如PCA (2)删除不相关属性 3、数值规约:离散化也算是数值规约
阅读全文
摘要:1、简单变换: 开方、平方、对数等 2、数据规范化: (1)离差标准化(最小最大标准化):消除量纲(单位)影响以及变异大小因素的影响。 x1=(x-min)/(max-min) 代码:data1=(data-min())/(data.max()-data.min()) (2)标准差标准化(0-均值标
阅读全文
摘要:一、数据清洗 这一个步骤可以和数据探索并行。 (1)标签分类数据处理:LabelEncoder【将分类数据变成0-n的值】 (2)one-hot编码 2、数据集成 (1)概念 数据挖掘往往分布在不同的数据源中,进行数据分析时需要将多个不同的数据源整合到同一个数据存储(如数据仓库)中。但是来自不同地方
阅读全文
摘要:一、数据探索 数据探索的目的:及早发现数据的一些简单规律或特征 数据清洗的目的:留下可靠数据,避免脏数据的干扰。 两者没有严格的先后顺序,经常在一个阶段进行。 分为: (1)数据质量分析(跟数据清洗密切联系):缺失值分析、异常值分析、一致性分析、重复数据或含有特殊符号的数据分析 (2)数据特征分析(
阅读全文
摘要:参考链接:https://blog.csdn.net/qq_16234613/article/details/64217337 1、describe():该函数主要对数据进行一个基本的统计,输出数据的总数量(count)、平均值(mean)、标准差(std)、最小值和最大值(min、max)、分位数
阅读全文
摘要:1、简介: (1)numpy:(科学计算)高效处理数据,提供数组支持,很多模块都依赖它,是一个基础。 (2)pandas:数据探索和数据分析(两个重要的数据结构series 和dataframe) (3)matplotlib:作图模块,可视化 (4)scipy:主要进行数值计算,支持矩阵计算,高等数
阅读全文
摘要:1、CSV格式数据: 1.1普通读取和保存 可以以纯文本形式打开,可以保存多条记录,每条记录的数据之间默认用逗号来分隔,csv就是逗号分割值的英文缩写。 保存为csv文件: import pandas as pd data=pd.DataFrame(数据源) data.to_csv('文件名.csv
阅读全文