08 2019 档案
摘要:1.安装mongoDB数据库 我是在windows环境中安装的mongoDB,方法见https://www.cnblogs.com/Forever77/p/11193704.html 2.安装pymongo模块 windows环境中,直接在cmd命令窗口中执行pip3 install pymongo
阅读全文
摘要:以如下html段落为例进行介绍 <html> <head> <title>The Dormouse's story</title> </head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></p> <p c
阅读全文
摘要:一、BeautifulSoup概述 BeautifulSoup是python的一个库,用于接收一个HTML或XML字符串并对其进行格式化,然后使用提供的方法快速查找指定元素。 使用BeautifulSoup需要先安装,安装了python后直接在cmd窗口通过pip3 install Beautifu
阅读全文
摘要:XPath是一种在XML文档中查找信息的语言,使用路径表达式在XML文档中进行导航。学习XPath需要对XML和HTML有基本的了解。 在XPath中,有七种类型的节点:文档(根)节点、元素、属性、文本、命名空间、处理指令、注释,XML 文档是被作为节点树来对待的,树的根被称为文档节点或者根节点。
阅读全文
摘要:表示对象之间的关系,可通过gephi软件实现,软件下载官方地址https://gephi.org/users/download/ 如何来表示两个对象之间的关系? 把对象变成点,点的大小、颜色可以是它的两个参数,两个点之间的关系可以用连线表示。连线分为无向(只是连接的导向,一些简单的关系很容易体现)和
阅读全文
摘要:一、线性关系数据可视化lmplot( ) 表示对所统计的数据做散点图,并拟合一个一元线性回归关系。 lmplot(x, y, data, hue=None, col=None, row=None, palette=None,col_wrap=None, height=5, aspect=1,mark
阅读全文
摘要:一、散点图stripplot( ) 与swarmplot() 1.分类散点图stripplot( ) 用法stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,jitter=True, dodge=Fals
阅读全文
摘要:系统自带的数据表格(存放在github上https://github.com/mwaskom/seaborn-data),使用时通过sns.load_dataset('表名称')即可,结果为一个DataFrame。 一、直方图distplot() distplot(a, bins=None, his
阅读全文
摘要:seaborn是基于matplotlib的python数据可视化库,提供更高层次的API封装,包括一些高级图表可视化等工具。 使用seaborn需要先安装改模块pip3 install seaborn 。 一、风格style 包括set() / set_style() / axes_style()
阅读全文
摘要:蒙特卡洛(Monte Carlo)方法,又称随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法。该方法使用随机数(或更常见的伪随机数)来解决很多计算问题,将所求解的问题同一定的概率模型相联系,用电子计算机实现模拟或抽样,以获得问题的近似解。 基本原理 蒙特卡罗方法通过抓住事物运动的几
阅读全文
摘要:聚类分析(cluster analysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析技术,即将观测对象的群体按照相似性和相异性进行不同群组的划分,划分后每个群组内部各对象相似度很高,而不同群组之间的对象彼此相异度很高。 回归、分类、聚类的区别 : 有监督学习 >> 回归、分类
阅读全文
摘要:分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术建立分类模型,从而对没有分类的数据进行分类的分析方法。 分类问题的应用场景:用于将事物打上一个标签,通常结果为离散值。例如判断一副图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上。 基
阅读全文
摘要:一、数学建模概述 监督学习:通过已有的训练样本进行训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出。监督学习根据输出数据又分为回归问题(regression)和分类问题(classfication),回归问题的输出通常是连续的数值,分类问题的输出通常是几个特定的数值。 非监督学习:根
阅读全文
摘要:在某些比较和评价的指标处理中经常需要去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。因此需要通过一定的方法进行数据标准化,将数据按比例缩放,使之落入一个小的特定区间。 一、标准化 1.0-1标准化 方法:将样本中的最大值、最小值记录下来,并通过max-min
阅读全文
摘要:一、缺失值 1.空值判断 isnull()空值为True,非空值为False notnull() 空值为False,非空值为True 0 False 1 False 2 False 3 True 4 False 5 True dtype: bool 0 1 1 2 2 3 4 hello dtype
阅读全文
摘要:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 相关系数在[-1,1]之间。 一、图示初判 通过pandas做散点矩阵图进行初步判断 二、Pearson相关系数(皮尔森相关系数) 前提条件:数
阅读全文
摘要:期望值,即在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0、σ = 1时的正态分布是标准正态分布。正态分布的图示如下
阅读全文
摘要:帕累托分析(贡献度分析):即二八定律 目的:通过二八原则寻找属于20%的关键决定性因素。 随机生成数据
阅读全文
摘要:一、统计分析 统计分析是对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。 集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值-统计平均数(算数平均数和位置平均数) 算术平均数:简单算术平均数和权重算术平均数 位置平均数:中位数和众数 离中趋势: 极差和分位差 标准
阅读全文
摘要:对比分析是对两个互相联系的指标进行比较。 绝对数比较(相减):指标在量级上不能差别过大,常用折线图、柱状图 相对数比较(相除):结构分析、比例分析、空间比较分析、动态对比分析 https://www.cnblogs.com/shengyang17/p/9630749.html
阅读全文
摘要:分布分析用于研究数据的分布特征,常用分析方法: 1、极差 2、频率分布 3、分组组距及组数 先对总体做关于经纬度的散点图 求总价、单价和首付的极差 单价和总价的频率分布 将总价分为8个区间,求出每个区间的频数、频率,并求出累计频率 对每个总价区间出现的频率做柱状图 对于单个字段比如朝向,做频率统计分
阅读全文
摘要:cut( )用来把一组数据分割成离散的区间。 bins设置为整数,将一维数组平均分为5份 系统自动根据数组中数值的大小将原数据平均分为5分,每个区间间隔为19.8。整个区间的起点为(1,100],由于右侧包含了100因此最大区间的最大值无需扩展,而由于不包括1,因此最小区间的最小值需向左扩展0.1%
阅读全文
摘要:需要先安装faker模块,pip install faker 导入模块中的Faker类:from faker import Faker 实例化faker = Faker() 更多其他使用请参考https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=
阅读全文
摘要:在juoyter notebook中直接通过df输出DataFrame时,显示的样式为表格样式,通过sytle可对表格的样式做一些定制,类似excel的条件格式。 对表格创建样式有两种方式,都需要额外定义一个处理样式的函数 ①df.style.applymap(func,*args,**kwargs
阅读全文
摘要:一、柱状图 1.通过obj.plot() 柱状图用bar表示,可通过obj.plot(kind='bar')或者obj.plot.bar()生成;在柱状图中添加参数stacked=True,会形成堆叠图。 2.通过plt.bar(x,y) 直接使用plt.bar()时,需要在参数中指定x轴和y轴表示
阅读全文
摘要:Matplotlib 是一个python 的绘图库,主要用于生成2D图表。 常用到的是matplotlib中的pyplot,导入方式import matplotlib.pyplot as plt 一、显示图表的模式 1.plt.show() 该方式每次都需要手动show()才能显示图表,由于pych
阅读全文
摘要:一、csv文件 csv以纯文本形式存储表格数据 pd.read_csv('文件名'),可添加参数engine='python',encoding='gbk' 一般来说,windows系统的默认编码为gbk,可在cmd窗口通过chcp查看活动页代码,936即代表gb2312。 例如我的电脑默认编码时g
阅读全文
摘要:一、groupby 类似excel的数据透视表,一般是按照行进行分组,使用方法如下。 df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=
阅读全文
摘要:一、merge merge操作实现两个DataFrame之间的合并,类似于sql两个表之间的关联查询。merge的使用方法及参数解释如下: left和right:第一个DataFrame和第二个DataFrame对象,merge只能实现两个DataFrame的合并,无法一次实现多个合并 on:指定参
阅读全文