09 2018 档案
摘要:1. 公司职员关系图表 节点和边界数据 节点是指每个节点本身的数据,代表公司职工的名称;属性(Country)、分类(Category)和地区(Region,给每个节点定义的属性数据)。文件必须是.csv的格式。 连接线数据,不同的两个点之间的关系,权重(可以用各种方式做一个度量)。节点的数据结构可
阅读全文
摘要:将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 # 遍历数据后,得到一个导演与演员的关系数据,并做去重处理# 这里index是有重复的,但作为过程数据可忽略
阅读全文
摘要:1.关系网络图 如何来表示两个对象之间的关系? 把对象变成点,点的大小、颜色可以是它的两个参数,两个点之间的关系可以用连线来表示。连线分为无向(只是连接的导向,一些简单的关系很容易体现)和有向(复杂网络,连接+方向,线本身的方向代表了连接的关系同时线的粗线也可以表示线的连接强度)。 这个图 有点杂乱
阅读全文
摘要:1.基本设置 2. 图表矩阵
阅读全文
摘要:1. 线性关系数据可视化 lmplot( ) 2. 时间线图表 sns. tsplot( ) 一个变量里边有10个变量,每个变量里边有31个观测值 10个变量,做了一个均值的估计,其他31个维度代表它的变化程度。 3.热图 sns.heatmap()
阅读全文
摘要:1. 分类数据可视化 - 分类散点图 stripplot( ) / swarmplot( ) 1.1 stripplot() hue参数可再分类 1.2 swarmplot()分簇散点图 2. 分类数据可视化 - 分布图 boxplot( ) / violinplot( ) / lvplot( )
阅读全文
摘要:conda install seaborn 是安装到jupyter那个环境的 1. 整体风格设置 对图表整体颜色、比例等进行风格设置,包括颜色色板等调用系统风格进行数据可视化 set() / set_style() / axes_style() / despine() / set_context()
阅读全文
摘要:server.py() 多高并发的: client.py socker_server.py 这里ThreadingTCPServer是基于TCP, 也有基于UDP的ThreadingUDPServer >>>多线程并发 ForkingTCPServer >>> 多进程并发的,创建的是多进程而不是多线
阅读全文
摘要:models.py urls.py 在settings里边 views.py addbook.html(添加书籍) book.html(查看书籍) editbook.html(编辑书籍)
阅读全文
摘要:随机算法 1. 蒙特卡罗模拟 蒙特卡罗(Monte Carlo)方法,又称随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。 ① π的计
阅读全文
摘要:1. knn概述 分类是大数据常见的应用场景之一,通过对历史数据规律的统计,将大量数据进行分类然后发现数据之间的关系,这样当有新的数据进来时,计算机就可以利用这个关系自动进行分类了。更进一步讲, 如果这个分类结果在将来才被证实,比如一场比赛的胜负、一次选举的结果,那么在旁观者看来,就是在利用大数据进
阅读全文
摘要:1.异常值分析 异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析。 异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补 1.1 3σ原则 / 箱型图分析 1.2箱型图分析 2. 数据归一化 数据归一化/ 标准化 数据的
阅读全文
摘要:缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 缺失值的处理:删除记录 / 数据插补 / 不处理 1.判断是否有缺失数据 import numpy as np import pandas as pd import matplotlib.p
阅读全文
摘要:相关性分析 散点图矩阵初判多变量间关系,两两数据之间的,比如说4个数据ABCD,就有12个比较,第一个参数和第二个参数,第一个参数和第三个参数,.......这个图就是正态分布的几个参数,就没有任何的相关性 (2)散点图矩阵初判多变量间关系 2.Pearson相关系数(皮尔逊相关系数) 建立在正态分
阅读全文
摘要:1.正态分布 期望值u(均值)决定位置,标准差决定它的分布幅度,可以验证分布曲线的高矮胖瘦,越胖代表它的离中趋势越明显,越高代表它集中的值越高。 2. 正太性检验 利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。 直方图初判 / QQ图判断
阅读全文
摘要:1.统计分析 统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析 集中趋势度量 / 离中趋势度量 One.集中趋势度量 (2)位置平均数 密度曲线,100-150的密度分布,绿色的为中位数,红色的为简单的算术平均值,蓝色的为加权平均值。 Two.离中趋势度量 极差只能反映值的区间
阅读全文
摘要:对比分析 两个相互联系的数(指标)进行比较(绝对数比较、相对数比较) 对比分析 对比分析 → 两个互相联系的指标进行比较 绝对数比较(相减) / 相对数比较(相除)结构分析、比例分析、空间比较分析、动态对比分析 1.绝对数比较 -->相减 相互对比的指标在量级上不能差别过大 (1)折线图比较 (2)
阅读全文
摘要:基础分析概述 几个基础分析思路: 分布分析 对比分析 统计分析 帕累托分析 正态性检测 相关性分析 分布分析 分布分析是研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量。 如果有底图就可以把它的位置给分布出来;点越大代表房屋的单价越高,颜色越深代表总价越高; 通过数据可见,一共8个字
阅读全文
摘要:1.数据空间 数据空间是指用来表示空间实体的的位置、几何特征及其属性特征的数据。 位置:经纬度、地址、相对位置; 几何特征:点、线、面、形状; 属性特征:面积、周长、人口、经济等属性。 POI数据、OSM地图数据、影像图数据 空间数据分析: 概念:空间数据分析是以空间数据为处理对象,以地理学、统计学
阅读全文
摘要:1.国内公开数据: 不进入工作流的数据没有任何价值。 中国统计网:http://www.stats.gov.cn/ 统计数据、数据发布和解读、统计知识、统计学扫盲、信息公开、历史年度经济与社会发展公报。 国家数据:http://data.stats.gov.cn/ 可下载,在线可视化 大数据导航:h
阅读全文