随笔分类 - python技术栈 / python-数据分析
摘要:乘法 Numpy 中有三种常用的乘法:dot、matmul 和 multiply,对于新手来说很容易混淆三者的用法。 1. multiply: element-wise 乘法 这种乘法也叫 Hadamard product、Schur product,在数学上是指“两个矩阵的对应元素相乘”: \be
阅读全文
摘要:1.数据可视化 数据的表达逻辑: 它可能是数据可视化、图表的表现方式,通过数据本身的逻辑去对它学习,为什么用这个图表去表示这个内容?? 目的不在于分析过程,在于得到结果如何把它表达出来,是学习后面的这套逻辑。 数据可视化,以数据为工具,以可视化为手段,目的是描述真实,探索世界。为了表现内容,再是漂亮
阅读全文
摘要:0. SQL数据库 1. python基础知识 2. 重点工具掌握:数据解析核心技巧 - Numpy| Pandas| Matplotlib 3. 数据特征分析:分布| 对比| 统计| 帕累托| 正态| 相关性分析 4. 数据处理:缺失值| 异常值| 数据归一| 数据连续属性离散化 5. 数学建模:
阅读全文
摘要:1. 可用颜色 2. 可也直接输入英文 3. 颜色板: https://matplotlib.org/examples/color/colormaps_reference.html 4. 147个CSS颜色 参考网址:http://www.colors.commutercreative.com/gr
阅读全文
摘要:ToolBar工具栏设置 ① 位置设置② 移动、放大缩小、存储、刷新③ 选择④ 提示框、十字线 1. 位置设置 2. 移动、放大缩小、存储、刷新 3. 选择 4. 提示框、十字线 5. 筛选数据 隐藏 消隐 6. 交互工具
阅读全文
摘要:绘图表达进阶操作 ① 轴线设置② 浮动设置③ 多图表设置 1. 轴线标签设置 设置字符串 >>> 设置时间序列 设置对数坐标轴 2. 浮动设置 3. 多图表设置
阅读全文
摘要:柱状图/堆叠图/直方图 ① 单系列柱状图② 多系列柱状图③ 堆叠图④ 直方图 1.单系列柱状图 分类标签的设置 2. 多系列柱状图 官方示例很多情况是用的列表的形式,bokeh本身不是基于pandas构建的可视化工具,所以它基本上是用的python自己的数据结构字典、列表;我们做数据分析肯定是基于p
阅读全文
摘要:折线图与面积图 ① 单线图、多线图② 面积图、堆叠面积图 1. 折线图--单线图 2. 折线图--多线图 3. 面积图
阅读全文
摘要:散点图 ① 基本散点图绘制② 散点图颜色、大小设置方法③ 不同符号的散点图 1. 基本散点图绘制 p.circle() 2. 散点图不同 颜色上色/ 散点大小 的方法 两种为散点图颜色上色的方法 3. 不同符号的散点图
阅读全文
摘要:图表辅助参数设置 辅助标注、注释、矢量箭头 参考官方文档:https://bokeh.pydata.org/en/latest/docs/user_guide/annotations.html#color-bars 1. 辅助标注 - 线 2. 辅助标注 - 矩形 3. 绘图注释 4. 注释箭头 5
阅读全文
摘要:Bokeh pandas和matplotlib就可以直接出分析的图表了,最基本的出图方式。是面向数据分析过程中出图的工具;Seaborn相比matplotlib封装了一些对数据的组合和识别的功能;用Seaborn出一些针对seaborn的图表是很快的,比如说分布图、热图、分类分布图等。如果用matp
阅读全文
摘要:1. powermap 对于热力图它跟空间柱状图是差不多的,也是空间位置+value值;如果只有空间位置,可能求的是密度图,就是我们之前用python中的seaborn做的两个维度的密度图,其实就是热力图的意思; 两个维度的密度图就是热力图 把评论和人均做热力的差别来分开; 开始--插入--单元格(
阅读全文
摘要:空间线性轨迹图 线路数据、动态的移动的数据 如何读取数据,线路轨迹的移动情况(包括移动的速度、颜色设置还有它的大小) data.js它是一个geojson的格式数据,地理空间的一个数据格式 data_shp的样数据 坐标系一定要是地理坐标系,一定要有value值(用来控制轨迹的颜色、大小、速度等)
阅读全文
摘要:1.Sublime的使用 中文版的配置 https://jingyan.baidu.com/article/ca2d939d1e83feeb6c31cefc.html (百度经验) sublime里边运行python文件: 1.点击菜单栏中的Tools —> Build System —> New
阅读全文
摘要:1. 公司职员关系图表 节点和边界数据 节点是指每个节点本身的数据,代表公司职工的名称;属性(Country)、分类(Category)和地区(Region,给每个节点定义的属性数据)。文件必须是.csv的格式。 连接线数据,不同的两个点之间的关系,权重(可以用各种方式做一个度量)。节点的数据结构可
阅读全文
摘要:将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 # 遍历数据后,得到一个导演与演员的关系数据,并做去重处理# 这里index是有重复的,但作为过程数据可忽略
阅读全文
摘要:1.关系网络图 如何来表示两个对象之间的关系? 把对象变成点,点的大小、颜色可以是它的两个参数,两个点之间的关系可以用连线来表示。连线分为无向(只是连接的导向,一些简单的关系很容易体现)和有向(复杂网络,连接+方向,线本身的方向代表了连接的关系同时线的粗线也可以表示线的连接强度)。 这个图 有点杂乱
阅读全文
摘要:1.基本设置 2. 图表矩阵
阅读全文
摘要:1. 线性关系数据可视化 lmplot( ) 2. 时间线图表 sns. tsplot( ) 一个变量里边有10个变量,每个变量里边有31个观测值 10个变量,做了一个均值的估计,其他31个维度代表它的变化程度。 3.热图 sns.heatmap()
阅读全文
摘要:1. 分类数据可视化 - 分类散点图 stripplot( ) / swarmplot( ) 1.1 stripplot() hue参数可再分类 1.2 swarmplot()分簇散点图 2. 分类数据可视化 - 分布图 boxplot( ) / violinplot( ) / lvplot( )
阅读全文