随笔分类 - 数据分析
摘要:工具安装 安装pyecharts:pip install pyecharts 安装snapshot-selenium:pip install snapshot-selenium 安装ChromeDriver:下载地址 注意:下载和电脑上的谷歌浏览器版本相同或者相近的版本,将ChromeDriver.
阅读全文
摘要:两种链接方式 用DBAPI构建数据库链接 import pymysql import pandas as pd con = pymysql.connect(host="127.0.0.1",user="root",password="password",db="world") # 读取sql dat
阅读全文
摘要:标注 原文:Annotation 译者:飞龙 协议:CC BY-NC-SA 4.0 基本标注 使用text()会将文本放置在轴域的任意位置。 文本的一个常见用例是标注绘图的某些特征,而annotate()方法提供辅助函数,使标注变得容易。 在标注中,有两个要考虑的点:由参数xy表示的标注位置和xyt
阅读全文
摘要:原文链接:使用Python进行描述性统计 作者:jasonfreak 目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数) 2.3 发散程度(极差,方差、标准差、变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协
阅读全文
摘要:原文链接:https://zhuanlan.zhihu.com/p/63990922 一、概念 某些分类算法,要求我们对连续性的属性进行分类处理,离散化的过程主要包括确定分类的个数,并将数据集映射到这些分类中,这里涉及三种分类方法: 1)等宽法 类似于制作频数分布图,将属性分布值分为几个等分的分布区
阅读全文
摘要:原文链接:http://blog.csdn.net/blog_empire/article/details/39298557 一、数组方法 创建数组:arange()创建一维数组;array()创建一维或多维数组,其参数是类似于数组的对象,如列表等 读取数组元素:如a[0],a[0,0] 数组变形:
阅读全文
摘要:作者 | AlperAydın 来源 | Medium 编辑 | 代码医生团队 原文链接:https://cloud.tencent.com/developer/article/1449666 Dash与plotly 交互式数据可视化对探索性数据分析具有重要影响。在将任何描述性或预测性算法应用于数据
阅读全文
摘要:介绍 plotly plotly是一个可交互,基于浏览器的绘图库,主打功能是绘制在线可交互的图表,所绘制出来的图表真的赏心悦目。它所支持的语言不只是Python,还支持诸如r,matlab,javescript等语言。plotly绘制的图能直接在jupyter中查看,也能保存为离线网页,或者保存在p
阅读全文
摘要:练习数据 链接:https://pan.baidu.com/s/1PtLpajF1x97UWcAieJWmCg 密码:i1du 链接 一、条形图 条形图一:各地区酒店数量注意:每一条记录为一个酒店。 拖到维度地区到列 拖到度量记录数到行 拖到维度地区到标签 怎么理解记录数:统计每一个值出现的总和。
阅读全文
摘要:学习路径:机器学习入门 级别主题类型 100 机器学习简介 文章 101 使用 Python 和 scikit-learn 构建并测试您的第一个机器学习模型 教程 201 使用 Python 和 scikit-learn 学习回归算法 教程 202 使用 Python 和 scikit-learn
阅读全文
摘要:Tableua入门教程 Tableua工作区 工作表:又称视图,是可视化分析的最基本单元。仪表板:是多个工作表和一些对象(图像、文本、网页、空白等组合),可以按照一定方式对其进行组织和布局,以便揭示数据关系和内涵。故事:是按照顺序排列的工作表或者仪表板的集合,故事中各个单独的工作表或者仪表板成为“故
阅读全文
摘要:作者:pennywang链接:https://www.jianshu.com/p/09aeb1e3ada6 介绍 Tableau Desktop Pro 破解版是一款专业的数据分析软件,能够将数据图片转化为数据库查询,利用视觉观察图案的天赋能力,识别趋势,在数秒内发现可视化的数据特点得出结论。新云网
阅读全文
摘要:数据预处理常用函数 df.duplicated() :判断各行是重复,False为非重复值。 df.drop_duplicates():删除重复行 df.fillna(0):用实数0填充na df.dropna():按行删除缺失数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,how
阅读全文
摘要:原文链接:最全面的数据预处理介绍 作者:可爱的算法 一、数据可能存在问题 在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题): 1. 数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ” 2. 数据噪声 (Noisy)是数据值不
阅读全文
摘要:数据分块 csv 格式是一种易储存, 易更改并且用户易读取的格式。 pandas 有read_csv ()方法来上传数据,存储为CSV 格式。当遇到CSV 文件过大,导致内存不足的问题该怎么办呢?试试强大的pandas 工具吧!我们先把整个文件拆分成小块。这里,我们把拆分的小块称为chunk。 一个
阅读全文
摘要:公开的数据库 - 国家数据 - http://data.stats.gov.cn/index.htm 数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面和权威,对于社会科学的研究不要太有帮助。最关键的是,网站简洁美观,还有专门的可视化读物。 - C
阅读全文
摘要:背景 数据可视化是数据分析中比较重要的一个技能,是为了将数据分析的结果表达的更形象化、专业化且突出重点。 概况来说,数据可视化需要根据数据的特征以及性质,找到合适的方式将数据直观的展现出来,这样方便大家阅读并且找到数据中隐含的信息。 那今天安利两个在线的可视化工具网站。 Chartify 官网:ht
阅读全文
摘要:pyecharts:官方文档 我们这里使用pyecharts模块进行绘图。 pyecharts 项目包含了一系列的地理地图数据,这些数据或者已经内置,或者需要额外安装和加载,我们需要下载下面六个包。 选择自己需要的安装 pip install echarts-countries-pypkg pip
阅读全文
摘要:原文:Artist tutorial 译者:飞龙 协议:CC BY-NC-SA 4.0 matplotlib API 有三个层级。 matplotlib.backend_bases.FigureCanvas是绘制图形的区域,matplotlib.backend_bases.Renderer是知道如何
阅读全文
摘要:matplotlib.pyplot是一个命令风格函数的集合,使matplotlib的机制更像 MATLAB。 每个绘图函数对图形进行一些更改:例如,创建图形,在图形中创建绘图区域,在绘图区域绘制一些线条,使用标签装饰绘图等。在matplotlib.pyplot中,各种状态跨函数调用保存,以便跟踪诸如
阅读全文