07 2021 档案

从牛客SQL67解读 “为什么mysql5.7默认使用only_full_group_by”
摘要:果然事件才是检验真理的唯一标准 题目链接 当初我写这道题时就准备了两种思路,常规思路和窗口函数两种。 窗口函数必然是能解的,我尝试了一下常规思路,在这个过程中我忽然明白了为什么mysql默认的sql_mode中要有一条“only_full_group_by”了 目录什么是only_full_grou 阅读全文

posted @ 2021-07-18 09:57 G-Aurora 阅读(27) 评论(0) 推荐(0)

typora+emoji
摘要:from:https://www.cnblogs.com/wangjs-jacky/p/12011208.html 目录People(小黄脸+人物)Nature(自然)ObjectPlacesSymbols People(小黄脸+人物) 😄 :smile: |😆 :laughing: 😊 :b 阅读全文

posted @ 2021-07-15 13:10 G-Aurora 阅读(27) 评论(0) 推荐(0)

plotly学习地图(持续更新)
摘要:来吧,让我们试试在新手阶段就摆脱Matplotlib的复杂,拥抱ploty 人生苦短,我用python;同样的,人生苦短,我用ploty 官网: Plotly: The front end for ML and data science models https://plotly.com/pytho 阅读全文

posted @ 2021-07-14 17:04 G-Aurora 阅读(24) 评论(0) 推荐(0)

附录A NumPy高级应用
摘要:在这篇附录中,我会深入NumPy库的数组计算。这会包括ndarray更内部的细节,和更高级的数组操作和算法。 本章包括了一些杂乱的章节,不需要仔细研究。 目录A.1 ndarray对象的内部机理NumPy数据类型体系A.2 高级数组操作数组重塑C和Fortran顺序数组的合并和拆分堆叠辅助类:r_和 阅读全文

posted @ 2021-07-14 16:28 G-Aurora 阅读(11) 评论(0) 推荐(0)

附录B 更多关于IPython的内容(完)
摘要:第2章中,我们学习了IPython shell和Jupyter notebook的基础。本章中,我们会探索IPython更深层次的功能,可以从控制台或在jupyter使用。 目录B.1 使用命令历史搜索和重复使用命令历史输入和输出变量B.2 与操作系统交互Shell命令和别名目录书签系统B.3 软件 阅读全文

posted @ 2021-07-14 16:28 G-Aurora 阅读(27) 评论(0) 推荐(0)

第14章 数据分析案例
摘要:本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。 案例数据集可以在Github仓库找到,见第一章。 目录14.1 来自Bitly的USA. 阅读全文

posted @ 2021-07-14 16:27 G-Aurora 阅读(33) 评论(0) 推荐(0)

第13章 Python建模库介绍
摘要:本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。 开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为了 阅读全文

posted @ 2021-07-14 16:26 G-Aurora 阅读(44) 评论(0) 推荐(0)

第12章 pandas高级应用
摘要:前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。 目录12.1 分类数据背景和目的pandas的分类类型用分类进行计算用分类提高性能分类方法为建模创建虚拟变量12.2 阅读全文

posted @ 2021-07-14 16:25 G-Aurora 阅读(31) 评论(0) 推荐(0)

第11章 时间序列
摘要:时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间 阅读全文

posted @ 2021-07-14 16:24 G-Aurora 阅读(52) 评论(0) 推荐(0)

第10章 数据聚合与分组运算
摘要:对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。 关系型数据库和SQL(St 阅读全文

posted @ 2021-07-14 16:23 G-Aurora 阅读(78) 评论(0) 推荐(0)

第09章 绘图和可视化
摘要:信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http:// 阅读全文

posted @ 2021-07-14 16:23 G-Aurora 阅读(63) 评论(0) 推荐(0)

第08章 数据规整:聚合、合并和重塑
摘要:在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。 目录8.1 层次化索引重排与分级排序根据级别 阅读全文

posted @ 2021-07-14 16:22 G-Aurora 阅读(18) 评论(0) 推荐(0)

第07章 数据清洗和准备
摘要:在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对 阅读全文

posted @ 2021-07-14 16:21 G-Aurora 阅读(24) 评论(0) 推荐(0)

第06章 数据加载、存储与文件格式
摘要:访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。 目录6.1 读写文本格式的数据逐块读取文本文件将 阅读全文

posted @ 2021-07-14 16:20 G-Aurora 阅读(25) 评论(0) 推荐(0)

第05章 pandas入门
摘要:pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建 阅读全文

posted @ 2021-07-14 16:19 G-Aurora 阅读(7) 评论(0) 推荐(0)

第04章 NumPy基础:数组和矢量计算
摘要:NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数( 阅读全文

posted @ 2021-07-14 16:18 G-Aurora 阅读(21) 评论(0) 推荐(0)

第03章 Python的数据结构、函数和文件
摘要:本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。 我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后, 阅读全文

posted @ 2021-07-14 16:17 G-Aurora 阅读(32) 评论(0) 推荐(0)

第2章 Python语法基础,IPython和Jupyter Notebooks
摘要:目录2.1 Python解释器2.2 IPython基础运行IPython Shell运行Jupyter NotebookTab补全自省%run命令中断运行的代码从剪贴板执行程序键盘快捷键魔术命令集成Matplotlib2.3 Python语法基础语言的语义使用缩进,而不是括号万物皆对象注释函数和对 阅读全文

posted @ 2021-07-14 16:16 G-Aurora 阅读(50) 评论(0) 推荐(0)

第1章 准备工作
摘要:目录1.1 本书的内容什么样的数据?1.2 为什么要使用Python进行数据分析Python作为胶水语言解决“两种语言”问题为什么不选Python1.3 重要的Python库NumPypandasmatplotlibIPython和JupyterSciPyscikit-learnstatsmodel 阅读全文

posted @ 2021-07-14 16:10 G-Aurora 阅读(24) 评论(0) 推荐(0)

个人整理《利用Python进行数据分析·第2版》(翻译优化) 序
摘要:感谢一颗仍然孜孜不倦的求知之心以及与网友的缘分以及自己的运气, 让我在茫茫互联网的信息海中,找到对第二版的勘正与翻译优化版, 在此向优化翻译的网友SeanCheney - 简书 (jianshu.com)致以最高的敬意 附录序优化版作者原版链接及Github地址: 第1章 准备工作 第2章 Pyth 阅读全文

posted @ 2021-07-14 16:05 G-Aurora 阅读(7) 评论(0) 推荐(0)

hive常用运算和函数 & 空值处理
摘要:转载备查:hive常用运算和函数 - 简书 (jianshu.com) 目录第一部分:关系运算等值比较: =不等值比较: <>小于比较: <小于等于比较: <=大于等于比较: >=空值判断: IS NULL非空判断: IS NOT NULLLIKE比较: LIKEJAVA的LIKE操作: RLIKE 阅读全文

posted @ 2021-07-12 11:28 G-Aurora 阅读(233) 评论(0) 推荐(0)