摘要: 访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。 6.1 读写文本格式的数据 pandas提供了一 阅读全文
posted @ 2023-10-03 18:25 拾浅 阅读(4) 评论(0) 推荐(0) 编辑
摘要: pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建 阅读全文
posted @ 2023-10-03 18:25 拾浅 阅读(8) 评论(0) 推荐(0) 编辑
摘要: NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数( 阅读全文
posted @ 2023-10-03 18:25 拾浅 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。 我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后, 阅读全文
posted @ 2023-10-03 18:25 拾浅 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 第2章 Python语法基础,IPython和Jupyter Notebooks 当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并 阅读全文
posted @ 2023-10-03 18:25 拾浅 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 推荐公开网页数据专家brightdata.com,进入网站注册账号可免费获得诸如 亚马逊,沃尔玛,领英,抖音,Glassdoor,Airbnb,谷歌地图商家等数据集样本。详情注册后联系销售咨询(最好直接回复邮件),亲测是一个靠谱的公开网络数据源公司,他们的数据挖掘工具、代理网络服务也很不错,是一个目 阅读全文
posted @ 2023-10-03 18:25 拾浅 阅读(8) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示