[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载文件

《Python机器学习手册——从数据预处理到深度学习》

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用中也能更为熟练。

02-加载数据

包括：

加载样本数据集
创建仿真数据集
加载CSV文件
加载Excel文件
加载json文件
查询SQL数据库

其中1、2部分内容主要是sklearn库中datasets的基本应用，在02-加载数据：加载数据集进行详细叙述。

3-6部分主要是不同文件的读入，采用pandas模块，本文也会结合其他笔记进行补充。

02-3 加载CSV文件

CSV文件读写之前写过一篇，基本满足日常需求：https://www.cnblogs.com/camilia/p/16008389.html
在实际使用中会随时进行补充。

02-4 加载Excel文件

import pandas as pd

# sheetname 指加载哪张数据表，可以是表名字符串，也可以是表号（0开始）
# 如果需要读取多个表，sheetname可以作为列表，返回值为dataframe的字典
dataframe = pd.read_excel(url, sheetname = 0, header = 1)

02-5 加载json文件

import pandas as pd
dataframe = pd.read_json(url, orient = 'columns')

orient有多个选择状态，参考：https://blog.csdn.net/qq_41562377/article/details/90203805
最终也是将字符串数据转换为dataframe格式。
也可以采用json模块直接读取字典或列表。

02-6 查询SQL数据库

import pandas as pd
from sqlalchemy import create_engine

# 创建一个数据库的连接
database_connection = create_engine('sqline:///sample.db')
# 加载数据
dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)

posted @ 2022-09-13 21:35 CAMILIA 阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

CAMILIA的学习日记