1. 数据操作与预处理
创建, 操作文件#
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
f.write('NumRooms,Alley,Price\n')
f.write('NA,Pave,127500\n')
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
data = pd.read_csv(data_file)
print(data)
NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000
os.makedirs(): 创建一个文件夹, 括号里是路径
os.path.join('..', 'data'): 把括号里的路径组合起来, '..'指的是本代码文件的上一级目录, data即为要创建的文件夹
exist_ok=True: 意思是即使data文件夹已经存在了也不会报错
尽管文件夹里还没有csv文件, 但是我们可以先创建一个指向csv文件的路径
os.path.join可以把路径和文件名组合在一起
csv文件指的是只用逗号分隔的文件
with open(路径+文件名, 模式) as 变量: 以某种方式打开该文件, 模式 r表示只读模式, w表示写入模式, a表示追加模式(都是写内容, w是覆盖, a是添加)
变量会接收文件这个对象, 在后续操作用变量名代替即可
如果该文件不存在并且模式是w或者a, 那么with open函数会在该路径下自动创建该文件, 如果是r则会报错
NA在pandas里面表示缺失值, 对于数值数据pandas也会用浮点值NaN表示缺失值; None是python内置的缺失值
pd.read_csv(): 读取一个csv文件并将其转换为一个Pandas数据框的函数
数据框可以看作是一个二维的数组或矩阵
填充缺失值#
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)
NumRooms Alley
0 3.0 Pave
1 2.0 NaN
2 4.0 NaN
3 3.0 NaN
iloc[行, 列]: 选择数据框或序列中的行和列
fillna(a): 用数值a填充数据框里面的缺失值(NA/NaN)
mean(axis=0/1): 用于计算平均值, 如果axis=0, 则是计算每一列的平均值, 1则是每一行; 如果什么都不写则默认为计算列
numeric_only=True: 意为只计算数值型的数据
数据离散化#
inputs = pd.get_dummies(inputs, dummy_na=True, dtype = int)
print(inputs)
NumRooms Alley_Pave Alley_nan
0 3.0 1 0
1 2.0 0 1
2 4.0 0 1
3 3.0 0 1
pd.get_dummies(): 将数据离散化, 把每一种状态看作一种取值; dummy_na=True表示把缺失值NaN也列出来; dtype = int表示取值为int类型
这样就可以把所有的条目都变成数值类型, 方便后期转化为张量
输出数据框#
X, y=torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X)
print(y)
tensor([[3., 1., 0.],
[2., 0., 1.],
[4., 0., 1.],
[3., 0., 1.]], dtype=torch.float64)
tensor([127500, 106000, 178100, 140000])
python内置的values函数返回一个字典中所有值
深拷贝#
A = torch.arange(12).reshape(3,4)
B = A
C = A.clone()
print(id(A))
print(id(B))
print(id(C))
1744800477536
1744800477536
1744738998608
在torch中为了提高速度, 对于向量或者矩阵的赋值是指向同一内存的, B=A中A和B都指向同一个内存; 如果要保存旧的tensor就需要开辟新的地址而不是引用, 所以需要用clone进行深拷贝
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术