1.pandas和excel表格很像,它可以设置列名columns和行名index。
2.axis表示的是轴。axis=1表示的是横向,axis=0表示的是纵向。
3.inplace参数在很多的函数中都会用到,它是看是否在原对象的基础上进行修改。
inplace=true 表示不创建新的对象,直接对原数据进行修改。
inplace=false 表示对数据进行修改,创建并返回新的对象承载其修改结果
默认是false,即创建新的对象进行修改,原对象不变。
4.pd.concat将多个pandas对象按照行索引或者列索引进行连接。 默认是纵向连接。
并且合并之后不改变每个dataframe子对象的index的值
**纵向合并
如果要改变需要添加ignore_index=true这个参数
如果说要合并的两个对象列数不一样,那么合并之后少的那一列的值用NaN代替
**横向合并
通过设置参数axis=1 可以实现两个dataframe对象的横向合并
5.to_csv是dataframe类的方法,read_csv是pandas的方法
6.在函数中定义的变量是局部变量
在程序一开始定义的变量为全局变量
局部变量在函数内的优先级高于全局变量
7.字典的更新用update,列表的更新用append。
8.self只有在类中才会有,self是在定义类的方法时必须有的;
9.列表是一个可变的数据类型,并且列表是可以嵌套的。
10.元组是不可变的,元组可以嵌套。
11.字典也是可变的!注意,字典中的key值必定是唯一的!字典也是可以嵌套的。
12.%s 代表的是让文件以字符串的形式输出
13.类名称的第一个首字母大写
14.enumerate 用于将一个可遍历的数据对象组合为一个索引序列,一般情况下用于for循环
15.pandas中的loc是根据index进行索引
iloc是根据行号进行行号进行索引,从0开始,逐次加1
16. .shape[0]用来获取行数
.shape[1]用来获取列数
17.python中的with as 方法来帮助我们调用close方法
18.函数的一般结构中def 函数名()
后面的括号必须有
19.json.dmps用于将字典形式的数据转化成字符串
20.header用来指定作为列名的行,header=0表示第一行作为列名,取的数据是第一行以下的数据。
21.在用pd.read_excel读取数据的时候如果遇到某一列含有01100这种数据时,pd.read_excel返回的dataframe会将这一列视为int类型返回成1100
所以要增加converters={“工号”:str} 确保数据的完整性
22.mode=’w+‘表示可读可写,若文件不存在则创建,覆盖。
23.mode='a+'也是可读可写,若文件不存在则创建,但是它不覆盖,追加继续写。
24.python标准库中有json模块,主要执行序列化和反序列化。
序列化:encoding 把一个python编码转化成json字符串
用法是json.dumps()
序列化时对中文默认使用的是ascii编码,所以要加上ensure_ascii=False,输出真正的中文。
反序列化:decoding 是把一个json格式字符串转化成python数据对象
用法是json.loads()
json.dumps有很多参数 其中sort_keys = True的意思是按照键的字典顺序进行排序(也就是说按照键的首字母进行排序,a字打头的在最前面)
indent参数是缩进的意思,它使得数据存储的格式更加的优雅。indent=2是让每个键值对显示的时候,以缩进两个字符,使得视觉效果更佳。
25.python的os库
os.getcwd() 用来返回当前路径
os.listdir()用来返回指定的文件夹包含的文件或者文件夹的名称的列表
os.listdir('.')用来返回当前路径下的文件名和目录名
os.listdir('..')返回父目录中的文件名和目录名
26.python中的join()方法用于将序列中的元素以指定字符连接生成一个新的字符串
格式是str.join(sequence)
27.python在字符串前加上r是为了防止字符转义的
28.python中的zip()返回的是tuple()的迭代器
如果传入zip()的参数长度不等,那么取最短的那个参数的长度
29.list(set(a))中 set方法是对元素进行去重
30.python中的re.split的切割功能非常强大
(1)两个以上的分隔符号要放在[]中
(2)空格用的是\s
31.python文件中的write方法用于将指定的字符串写入文件中
用with open as 和write函数写json函数