Python文本读取
Python文本读取
.txt文件
优点:txt文件容易读取,不需要调库。只要数据没问题,一般不会出现奇奇怪怪的错误。【当然,调用库读取Excel表格有问题的话,可以直接删除表格中自己不要的行、列,直接另存为制表符分割的txt文件】
以文本由label 和 content两列组成为例
方法:
with open(filename, encoding='utf-8') as f: i = 0 for line in f: i = i + 1 try: label, content = line.strip().split('\t') except: print(line, '内容无法被识别') print(i,'行内容有问题')
注意:
- 错误捕捉一定要有!既可以跳过问题文本,还可以直接输出错误位置。(不写两行泪)
- 采用with打开文件,不需要加关闭文件的步骤,不容易出错。
- strip方法用于移除字符号串头尾指定的字符(默认为空格或换行符)或字符序列。【该方法只能删除开头或是结尾的字符,不能删除中间部分的字符】语法表达:line.strip([char])
- split方法利用指定分隔符对字符串进行切片,在上述例子中就将以制表符分割的label 和content两列分别赋值给label 和 content两个数组。
.xlsx文件
优点:直接用Excel处理完之后就可以读取,对于那些有多个工作表的来说,好像有点复杂(没有尝试 可以自己去查一查)
方法:
import pandas as pd data = pd.read_excel('路径', header=None) df = pd.DataFrame(data)
注意:
表格有不用形式,具体函数的参数上网查就行。使用Pandas库的好处就是之后可以利用dataframe进行方便的操作。之后用数据可能会方便一点。
.csv文件
import pandas as pd data = pd.read_csv('hellp.csv')
注意:
读取文件时设置文件的编码,编码出现问题的话,读取过程中也会遇到各种各样奇奇怪怪的问题。最直接的方式就是直接将文件在notpad++中打开,点击编码选项,修改为'UTF-8'即可。【简单粗暴又有效】