Python文本读取

.txt文件

优点：txt文件容易读取，不需要调库。只要数据没问题，一般不会出现奇奇怪怪的错误。【当然，调用库读取Excel表格有问题的话，可以直接删除表格中自己不要的行、列，直接另存为制表符分割的txt文件】

以文本由label 和 content两列组成为例

方法：
 with open(filename, encoding='utf-8') as f:
     i = 0
     for line in f:
         i = i + 1
         try:
             label, content = line.strip().split('\t')
         except:
             print(line, '内容无法被识别')
             print(i,'行内容有问题')
注意：

错误捕捉一定要有！既可以跳过问题文本，还可以直接输出错误位置。（不写两行泪）

采用with打开文件，不需要加关闭文件的步骤，不容易出错。

strip方法用于移除字符号串头尾指定的字符（默认为空格或换行符）或字符序列。【该方法只能删除开头或是结尾的字符，不能删除中间部分的字符】语法表达：line.strip([char])

split方法利用指定分隔符对字符串进行切片，在上述例子中就将以制表符分割的label 和content两列分别赋值给label 和 content两个数组。

.xlsx文件

优点：直接用Excel处理完之后就可以读取，对于那些有多个工作表的来说，好像有点复杂（没有尝试可以自己去查一查）

方法：
import pandas as pd
data = pd.read_excel('路径', header=None)
df = pd.DataFrame(data)
注意：

表格有不用形式，具体函数的参数上网查就行。使用Pandas库的好处就是之后可以利用dataframe进行方便的操作。之后用数据可能会方便一点。

.csv文件

import pandas as pd
data = pd.read_csv('hellp.csv')

注意：

读取文件时设置文件的编码，编码出现问题的话，读取过程中也会遇到各种各样奇奇怪怪的问题。最直接的方式就是直接将文件在notpad++中打开，点击编码选项，修改为'UTF-8'即可。【简单粗暴又有效】

posted @ 2021-03-29 15:46 芋圆院长阅读(142) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

芋圆院长

Python文本读取

Python文本读取

.txt文件

方法：

注意：

.xlsx文件

方法：

注意：

.csv文件

注意：

公告