Python文本读取

Python文本读取

.txt文件

优点:txt文件容易读取,不需要调库。只要数据没问题,一般不会出现奇奇怪怪的错误。【当然,调用库读取Excel表格有问题的话,可以直接删除表格中自己不要的行、列,直接另存为制表符分割的txt文件】

以文本由label 和 content两列组成为例

方法:

 with open(filename, encoding='utf-8') as f:
     i = 0
     for line in f:
         i = i + 1
         try:
             label, content = line.strip().split('\t')
         except:
             print(line, '内容无法被识别')
             print(i,'行内容有问题')

注意:

  1. 错误捕捉一定要有!既可以跳过问题文本,还可以直接输出错误位置。(不写两行泪)
  2. 采用with打开文件,不需要加关闭文件的步骤,不容易出错。
  3. strip方法用于移除字符号串头尾指定的字符(默认为空格或换行符)或字符序列。【该方法只能删除开头或是结尾的字符,不能删除中间部分的字符】语法表达:line.strip([char])
  4. split方法利用指定分隔符对字符串进行切片,在上述例子中就将以制表符分割的label 和content两列分别赋值给label 和 content两个数组。

.xlsx文件

优点:直接用Excel处理完之后就可以读取,对于那些有多个工作表的来说,好像有点复杂(没有尝试 可以自己去查一查)

方法:

import pandas as pd
data = pd.read_excel('路径', header=None)
df = pd.DataFrame(data)

注意:

表格有不用形式,具体函数的参数上网查就行。使用Pandas库的好处就是之后可以利用dataframe进行方便的操作。之后用数据可能会方便一点。

.csv文件

import pandas as pd
data = pd.read_csv('hellp.csv')

注意:

读取文件时设置文件的编码,编码出现问题的话,读取过程中也会遇到各种各样奇奇怪怪的问题。最直接的方式就是直接将文件在notpad++中打开,点击编码选项,修改为'UTF-8'即可。【简单粗暴又有效】

posted @ 2021-03-29 15:46  芋圆院长  阅读(142)  评论(0编辑  收藏  举报