from pathlib import Path
files = Path(r"D:\菜J学Python\数据分析\蛋壳公寓").glob("*.csv")
dfs = [pd.read_csv(f) for f in files]
df = pd.concat(dfs)
df.head()
文件目录
遍历当前目录下所有文件
import os
file_list = os.walk("./")
for dir_path,dirs,files in file_list:
for f in files:
file_path = os.path.join(dir_path,f) #重构文件路径
print(file_path)
判断文件存在
path.exists(outfile)
拼接路径
path.join(outdir, os.path.basename(picfile))
PDF
PDF转Text
import pdfplumber
with pdfplumber.open("兴业B信托项目风险管理研究.pdf") as p:
for i in range(75):
page = p.pages[i]
textdata = page.extract_text()
data = open("text.text", "a")
data.write(textdata)
PDF转Word
import pdfplumber
from docx import Document
with pdfplumber.open("研究.pdf") as p:
page = p.pages[2]
textdata = page.extract_text()
document = Document() #新建一个空白的word文档
content = document.add_paragraph(textdata) #在文档中添加正文段落,将变量textdata导进去
document.save("word.docx") #保存文档docx,命名为word
PDF提取表格
import pdfplumber
from openpyxl import Workbook
with pdfplumber.open("兴业B信托项目风险管理研究.pdf") as p:
workbook = Workbook() #新建空白Excel工作簿
sheet = workbook.active #激活sheetfor i inrange(68,75): #遍历69页-75页
page = p.pages[i]
table = page.extract_table() #提取表格数据for row in table: #遍历所有行
sheet.append(row) #按行追加写入数据
workbook.save("Excel.xlsx") #保存文件,命名为Excel
i += 1print("第%d页PDF提取完成"%i) #提示提取进度
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库