摘要: 需求:使用unstructured模块进行pdf内容识别及分块,需要本地安装了tesseract-ocr,以支持pytesseract * 在Windows,可以直接安装tesseract-ocr;在Ubuntu,可以用apt install tesseract-ocr安装相关环境及依赖 当安装源里 阅读全文
posted @ 2024-06-17 16:51 谷小雨 阅读(70) 评论(0) 推荐(0) 编辑