所见即所得,赋能RAG:PDF解析里的段落识别
摘要:
前几天,有一位用户使用OCR产品识别多栏论文后向我们询问:要怎么解决不合适的断句、分段以及错误阅读顺序的问题? 我们用一个相似案例为大家直观展示这位用户遇到的情况。 如图中的多栏期刊,如果用OCR识别,或直接在一些办公软件对文字进行复制黏贴,我们就会得到右侧的效果——按PDF排版而不是语义进行换行分 阅读全文
posted @ 2024-07-25 10:48 合合技术团队 阅读(34) 评论(0) 推荐(0) 编辑