PHP 读取word文档获取纯文本
方法一
因为doc格式的读取比较麻烦,这里采用的是基于linux环境的,通过libreoffice工具.使用php系统方法
shell_exec()
(需解除禁用函数)直接执行命令将doc/docx文件转为html文件,再读取html
linux命令解读:
export HOME=/tmp/ && /bin/libreoffice --headless --convert-to html file_tempName --outdir html_path
其中: file_tempName
为上传文件临时路径;/bin/libreoffice
为libreoffice
安装位置;html_path
为生成html的保存位置
代码
方法二(仅限docx)
通过系统方法
zip
将docx
文件转换生成xml
文件,再读取xml
文件获取存文本
代码
__EOF__

本文作者:coding在路上
本文链接:https://www.cnblogs.com/zyilong/p/php_read_word.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文链接:https://www.cnblogs.com/zyilong/p/php_read_word.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具