Python导出微信公众号文章
平时我们可能需要把感兴趣的公众号的文章保存为pdf,方便离线查看,也可以避免某些文章被删除后看不到。所以我们需要把该公众号的文章批量导出为pdf。这里我们使用python来实现该功能。
1、导出该公众号的所有文章链接等信息为CSV文件。
首先我们安装chrome的webscraper插件,用来爬取自己感兴趣的公众号的文章导出为CSV文件。文件保存文章的标题,时间和链接。具体插件的使用细节自己百度。
2、根据第一步生成的CSV文件批量导出为pdf
首先我们安装wkhtmltopdf工具程序。然后编写程序来读取上一步得到的csv文件批量导出为pdf。这里由于微信的图片防盗链措施,直接根据url导出pdf会发现图片缺失。所以我们需要对请求得到的html文件进行处理后,再导出为pdf。具体核心代码如下:
1 def process(item): 2 url = str(item[2]) 3 name = item[1] + item[0] + '.pdf' 4 response = requests.get(url) 5 html = response.text 6 html = html.replace('data-src', 'src') 7 8 try: 9 pdfkit.from_string(html, name) 10 except: 11 pass 12 13 with open("weixin.csv","r",encoding="gbk") as f: 14 f_csv=csv.reader(f) 15 next(f_csv) 16 pool = ThreadPool(processes=20) 17 pool.map(process, (i for i in f_csv)) 18 pool.close()
其中使用了线程池来加速处理生成pdf,本地测试一分钟可以导出90+篇文章。
代码:GitHub
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)