Python爬虫html转markdown
Python爬虫html转markdown
说明
动态博客转静态博客(例如typecho转hexo),在上传静态博客文章时往往需要md文件
通过这个程序我我们可以很方便地以爬虫的方式获取markdown文档
代码
下面给出代码框架,根据需要进行修改即可运行
import requests
from bs4 import BeautifulSoup
import html2text as ht
url = '' #此处写你要爬虫的url
#爬虫
res = requests.get(url)
data = res.content
cont = BeautifulSoup(data, 'html.parser')
#获取包含文章内容的标签 attrs后跟的是最外层标签属性,根据爬取网站的实际情况进行修改
data = cont.find('div',attrs={'id':'post'}).text
#对上述字符串data进行处理,去除不能转换成markdown的标签,比如div等
#该部分代码根据需要自行添加,此处不给出
#转换
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
text = text_maker.handle(data)
#对获取的md格式的文本进行操作,比如写入到一个文件中,此处作为演示直接输出
print(text)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具