会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
小白Amir
博客园
首页
新随笔
联系
订阅
管理
2018年6月8日
scrapy+lxml.etree爬取百度贴吧
摘要: 分析:首先通过scrapy内置的xpath提取内容,发现为空,所以不行咯 采用正则re匹配出所有的<li>标签,也就是需要提取的所有内容 在把li标签通过resultTree = lxml.etree.HTML(articleBody),变成'lxml.etree._Element' 在通过resu
阅读全文
posted @ 2018-06-08 16:58 小白Amir
阅读(395)
评论(0)
推荐(0)
编辑