scrapy获取页面信息

本例子用命令行调试的方式，演示如何获取页面的特定信息:

0）示例页面

1）使用scrapy shell获取目标页面；

scrapy shell http://bj.lianjia.com/ershoufang/pg1tt2/

2）找到提取路径

在页面（本例中使用谷歌浏览器）用F12查看代码，找到要提取目标字段，如第一个房源的地址，在工具下栏有一个css的“路径”：

html body div div ul.sellListContent li.clear div.info.clear div.address div.houseInfo a

使用div后面的css路径，“ul.selListContent li.clear div.info.clear div.address div.houseInfo a”作为response.css函数的输入，如下图，此时已提取到了该页面使用该css的所有数据。

3）从已选择的数据中进一步提取目标信息

上述得到的结果为一个selector的数组SelectorList，数组的每个元素则对应页面中一个选择到的结果。因此需单独处理每个信息；这里直接使用xpath提取文本信息。提取结果为unicode编码的字符串列表，选择对应的字符串（如本例子中只有一个字符串）。如下：

4）打印列表信息

至此，目标信息就都找到了，可以使用循环将所有信息打印出来。如下：

posted @ 2017-12-06 01:30 木lin木阅读(2524) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发，如何调用三方的API Function，是通过提示词来发起调用的吗

2025年3月

日

一

二

三

四

五

六