爬虫入门

常用库

requests
beautifulsoup bs4
requests-html
接触过爬虫用的最多的包无非就是requests, urllib包，我们再使用这些包的时候显示，用requests包去获取响应，然后再利用pyquery或者bs4,xpath再去整理提取我们需要是目标数据。也就是下面两步：

import requests

from pyquery import PyQuery as pq

#获取网页

html = requests.get()

#解析网页

doc = pq(html)

作者：RevinDuan
链接：https://www.jianshu.com/p/bd828b9cf74d
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

posted @ 2020-03-08 09:20 喵喵小学僧阅读(119) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 终于决定：把自己家的能源管理系统开源了！
· 外部H5唤起常用小程序链接规则整理
· C#实现 Winform 程序在系统托盘显示图标 & 开机自启动
· 了解 ASP.NET Core 中的中间件
· 详解：订单履约系统规划

昵称：喵喵小学僧
园龄： 7年9个月
粉丝： 6
关注： 0

2025年1月

日

一

二

三

四

五

六