随笔分类 - 爬虫
摘要:# 1 selenium等待元素加载 ```python # 程序执行速度很快 》获取标签 》标签还没加载好 》直接去拿会报错 # 显示等待:当你要找一个标签的时候,给它加单独加等待时间 # 隐士等待:只要写一行,代码中查找标签,如果标签没加载好,会自动等待 browser.implicitly_w
阅读全文
摘要:# 1 爬取新闻 ```python # 1 爬取网页 requests # 2 解析 xml格式,用了re匹配的 html,bs4,lxml。。。 json: -python :内置的 -java : fastjson 》漏洞 -java: 谷歌 Gson -go :内置 基于反射,效率不高 ``
阅读全文
摘要:# 1.1 自动携带cookie 的session对象 ```python # session对象 》已经模拟登录上了一些网站 》单独把cookie 取出来 -res.cookies -转成字典 res.cookies.get_dict() #请求头和数据 import requests heade
阅读全文
摘要:# 补充 ```python # 软件运行,监听地址 127.0.0.1 只能访问 127.0.0.1 localhost 不能用本机ip地址访问,外部所有人都不能 访问你 0.0.0.0 127.0.0.1 localhost 本机ip地址访问 同一个局域网内,都可以通过ip地址访问 # 本地ho
阅读全文