随笔分类 - 爬虫
摘要:目标url "有道翻译" 打开网站输入要翻译的内容,一一查找network发现数据返回json格式,红框就是我们的翻译结果 查看headers,发现返回结果的请求是post请求,且携带一大堆form_data,一一理下一表单数据 i:要翻译的数据 from、to:from to 表示从哪国语言翻译到
阅读全文
摘要:正则表达式 P = re.compile(regex, re.S) P.findall("str") P.sub("_", "str") re.findall(regex, "str") re.sub(regex,"_", str) 原始字符串r 在正则中忽略转义带来的影响 re.findall("
阅读全文
摘要:定位js 使用chrome eventlistener search all file中所有关键词 分析js 添加断点的方式,浏览器会在断点处暂停 console中尝试js的执行结果 requests小技巧 requests.utils.dict_from_cookiejar cookie转化为字典
阅读全文
摘要:headers 形式 字典 User Agent,Cookies 使用User Agent能够模拟浏览器 如果因为参数问题爬取不到数据,添加更多参数 params 形式 字典 键是=前面的内容,值是=后面的内容 字符串格式化:'wenshao{}'.format('dashuabi') post 发
阅读全文
摘要:html 爬虫基础 概念 模拟浏览器发送网络请求,获取响应 分类 通用爬虫 搜索引擎的爬虫,面对整个互联网上所有的网站 聚焦爬虫 针对特定网站的爬虫 分类标准:爬虫爬取的范围 流程 1.url 2.发送请求,获取响应 (提取url地址,发送下一次请求) 3.提取数据 保存 rebots协议 道德层面
阅读全文
摘要:需求:通过淘宝模拟登录打造一个关键词搜索库 以上代码不足之处,没有使用代理,淘宝网算是反爬比较厉害的网站,时不时会跳出来浏览限制(比如让输入验证码),一般都是因为同一个ip短时间内数据获取量太快 提供三个解决方案 1. 外接打码平台,识别验证码,返回输入 2. 如果比较牛逼,可以使用深度学习图像识别
阅读全文