随笔分类 - 爬虫
基于python语言的实现网络爬虫的知识总结
摘要:requests.post()在通过requests.post()进行POST请求时,传入报文的参数有两个,一个是data,一个是json。常见的form表单可以直接使用data参数进行报文提交,而data的对象则是python中的字典类型;而在最新爬虫的过程中遇到了一种payload报文,是一种j
阅读全文
摘要:import time from selenium import webdriver from pyquery import PyQuery as pq options = webdriver.ChromeOptions() # options.add_argument('--disable-gpu
阅读全文
摘要:Gerapy 基于Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django和Vue.js的分布式爬虫管理框架。 支持 Gerapy是在Python 3.x上开发的。稍后将支持Python 2.x. 用法 通过pip安装Gerapy: pip3 install
阅读全文
摘要:1、背景 验证码自动识别在模拟登陆上使用的较为广泛,一直有耳闻好多人在使用机器学习来识别验证码,最近因为刚好接触这方面的知识,所以特定研究了一番。发现网上已有很多基于machine learning的验证码识别,本文主要参考几位大牛的研究成果,集合自己的需求,进行改进、学习。 2、基本工具 开发环境
阅读全文
摘要:Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
阅读全文
摘要:Requests基于urllib3比urllib更简单方便。 基本的GET请求 1 2 3 4 import requests response = requests.get('http://httpbin.org/get') print(response.text) 1 2 3 4 import
阅读全文
摘要:PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同。 PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同。 官方文档:http://pyquery.readthedocs.io/ 安装 1 pip i
阅读全文
摘要:在线正则表达式测试 http://tool.oschina.net/regex/ 常见匹配模式 re.match re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 1 re.match(pattern, string, flags=0
阅读全文
摘要:原文来自:https://www.cnblogs.com/0bug/p/8893677.html 原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urll
阅读全文
摘要:GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。 最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。 你可能自己写过无数个GET和POST请求,或者已经看过很多权威网站总结出的他们的区别,你非常清楚知道什么时候该
阅读全文
摘要:阅读目录 http的请求部分 常用请头信息 常用响应头信息 阅读目录 http的请求部分 常用请头信息 常用响应头信息 http的请求部分 基本结构 常用请头信息 Accept:text/html,image/*(告诉服务器,浏览器可以接受文本,网页图片) Accept-Charaset:ISO-8
阅读全文
摘要:什么是爬⾍ 请求⽹网站并提取数据的⾃自动化程序 爬虫的基本流程 发起请求 通过HTTP库向⽬目标站点发起请求,即发送⼀个Request,请求可以包含额外的headers等信息,等待服务器响应。 获取相应内容 如果服务器器能正常响应,会得到⼀一个Response,Response的内容便是所要获取的⻚
阅读全文
摘要:爬虫是什么 什么是互联网 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 互联网建立的目的 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U 盘去别人的
阅读全文