随笔分类 -  爬虫

十一、模拟扫码登录微信(用Django简单的布置了下页面)发送接收消息
摘要:为了能够模拟登陆QQ,并获取信息。对扫码登录微信进行了分析。简单的用了一下Django将获取的信息映射到页面上。(python3+pycharm) 主要过程就是: 1、获取二维码 2、扫码登录(有三种状态) 3、获取联系人信息(index页面获取的是个人信息、最近联系人信息、公众号) 4、获取所有的 阅读全文

posted @ 2018-04-17 11:07 酱紫安 阅读(3504) 评论(0) 推荐(1)

九、Python+Selenium模拟登录
摘要:研究QQ登录规则的话,得分析大量Javascript的加密解密,比较耗时间。自己也是练习很少,短时间成功不了。所以走了个捷径。 Selenium是一个WEB自动化测试工具,它运行时会直接实例化出一个浏览器,完全模拟用户的操作,比如点击链接、输入表单,点击按钮提交等。所以我们使用它可以很方便的来登录。 阅读全文

posted @ 2018-04-13 23:35 酱紫安 阅读(367) 评论(0) 推荐(0)

十、豆瓣读书爬虫
摘要:用了一上午的时间做了个这个,还是比较简单的。多练练,总会进步。遇到了很多问题,庆幸自己都解决了。 我的过程是:(python3) 1、先将豆瓣读书的所有标签以每行七个打印到页面上。 2、输入要爬取标签的名字,可以输入多个。 3、输入你想要爬取多少页。 4、爬取每本书的书名、作者、出版社、评分、评价人 阅读全文

posted @ 2018-04-13 13:19 酱紫安 阅读(1424) 评论(0) 推荐(1)

九、Python+Selenium模拟用QQ登陆腾讯课堂,并提取报名课程(练习)
摘要:研究QQ登录规则的话,得分析大量Javascript的加密解密,比较耗时间。自己也是练习很少,短时间成功不了。所以走了个捷径。 Selenium是一个WEB自动化测试工具,它运行时会直接实例化出一个浏览器,完全模拟用户的操作,比如点击链接、输入表单,点击按钮提交等。所以我们使用它可以很方便的来登录。 阅读全文

posted @ 2018-04-09 21:56 酱紫安 阅读(24) 评论(0) 推荐(0)

八、多线程爬虫(先占个位置,等整理好线程,进程,协程,异步IO在来写)
摘要:计算机的核心是CPU,CPU承担了所有的计算任务。 一个CPU核心,一次只能执行一个任务; 多个CPU核心同时可以执行多个任务。 一个CPU一次只能执行一个进程,其他进程处于非运行状态。 进程里包含的执行单元叫线程; 一个进程可以包含多个线程。 一个进程的内存空间是共享的,每个进程里的线程都可以使用 阅读全文

posted @ 2018-02-28 19:14 酱紫安 阅读(187) 评论(0) 推荐(0)

七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录
摘要:每天一个小实例1(动态页面模拟点击,并爬取你想搜索的职位信息) 结果: 每天一个小实例2(模拟网站登录) 结果: 登录前后截图: 基本应用: 我用的是Python3、selenium2.53.5、PhantomJS Selenium(最新版本的Selenium已经不支持PhantomJS了,要想用请 阅读全文

posted @ 2018-02-24 19:23 酱紫安 阅读(2543) 评论(0) 推荐(0)

六、BeautifulSoup4------自动登录网站(手动版)
摘要:每天一个小实例:(按照教学视频上自动登录的网站,很容易就成功了。自已练习登录别的网站,问题不断) 这个自己分析登录boss直聘。我用了一下午的时间,而且还是手动输入验证码,自动识别输入验证码的还没成功,果然是师傅领进门,修行看个人,以后要多练 第一步、先访问网站,分析一下登录需要什么数据 第二步、创 阅读全文

posted @ 2018-02-22 12:07 酱紫安 阅读(1134) 评论(0) 推荐(0)

五、XML与xpath--------------爬取美女图片
摘要:除了正则表达式处理HTML文档,我们还可以用XPath,先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 先用一个小实例开头吧(爬取贴吧每个帖子的图片) 运行结果: 打开存储图片的文件夹: 一、什么是XML? XML 指可扩展标记语言(eXtensible M 阅读全文

posted @ 2018-02-21 08:29 酱紫安 阅读(1924) 评论(4) 推荐(5)

四、正则表达式re模块
摘要:什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正则表达式和另一个字符 阅读全文

posted @ 2018-02-20 12:00 酱紫安 阅读(330) 评论(0) 推荐(0)

三、Requests库的使用
摘要:requests 的底层实现其实就是 urllib3 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 学过关于urllib库的使用,你会发现它是很不方便的。而Requests工作起来会比urllib方便,Requests是Python实现的最简单易用的HTTP 阅读全文

posted @ 2018-02-20 10:41 酱紫安 阅读(869) 评论(2) 推荐(0)

二、urllib进阶
摘要:Handler处理器 和 自定义Opener opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/ 阅读全文

posted @ 2018-02-20 00:11 酱紫安 阅读(325) 评论(0) 推荐(0)

一、爬虫的基本体系和urllib的基本使用
摘要:爬虫 网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 爬虫的分类 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件 阅读全文

posted @ 2018-02-19 09:49 酱紫安 阅读(540) 评论(2) 推荐(0)

导航