爬虫 - 随笔分类 - 酱紫安

十一、模拟扫码登录微信（用Django简单的布置了下页面）发送接收消息

摘要：为了能够模拟登陆QQ，并获取信息。对扫码登录微信进行了分析。简单的用了一下Django将获取的信息映射到页面上。（python3+pycharm）主要过程就是： 1、获取二维码 2、扫码登录（有三种状态） 3、获取联系人信息（index页面获取的是个人信息、最近联系人信息、公众号） 4、获取所有的阅读全文

posted @ 2018-04-17 11:07 酱紫安阅读(3504) 评论(0) 推荐(1)

九、Python+Selenium模拟登录

摘要：研究QQ登录规则的话，得分析大量Javascript的加密解密，比较耗时间。自己也是练习很少，短时间成功不了。所以走了个捷径。 Selenium是一个WEB自动化测试工具，它运行时会直接实例化出一个浏览器，完全模拟用户的操作，比如点击链接、输入表单，点击按钮提交等。所以我们使用它可以很方便的来登录。阅读全文

posted @ 2018-04-13 23:35 酱紫安阅读(367) 评论(0) 推荐(0)

十、豆瓣读书爬虫

摘要：用了一上午的时间做了个这个，还是比较简单的。多练练，总会进步。遇到了很多问题，庆幸自己都解决了。我的过程是：（python3） 1、先将豆瓣读书的所有标签以每行七个打印到页面上。 2、输入要爬取标签的名字，可以输入多个。 3、输入你想要爬取多少页。 4、爬取每本书的书名、作者、出版社、评分、评价人阅读全文

posted @ 2018-04-13 13:19 酱紫安阅读(1424) 评论(0) 推荐(1)

九、Python+Selenium模拟用QQ登陆腾讯课堂，并提取报名课程（练习）

摘要：研究QQ登录规则的话，得分析大量Javascript的加密解密，比较耗时间。自己也是练习很少，短时间成功不了。所以走了个捷径。 Selenium是一个WEB自动化测试工具，它运行时会直接实例化出一个浏览器，完全模拟用户的操作，比如点击链接、输入表单，点击按钮提交等。所以我们使用它可以很方便的来登录。阅读全文

posted @ 2018-04-09 21:56 酱紫安阅读(24) 评论(0) 推荐(0)

八、多线程爬虫（先占个位置，等整理好线程，进程，协程，异步IO在来写）

摘要：计算机的核心是CPU，CPU承担了所有的计算任务。一个CPU核心，一次只能执行一个任务；多个CPU核心同时可以执行多个任务。一个CPU一次只能执行一个进程，其他进程处于非运行状态。进程里包含的执行单元叫线程；一个进程可以包含多个线程。一个进程的内存空间是共享的，每个进程里的线程都可以使用阅读全文

posted @ 2018-02-28 19:14 酱紫安阅读(187) 评论(0) 推荐(0)

七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录

摘要：每天一个小实例1（动态页面模拟点击，并爬取你想搜索的职位信息）结果：每天一个小实例2（模拟网站登录）结果：登录前后截图：基本应用：我用的是Python3、selenium2.53.5、PhantomJS Selenium（最新版本的Selenium已经不支持PhantomJS了，要想用请阅读全文

posted @ 2018-02-24 19:23 酱紫安阅读(2543) 评论(0) 推荐(0)

六、BeautifulSoup4------自动登录网站（手动版）

摘要：每天一个小实例：（按照教学视频上自动登录的网站，很容易就成功了。自已练习登录别的网站，问题不断）这个自己分析登录boss直聘。我用了一下午的时间，而且还是手动输入验证码，自动识别输入验证码的还没成功，果然是师傅领进门，修行看个人，以后要多练第一步、先访问网站，分析一下登录需要什么数据第二步、创阅读全文

posted @ 2018-02-22 12:07 酱紫安阅读(1134) 评论(0) 推荐(0)

五、XML与xpath--------------爬取美女图片

摘要：除了正则表达式处理HTML文档，我们还可以用XPath，先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。先用一个小实例开头吧（爬取贴吧每个帖子的图片）运行结果：打开存储图片的文件夹：一、什么是XML？ XML 指可扩展标记语言（eXtensible M 阅读全文

posted @ 2018-02-21 08:29 酱紫安阅读(1924) 评论(4) 推荐(5)

四、正则表达式re模块

摘要：什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符阅读全文

posted @ 2018-02-20 12:00 酱紫安阅读(330) 评论(0) 推荐(0)

三、Requests库的使用

摘要：requests 的底层实现其实就是 urllib3 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。学过关于urllib库的使用，你会发现它是很不方便的。而Requests工作起来会比urllib方便，Requests是Python实现的最简单易用的HTTP 阅读全文

posted @ 2018-02-20 10:41 酱紫安阅读(869) 评论(2) 推荐(0)

二、urllib进阶

摘要：Handler处理器和自定义Opener opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/ 阅读全文

posted @ 2018-02-20 00:11 酱紫安阅读(325) 评论(0) 推荐(0)

一、爬虫的基本体系和urllib的基本使用

摘要：爬虫网络是一爬虫种自动获取网页内容的程序，是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。爬虫的分类传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件阅读全文

posted @ 2018-02-19 09:49 酱紫安阅读(540) 评论(2) 推荐(0)

随笔分类 - 爬虫