Python爬虫 - 随笔分类 - Geeksongs

【Python爬虫】：使用高性能爬虫快速检验证代理IP是否有效

摘要：在进行爬虫的过程当中，我们经常会遇到被封IP的情况，因此我们可以搜集一些代理IP，然后使用程序去测试哪些代理IP是可用的,我在这里使用了请求如下网站的方法： http://icanhazip.com/ 请求这个网站之后，如果请求成功，没有遇到异常，就会返回当前你请求这个网站的IP地址。同时保存到一个阅读全文

posted @ 2021-02-08 19:49 Geeksongs 阅读(957) 评论(0) 推荐(0)

【Python爬虫】：Scrapy数据持久化

摘要：要想将我们爬取到的文件的数据进行持久化操作，那么在Scrapy下有两种方式， 1.基于终端指令的数据持久化要求：只能将parse方法的返回值储存到文本文件当中注意：持久化文本文件的类型只能够为csv,json.xml等，不能够为txt,excel 指令使用： scrapy crawl xxx(爬阅读全文

posted @ 2021-02-08 07:08 Geeksongs 阅读(138) 评论(0) 推荐(0)

【Python爬虫】: Scrapy工程的创建和使用（爬取糗图百科）

摘要：一.创建一个Scrapy工程首先我们创建一个名为project_name的scrapy工程： scrapy startproject project_name 在子目录下生成一个名为first的爬虫文件： (base) F:\computer\scrapy_learn>scrapy genspid 阅读全文

posted @ 2021-02-07 11:18 Geeksongs 阅读(323) 评论(0) 推荐(0)

【Python爬虫】：模拟登录QQ空间

摘要：观察了下QQ空间实在是太好登录了！只需要首先点击账号密码登录，然后输入你的账号和密码就可以了！其中需要注意的是; 1.进行第一次点击的时候，点击“账号密码”的时候，需要首先切换到iframe模式 2.根据id进行选择输入代码如下; from selenium import webdriver i 阅读全文

posted @ 2021-02-04 13:28 Geeksongs 阅读(768) 评论(0) 推荐(0)

【Python爬虫】：使用动态IP代理进行反反爬虫

摘要：一.为什么要动态IP代理？当我们有时使用爬虫的时候，如果频繁对某一个界面请求过太多的次数，那么有些网站就会因为反爬虫的措施发现同一个IP地址对它请求了太多的次数，因此对我们的爬虫进行了禁止，你必须要登录这个网站才能够继续进行爬虫。这个时候呢，如果我们能够直接在请求网页的时候不断更换自己的IP地址，阅读全文

posted @ 2021-01-31 11:30 Geeksongs 阅读(902) 评论(0) 推荐(0)

【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250

摘要：在本篇博文当中，将会教会大家如何使用高性能爬虫，快速爬取并解析页面当中的信息。一般情况下，如果我们请求网页的次数太多，每次都要发出一次请求，进行串行执行的话，那么请求将会占用我们大量的时间，这样得不偿失。因此我们可以i使用高性能爬虫，也就是采用多进程，异步的方式对数据进行爬取和解析，这样就可以在更快阅读全文

posted @ 2021-01-31 10:42 Geeksongs 阅读(647) 评论(0) 推荐(0)

【Python爬虫】：破解网站字体加密和反反爬虫

摘要：前言：字体反爬，也是一种常见的反爬技术，例如58同城，猫眼电影票房，汽车之家，天眼查，实习僧等网站。这些网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符，是因为他们采用自定义字体文件，通过在线加载来引用样式，这是CSS3的新特性，通过 CSS3 阅读全文

posted @ 2021-01-31 09:01 Geeksongs 阅读(1844) 评论(0) 推荐(0)

【Python爬虫】：爬取58同城二手房的所有房产标题

摘要：我们首先打开58同城的网站：观察网站的版面：发现所有的title都是以h3开头，并且具有class为“ property-content-title-name ” 因此我们可以编写这样的程序即可得到整个版面的title，在程序当中使用Xpath表达式即可，使用起来非常方便： import requ 阅读全文

posted @ 2021-01-29 11:40 Geeksongs 阅读(1359) 评论(0) 推荐(0)

【Python爬虫】：Xpath表达式的使用

摘要：假设我爬取了这样的一个html网页，前面的前端代码如下所示： <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>OK资源采集-最新影视资源大全</title> <meta http-equiv="Content-Type" conte 阅读全文

posted @ 2021-01-29 09:31 Geeksongs 阅读(839) 评论(0) 推荐(0)

【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）

摘要：一.确定爬取思路今天突发奇想，能不能使用python爬虫来爬取一些妹子图片呢，于是摩拳擦掌开始干了起来。首先打开网页htttps://gank.io 当中的妹子专栏，发现里面全是妹子，如下所示：网址如下所示： https://gank.io/special/Girl 翻到最下面发现按钮，一共有阅读全文

posted @ 2021-01-16 14:12 Geeksongs 阅读(2477) 评论(2) 推荐(0)

【Python爬虫】：爬取（谷歌/百度/搜狗）的搜索结果

摘要：步骤如下：1.首先导入爬虫的package：requests 2.使用UA 伪装进行反反爬虫，将爬虫伪装成一个浏览器进行上网 3.通过寻找，找到到谷歌搜索时请求的url。假设我们在谷歌浏览器当中输入：不知道我们可以得到请求结果的网址如下：也就是： https://www.google.com/ 阅读全文

posted @ 2021-01-11 13:44 Geeksongs 阅读(4713) 评论(0) 推荐(0)

Geek Song

保持对科技的热情，不断积累自己的技术套装，力求能够快速从0到1构建整个项目，生命因技术而更加精彩！

随笔分类 - Python爬虫

公告

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.