Python 爬虫实例 - 随笔分类 - 淋哥

大众点评评论数据抓取反爬虫措施有css文字映射和字体库反爬虫

摘要：大众点评评论数据抓取反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些：封ip，封账号，字体库反爬虫，css文字映射，图形滑动验证码这个图片是滑动验证码，访问频率高的话，会出现这个滑动验证码这个图片是店铺失效或者封账号出现的提示关于大众点评 css文件映射分析：第一步：阅读全文

posted @ 2019-08-29 09:51 淋哥阅读(6932) 评论(10) 推荐(6) 编辑

搜狗微信为了保护你的网络安全，请输入验证码

摘要：我的网络安全需要搜狗微信的验证码保护吗？真他妈的扯淡。破解方法：不停更换snuid 阅读全文

posted @ 2019-02-14 14:00 淋哥阅读(2644) 评论(0) 推荐(0) 编辑

爬虫需要什么样的 CPU，内存和带宽

摘要：所有的需求都看这个图片吧，这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。阅读全文

posted @ 2018-12-03 14:46 淋哥阅读(2908) 评论(0) 推荐(0) 编辑

ReferenceError: weakly-referenced object no longer exists Python kafka

摘要：Python存入kafka报错，ReferenceError: weakly-referenced object no longer exists。解决办法是加入 producer.stop() 完整代码是：其中 data是推送到kafka中的数据阅读全文

posted @ 2018-10-08 13:53 淋哥阅读(2981) 评论(0) 推荐(0) 编辑

Python 爬虫实例（15）爬取百度百聘（微信公众号）

摘要：今天闲的无聊，爬取了一个网站，百度百聘，仅供学习参考直接上代码：这个网址没有什么难度，只需要简单的请求一下请求接口就能得到数据，注意请求参数 city 需要 URL编码一下就可以，不会的同学请自行百度 URL编码就可以了阅读全文

posted @ 2018-07-30 17:56 淋哥阅读(1797) 评论(0) 推荐(1) 编辑

Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）

摘要：有人给我吹牛逼，说汽车之家反爬很厉害，我不服气，所以就爬取了一下这个网址。本片博客的目的是重点的分析定向爬虫的过程，希望读者能学会爬虫的分析流程。一：爬虫的目标：打开汽车之家的链接：https://www.autohome.com.cn/beijing/，出现如下页面我们的目标是点击找车，阅读全文

posted @ 2018-05-29 16:57 淋哥阅读(8020) 评论(2) 推荐(1) 编辑

Python 爬虫实例（14）爬取百度音乐

摘要：#-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语' 阅读全文

posted @ 2018-05-13 23:49 淋哥阅读(2621) 评论(0) 推荐(1) 编辑

Python 爬虫实例（13）下载 m3u8 格式视频

摘要：Python requests 下载 m3u8 格式视频最近爬取一个视频网站，遇到 m3u8 格式的视频需要下载。抓包分析，视频文件是多个 ts 文件，什么是 ts文件，请去百度吧：附图：抓包分析过程直接把 ts文件请求下来，然后合并 ts文件，如果想把 ts文件转换 MP4 格式，请自行阅读全文

posted @ 2018-03-29 09:47 淋哥阅读(1828) 评论(0) 推荐(0) 编辑

Python 爬虫实例（12）—— python selenium 爬虫

摘要：# coding:utf-8 from common.contest import * def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData/Local/Google/C... 阅读全文

posted @ 2018-02-11 14:43 淋哥阅读(2318) 评论(0) 推荐(0) 编辑

Python 爬虫实例（11）—— 爬虫苏宁易购

摘要：# coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文

posted @ 2018-01-21 23:05 淋哥阅读(2857) 评论(0) 推荐(0) 编辑

Python 爬虫实例（10）—— 四行代码实现刷博客园阅读数量

摘要：代码很少，自己去体会代码不能运行，仅供参考。阅读全文

posted @ 2018-01-19 09:33 淋哥阅读(647) 评论(1) 推荐(0) 编辑

Python 爬虫实例（9）—— 搜索爬取淘宝

摘要：# coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文

posted @ 2018-01-18 22:22 淋哥阅读(3151) 评论(0) 推荐(1) 编辑

Python 爬虫实例（8）—— 爬取动态页面

摘要：今天使用python 和selenium爬取动态数据，主要是通过不停的更新页面，实现数据的爬取，要爬取的数据如下图源代码：阅读全文

posted @ 2018-01-08 13:31 淋哥阅读(11449) 评论(0) 推荐(0) 编辑

Python 爬虫实例（7）—— 爬取新浪军事新闻

摘要：我们打开新浪新闻，看到页面如下，首先去爬取一级 url，图片中蓝色圆圈部分第二zh张图片，显示需要分页，源代码：阅读全文

posted @ 2018-01-06 19:28 淋哥阅读(1459) 评论(0) 推荐(0) 编辑

python 多线程爬虫实例

摘要：多进程 Multiprocessing 模块 Process 类用来描述一个进程对象。创建子进程的时候，只需要传入一个执行函数和函数的参数即可完成 Process 示例的创建。 star() 方法启动进程， join() 方法实现进程间的同步，等待所有进程退出。 close() 用来阻止多余的进程涌阅读全文

posted @ 2017-07-25 19:20 淋哥阅读(1712) 评论(0) 推荐(1) 编辑

Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）

摘要：1. 我们找到爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/ 11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的规律 http://list.iqiyi.com/www/2/ 11-2-1-iqiyi--.html http://list 阅读全文

posted @ 2017-07-25 19:11 淋哥阅读(8405) 评论(0) 推荐(0) 编辑

Python 爬虫实例（4）—— 爬取网易新闻

摘要：自己闲来无聊，就爬取了网易信息，重点是分析网页，使用抓包工具详细的分析网页的每个链接，数据存储在sqllite中，这里只是简单的解析了新闻页面的文字信息，并未对图片信息进行解析仅供参考，不足之处请指正阅读全文

posted @ 2017-06-30 10:37 淋哥阅读(1818) 评论(0) 推荐(1) 编辑

Python 爬虫实例（2）—— 爬取今日头条

摘要：爬虫很简单，难的是自己去分析网页解析网页和爬虫的效率阅读全文

posted @ 2017-06-30 09:23 淋哥阅读(2060) 评论(0) 推荐(0) 编辑

Python 爬虫实例（1）—— 爬取百度图片

摘要：爬取百度图片在Python 2.7上运行阅读全文

posted @ 2017-06-30 09:19 淋哥阅读(1683) 评论(0) 推荐(0) 编辑

Python 爬虫实例（6）—— 爬取蚂蚁免费代理

摘要：数据库表sql语句：源代码：爬取效果：阅读全文