随笔分类 -  Python 爬虫实例

1
摘要:大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 这个图片是店铺失效或者封账号出现的提示 关于大众点评 css文件映射分析: 第一步: 阅读全文
posted @ 2019-08-29 09:51 淋哥 阅读(6923) 评论(10) 推荐(6) 编辑
摘要:我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。 破解方法:不停更换snuid 阅读全文
posted @ 2019-02-14 14:00 淋哥 阅读(2642) 评论(0) 推荐(0) 编辑
摘要:所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。 阅读全文
posted @ 2018-12-03 14:46 淋哥 阅读(2904) 评论(0) 推荐(0) 编辑
摘要:Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。 解决办法是加入 producer.stop() 完整代码是: 其中 data是推送到kafka中的数据 阅读全文
posted @ 2018-10-08 13:53 淋哥 阅读(2978) 评论(0) 推荐(0) 编辑
摘要:今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考 直接上代码: 这个网址没有什么难度,只需要简单的请求一下请求接口就能得到数据,注意请求参数 city 需要 URL编码一下就可以,不会的同学请自行百度 URL编码 就可以了 阅读全文
posted @ 2018-07-30 17:56 淋哥 阅读(1796) 评论(0) 推荐(1) 编辑
摘要:有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。 一:爬虫的目标: 打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面 我们的目标是 点击找车, 阅读全文
posted @ 2018-05-29 16:57 淋哥 阅读(8017) 评论(2) 推荐(1) 编辑
摘要:#-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语' 阅读全文
posted @ 2018-05-13 23:49 淋哥 阅读(2619) 评论(0) 推荐(1) 编辑
摘要:Python requests 下载 m3u8 格式 视频 最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。 抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧: 附图:抓包分析过程 直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行 阅读全文
posted @ 2018-03-29 09:47 淋哥 阅读(1826) 评论(0) 推荐(0) 编辑
摘要:# coding:utf-8 from common.contest import * def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData/Local/Google/C... 阅读全文
posted @ 2018-02-11 14:43 淋哥 阅读(2316) 评论(0) 推荐(0) 编辑
摘要:# coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
posted @ 2018-01-21 23:05 淋哥 阅读(2856) 评论(0) 推荐(0) 编辑
摘要:代码很少,自己去体会 代码不能运行,仅供参考。 阅读全文
posted @ 2018-01-19 09:33 淋哥 阅读(647) 评论(1) 推荐(0) 编辑
摘要:# coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
posted @ 2018-01-18 22:22 淋哥 阅读(3150) 评论(0) 推荐(1) 编辑
摘要:今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码: 阅读全文
posted @ 2018-01-08 13:31 淋哥 阅读(11448) 评论(0) 推荐(0) 编辑
摘要:我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: 阅读全文
posted @ 2018-01-06 19:28 淋哥 阅读(1457) 评论(0) 推荐(0) 编辑
摘要:多进程 Multiprocessing 模块 Process 类用来描述一个进程对象。创建子进程的时候,只需要传入一个执行函数和函数的参数即可完成 Process 示例的创建。 star() 方法启动进程, join() 方法实现进程间的同步,等待所有进程退出。 close() 用来阻止多余的进程涌 阅读全文
posted @ 2017-07-25 19:20 淋哥 阅读(1712) 评论(0) 推荐(1) 编辑
摘要:1. 我们找到 爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/ 11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的规律 http://list.iqiyi.com/www/2/ 11-2-1-iqiyi--.html http://list 阅读全文
posted @ 2017-07-25 19:11 淋哥 阅读(8396) 评论(0) 推荐(0) 编辑
摘要:自己闲来无聊,就爬取了网易信息,重点是分析网页,使用抓包工具详细的分析网页的每个链接,数据存储在sqllite中,这里只是简单的解析了新闻页面的文字信息,并未对图片信息进行解析 仅供参考,不足之处请指正 阅读全文
posted @ 2017-06-30 10:37 淋哥 阅读(1816) 评论(0) 推荐(1) 编辑
摘要:爬虫很简单,难的是自己去分析网页解析网页和爬虫的效率 阅读全文
posted @ 2017-06-30 09:23 淋哥 阅读(2059) 评论(0) 推荐(0) 编辑
摘要:爬取百度图片 在Python 2.7上运行 阅读全文
posted @ 2017-06-30 09:19 淋哥 阅读(1682) 评论(0) 推荐(0) 编辑
摘要:数据库表sql语句: 源代码: 爬取效果: 阅读全文
posted @ 2017-04-27 15:16 淋哥 阅读(967) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示