爬虫相关问题 - 随笔分类 - 淋哥

fidler 数据保存到本地

摘要：找到 OnBeforeResponse，在后面添加如下代码 if (oSession.fullUrl.Contains("edith.xiaohongshu.com/api/sns/v10/search/notes?keyword")) { oSession.utilDecodeResponse() 阅读全文

posted @ 2022-03-05 22:04 淋哥阅读(130) 评论(0) 推荐(0) 编辑

谷歌插件抓包 similarweb抓包

摘要：需要对谷歌插件进行网络请求分析，正常的fiddler无法抓包，研究了一番，使用浏览器代理的方式进行抓包。 1. 安装谷歌插件 2. 安装代理插件 Proxy SwitchyOmega 正常安装即可 3. 设置 Proxy SwitchyOmega ip地址和端口设置完毕后注意启动代理 5. 启动f 阅读全文

posted @ 2021-11-18 12:08 淋哥阅读(1404) 评论(0) 推荐(0) 编辑

Python selenium 设置火狐谷歌无头模式

摘要：在使用seleinum的时候，如果模拟谷歌或者火狐浏览器，出现一个界面的话太难受了所幸firefox和chrome都有了无头模式，也就是没有界面的浏览器，在内存中执行。 firefox设置： from selenium import webdriver options = webdriver.Fir 阅读全文

posted @ 2021-07-06 17:03 淋哥阅读(854) 评论(0) 推荐(1) 编辑

AttributeError: module 'websocket' has no attribute 'create_connection' websocket 爬虫

摘要：抓取某个网站的数据，代码如下 instrument_name = "BTC-25JUN21-28000-P" msg = { "jsonrpc": "2.0", "id": 3983, "method": "public/get_last_trades_by_instrument_and_time" 阅读全文

posted @ 2021-06-21 15:02 淋哥阅读(2016) 评论(0) 推荐(0) 编辑

python md5 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 48: ordinal not in range(128)

摘要：UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 48: ordinal not in range(128) url = 'http://gasssmes.sgerisssnssssass.cssn/pc/new 阅读全文

posted @ 2021-03-31 13:33 淋哥阅读(115) 评论(0) 推荐(0) 编辑

xpath提取网页的所有href标签

摘要：from lxml import etree html = "需要解析的网页" html = etree.HTML(html) #获取所有的href属性 url_list = html.xpath("//*/@href") for url in url_list: print(url) 阅读全文

posted @ 2020-10-16 17:31 淋哥阅读(3221) 评论(0) 推荐(1) 编辑

爬虫 Content-Type: text/x-gwt-rpc; charset=UTF-8

摘要：Content-Type: text/x-gwt-rpc; charset=UTF-8 下载某个统计局网站，它的 Content-Type: text/x-gwt-rpc; charset=UTF-8 请求方式是 post 请求一言不合就上代码 url = 'http://data.ahtjj.g 阅读全文

posted @ 2020-10-11 16:38 淋哥阅读(695) 评论(0) 推荐(0) 编辑

爬虫的本质是和分布式爬虫的关系

摘要：爬虫的本质是什么搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西，认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平，而不会分布式爬虫，则认为爬虫工程师的水平很菜，这是一种很肤浅的思想。一：在实际的工作中，爬虫根本不需要去分布式爬虫 1.现在服务器越来越好，网络也越来越好，一台优秀的服阅读全文

posted @ 2020-04-04 20:33 淋哥阅读(832) 评论(0) 推荐(2) 编辑

requests form data 请求爬虫

摘要：抓取某个网站，抓包如下 form data 这个简单，只需要用如下请求即可： url = "http://www.hebpr.gov.cn/inteligentsearch/rest/inteligentSearch/getFullTextData"headers = { "Host":"www.h 阅读全文

posted @ 2019-12-27 10:09 淋哥阅读(3984) 评论(1) 推荐(4) 编辑

python 多进程数量对爬虫程序的影响

摘要：1. 首先看一下 python 多进程的优点和缺点二：测试服务器情况： cpu是12核心，内存是128G 三：测试目的：测试目的是因为多进程切换开销大，创建进程的代价大，通过开不同的进程数量，测试是否会出现进程开的越多，爬虫的速度越慢的情况。四：测试软件条件： 1. 用10000个关键词，阅读全文

posted @ 2019-09-12 13:16 淋哥阅读(5400) 评论(0) 推荐(3) 编辑

烦人的警告 Deprecated: convertStrings was not specified when starting the JVM

摘要：python 调用java代码：每次运行程序都看到这个玩意，觉得恶心，那就去进入修改这个警告。把烦人的警告直接替换为空格最后运行程序：最起码看着不是那么的恶心了。阅读全文

posted @ 2019-07-11 13:32 淋哥阅读(3203) 评论(2) 推荐(0) 编辑

Python 推送RabbitMQ

摘要：username = 'xxxxxxxx' pwd = 'xxxxxxxx' user_pwd = pika.PlainCredentials(username, pwd) s_conn = pika.BlockingConnection(pika.ConnectionParameters('110.318.111.211', credentials=user_pwd)) chan = s_co... 阅读全文

posted @ 2019-06-20 08:37 淋哥阅读(862) 评论(0) 推荐(0) 编辑

使用 xpath helper 提取网页链接

摘要：需求是这样的，公司某个部门不会爬虫，不懂任何技术性的东西，但是希望去提取网页的一个分享链接，老大要求去开发谷歌浏览器插件，但一时半会也搞不定这个啊，想到用 xpath helper 作为一个临时的替补方案；第一步：下载安装谷歌 xpath helper 这个插件 chrome插件XPath 阅读全文

posted @ 2019-05-28 10:33 淋哥阅读(4763) 评论(0) 推荐(0) 编辑

300万数据去重问题

摘要：问题：有一个300w行的文件，需要给他去重，有什么好的方法，前提是速度要快。我的实现方式是： 1 .文件读取到内存中 2.在内存中去重 3.插入到MySQL中去。 300万行数据，实现去重只需要80秒想提高插入速度可以批量插入和并发插入数据。直接上代码：注意事项：程序在内存中的处理速度阅读全文

posted @ 2019-03-13 15:09 淋哥阅读(810) 评论(0) 推荐(0) 编辑

ip代理优化

摘要：如何保证可用ip不低于2000个，代理ip池优化策略第一：获得大量ip；第二：验证可用ip；第三：监控可用ip；第三：保证可用ip不低于3000或者5000；截图是实时可用ip数量心得：不要用什么 VPS虚拟主机拨号或者 ADSL拨号代理，好好地优化ip池，会有足够的 ip 够我们使用阅读全文

posted @ 2019-02-27 13:43 淋哥阅读(689) 评论(2) 推荐(0) 编辑

淘宝频繁访问会出现滑动验证码

摘要：频繁的访问淘宝一个链接，然后抛出来一个滑动验证码，测试后发现淘宝发现某个ip请求频繁，就跑出验证码。解决办法是ip池阅读全文

posted @ 2018-12-29 11:39 淋哥阅读(19796) 评论(1) 推荐(0) 编辑

python gb2312 转换为 utf-8

摘要：输出结果：阅读全文

posted @ 2018-12-04 15:16 淋哥阅读(5410) 评论(0) 推荐(1) 编辑

TypeError: sequence item 0: expected string, Tag found

摘要：原始代码：报错内容是：解决办法：阅读全文

posted @ 2018-11-27 17:54 淋哥阅读(1709) 评论(0) 推荐(0) 编辑

微博爬虫 ----- 微博发布时间清洗

摘要：from datetime import datetime from datetime import timedelta if "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M') elif "分钟" in publish_time: minute = publis... 阅读全文

posted @ 2018-10-19 09:28 淋哥阅读(1197) 评论(0) 推荐(0) 编辑

爬虫工程师最牛逼的地方是什么？？？

摘要：爬虫工程师最牛逼的地方是什么？？？爬虫工程师最牛逼的地方是什么？？？爬虫工程师最牛逼的地方是什么？？？今天突然想到了这个问题，是因为解决工作的时候，突然想到了这个问题，我的答案是：爬虫不在乎你每天爬取多少数据，不在乎你爬取多少网站，而是自己写的代码，运行错误的时候能随时的去改正这个错误，我认阅读全文

posted @ 2018-09-26 11:08 淋哥阅读(1885) 评论(0) 推荐(1) 编辑

英雄莫问出处,富贵当思缘由

随笔分类 - 爬虫相关问题

公告