随笔分类 -  爬虫相关问题

摘要:找到 OnBeforeResponse,在后面添加如下代码 if (oSession.fullUrl.Contains("edith.xiaohongshu.com/api/sns/v10/search/notes?keyword")) { oSession.utilDecodeResponse() 阅读全文
posted @ 2022-03-05 22:04 淋哥 阅读(130) 评论(0) 推荐(0) 编辑
摘要:需要对谷歌插件进行网络请求分析,正常的fiddler无法抓包,研究了一番,使用浏览器代理的方式进行抓包。 1. 安装谷歌插件 2. 安装代理插件 Proxy SwitchyOmega 正常安装即可 3. 设置 Proxy SwitchyOmega ip地址和端口 设置完毕后注意启动代理 5. 启动f 阅读全文
posted @ 2021-11-18 12:08 淋哥 阅读(1404) 评论(0) 推荐(0) 编辑
摘要:在使用seleinum的时候,如果模拟谷歌或者火狐浏览器,出现一个界面的话太难受了所幸firefox和chrome都有了无头模式,也就是没有界面的浏览器,在内存中执行。 firefox设置: from selenium import webdriver options = webdriver.Fir 阅读全文
posted @ 2021-07-06 17:03 淋哥 阅读(854) 评论(0) 推荐(1) 编辑
摘要:抓取某个网站的数据,代码如下 instrument_name = "BTC-25JUN21-28000-P" msg = { "jsonrpc": "2.0", "id": 3983, "method": "public/get_last_trades_by_instrument_and_time" 阅读全文
posted @ 2021-06-21 15:02 淋哥 阅读(2016) 评论(0) 推荐(0) 编辑
摘要:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 48: ordinal not in range(128) url = 'http://gasssmes.sgerisssnssssass.cssn/pc/new 阅读全文
posted @ 2021-03-31 13:33 淋哥 阅读(115) 评论(0) 推荐(0) 编辑
摘要:from lxml import etree html = "需要解析的网页" html = etree.HTML(html) #获取所有的href属性 url_list = html.xpath("//*/@href") for url in url_list: print(url) 阅读全文
posted @ 2020-10-16 17:31 淋哥 阅读(3221) 评论(0) 推荐(1) 编辑
摘要:Content-Type: text/x-gwt-rpc; charset=UTF-8 下载某个统计局网站,它的 Content-Type: text/x-gwt-rpc; charset=UTF-8 请求方式是 post 请求 一言不合就上代码 url = 'http://data.ahtjj.g 阅读全文
posted @ 2020-10-11 16:38 淋哥 阅读(695) 评论(0) 推荐(0) 编辑
摘要:爬虫的本质是什么 搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。 一:在实际的工作中,爬虫根本不需要去分布式爬虫 1.现在服务器越来越好,网络也越来越好,一台优秀的服 阅读全文
posted @ 2020-04-04 20:33 淋哥 阅读(832) 评论(0) 推荐(2) 编辑
摘要:抓取某个网站,抓包如下 form data 这个简单,只需要用如下请求即可: url = "http://www.hebpr.gov.cn/inteligentsearch/rest/inteligentSearch/getFullTextData"headers = { "Host":"www.h 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(3984) 评论(1) 推荐(4) 编辑
摘要:1. 首先看一下 python 多进程的优点和缺点 二: 测试服务器情况: cpu是12核心,内存是128G 三:测试目的: 测试目的是因为多进程 切换开销大,创建进程的代价大,通过开不同的进程数量,测试是否会出现进程开的越多,爬虫的速度越慢的情况。 四:测试软件条件: 1. 用10000个关键词, 阅读全文
posted @ 2019-09-12 13:16 淋哥 阅读(5400) 评论(0) 推荐(3) 编辑
摘要:python 调用java代码: 每次运行程序都看到这个玩意,觉得恶心,那就去进入 修改这个警告。 把烦人的警告直接替换为空格 最后运行程序: 最起码看着不是那么的恶心了。 阅读全文
posted @ 2019-07-11 13:32 淋哥 阅读(3203) 评论(2) 推荐(0) 编辑
摘要:username = 'xxxxxxxx' pwd = 'xxxxxxxx' user_pwd = pika.PlainCredentials(username, pwd) s_conn = pika.BlockingConnection(pika.ConnectionParameters('110.318.111.211', credentials=user_pwd)) chan = s_co... 阅读全文
posted @ 2019-06-20 08:37 淋哥 阅读(862) 评论(0) 推荐(0) 编辑
摘要:需求是这样的,公司某个部门不会爬虫,不懂任何技术性的东西,但是希望去提取网页的一个分享链接,老大要求去开发谷歌浏览器插件,但一时半会也搞不定这个啊, 想到用 xpath helper 作为一个临时的替补方案; 第一步:下载 安装 谷歌 xpath helper 这个插件 chrome插件XPath 阅读全文
posted @ 2019-05-28 10:33 淋哥 阅读(4763) 评论(0) 推荐(0) 编辑
摘要:问题:有一个300w行的文件,需要给他去重,有什么好的方法,前提是速度要快。 我的实现方式是: 1 .文件读取到内存中 2.在内存中去重 3.插入到MySQL中去。 300万行数据,实现去重只需要80秒 想提高插入速度可以批量插入和 并发 插入数据。 直接上代码: 注意事项: 程序在内存中的处理速度 阅读全文
posted @ 2019-03-13 15:09 淋哥 阅读(810) 评论(0) 推荐(0) 编辑
摘要:如何保证可用ip不低于2000个,代理ip池优化策略 第一:获得大量ip; 第二:验证可用ip; 第三:监控可用ip; 第三:保证可用ip不低于3000或者5000; 截图是实时可用ip数量 心得:不要用什么 VPS虚拟主机拨号 或者 ADSL拨号代理,好好地优化ip池,会有足够的 ip 够我们使用 阅读全文
posted @ 2019-02-27 13:43 淋哥 阅读(689) 评论(2) 推荐(0) 编辑
摘要:频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池 阅读全文
posted @ 2018-12-29 11:39 淋哥 阅读(19796) 评论(1) 推荐(0) 编辑
摘要:输出结果: 阅读全文
posted @ 2018-12-04 15:16 淋哥 阅读(5410) 评论(0) 推荐(1) 编辑
摘要:原始代码: 报错内容是: 解决办法: 阅读全文
posted @ 2018-11-27 17:54 淋哥 阅读(1709) 评论(0) 推荐(0) 编辑
摘要:from datetime import datetime from datetime import timedelta if "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M') elif "分钟" in publish_time: minute = publis... 阅读全文
posted @ 2018-10-19 09:28 淋哥 阅读(1197) 评论(0) 推荐(0) 编辑
摘要:爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是: 爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去改正这个错误,我认 阅读全文
posted @ 2018-09-26 11:08 淋哥 阅读(1885) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示