随笔分类 -  爬虫-spider-base

摘要:图源/东方IC 30秒快读 1、企查查、天眼查、启信宝,三家企业工商信息查询平台,到底谁的用户体验更好? 2、三家到底有什么差异功能,哪家的会员更值得入手? 2014年3月,国家宣布计划公开政府层面企业工商信息,一家专注于商家工商信息查询服务的“企查查”应运而生。作为国内首家商业信息查询类创业公司, 阅读全文
posted @ 2021-11-20 07:07 技术改变命运Andy 阅读(7202) 评论(0) 推荐(0) 编辑
摘要:先问你三个问题: 1、你以为你在大众点评上找到的馆子,真的是几百个人给了好评,然后才出现在你的推荐里的吗?2、你以为你在百度上搜索到的信息,真的是百度想让你看到的吗?(注意体会这句话的意思,不是日常黑百度)3、你以为在微博上看到的热搜话题大V互动,真的都是真实发生的吗? 爬虫就是一个探测机器,它的基 阅读全文
posted @ 2021-11-20 00:44 技术改变命运Andy 阅读(646) 评论(0) 推荐(0) 编辑
摘要:弹出替换窗口,在【查找什么】框中输入要替换的逗号【,】,在【替换为】框中输入【^r^n】。然后点击【全部替换】。 阅读全文
posted @ 2021-11-19 20:25 技术改变命运Andy 阅读(58) 评论(0) 推荐(0) 编辑
摘要:############### 近日,据企查查披露的刑事判决书显示。一名住在河南商丘市的本科毕业的大学生逯某自2019年11月起,对淘宝实施了长达八个月的数据爬取并盗走大量用户数据。在阿里巴巴注意到这一问题前,已经有超过11亿8千多万条用户信息泄露。 商丘市睢阳区人民检察院指控,2019年以来,被告 阅读全文
posted @ 2021-11-19 19:07 技术改变命运Andy 阅读(2658) 评论(0) 推荐(0) 编辑
摘要:### # headers处理 headers = """Host:match.yuanrenxue.com content-length: 0 pragma: no-cache cache-control: no-cache sec-ch-ua: "Chromium";v="94", "Googl 阅读全文
posted @ 2021-10-14 03:12 技术改变命运Andy 阅读(48) 评论(0) 推荐(0) 编辑
摘要:#### Python很强大,熟练的程序员可以在5分钟内写出一个有价值的爬虫,比如: - 抓取股票信息 - 抓取笑话 - 抓取商品信息 但大部分被抓的网站不是任你抓取的木鸡,有抓就有反抗! 这是一场网站和程序员之间的一种博弈!都是程序员,何必呢?程序员何必为难程序员! 凡是博弈,就一定不易!因为道高 阅读全文
posted @ 2021-09-12 04:20 技术改变命运Andy 阅读(262) 评论(0) 推荐(0) 编辑
摘要:### cookies = "vaptchaNetway=cn; Hm_lvt_337e99a01a907a08d00bed4a1a52e35d=1628248083,1629106799; " \ "sessionid=g1siko0evn5hmnn3pbgl0vaoqjx29cfo; Hm_lp 阅读全文
posted @ 2021-08-16 22:48 技术改变命运Andy 阅读(282) 评论(0) 推荐(0) 编辑
摘要:#### 一.项目问题:1.你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的 1.你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的 通过headers反爬虫:解决策略,伪造headers 基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率 阅读全文
posted @ 2021-08-05 14:13 技术改变命运Andy 阅读(1904) 评论(0) 推荐(0) 编辑
摘要:#### 一个高级的爬虫工程师,和一个只会requests的爬虫工程师,区别在什么地方? 第一,逆向的能力,你能爬的,别人爬不了, 第二,你能提供一个高并发的方法,别人爬可能也能爬,但是你爬的更快, 这就是这两点,也就是你能做到别人做不到的事情, 试想,一个能日爬取千万的爬虫工程师和一个日爬取几十万 阅读全文
posted @ 2021-08-04 12:13 技术改变命运Andy 阅读(508) 评论(0) 推荐(0) 编辑
摘要:BEAUTIFUL SOUP库 Beautiful Soup:美味汤 非常优秀的python第三方库 能够对html、xml格式进行解析,并且提取其中的相关信息 Beautiful Soup可以对你提供给他的任何格式进行相关的爬取,并且可以进行树形解析 使用原理:把任何你给他的文档当成一锅汤,然后煲 阅读全文
posted @ 2021-07-19 16:52 技术改变命运Andy 阅读(387) 评论(0) 推荐(0) 编辑
摘要:爬虫的难点 1,数据量小,其实没什么,难在数据量大了怎么办?百万级别的呢? 2,数据量大了还好,但是还要效率呢?短时间内要大量数据 3,这些都还好,但是还要稳定性呢,你的爬虫系统稳定吗?这是一个难点, 4,这些都还好,还有就是别人有反爬虫,这是难点,因为爬虫是有成本了,目的是低成本的获取你想要的数据 阅读全文
posted @ 2021-04-23 18:22 技术改变命运Andy 阅读(1341) 评论(0) 推荐(0) 编辑