04 2019 档案

摘要:爬虫与反爬虫的修罗场 哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎。 评论也是产生内容的好地方 生活类点评网站 旅游类点评网站 音乐类点评 只要有点评的地方,总有成千上万的爬虫趴着。 这些都是爬虫与反爬虫的修罗场,他不想叫你爬,你越 阅读全文
posted @ 2019-04-30 09:51 梦想橡皮擦 阅读(6690) 评论(7) 推荐(7) 编辑
摘要:为什么有这个系列的文章 一直想写一些更加基础的文章,但是总是想不到好的点子,最近到了就业季,一大堆学生面临就业了,正好,从Python的面试题出发,分析和解答一些常见的面试题,并且总结一些文字。 每一讲涉及5~10道面试题,整个系列的文章初步规划有20篇。 今天的面试题 第1题:1行代码实现1到10 阅读全文
posted @ 2019-04-29 11:19 梦想橡皮擦 阅读(1270) 评论(6) 推荐(5) 编辑
摘要:说说这个网站 汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之间对抗。 CSDN上关于汽车之家的反爬文章千千万万了,但是爬虫就是这点有意思,这一刻写完,下一刻还能 阅读全文
posted @ 2019-04-28 15:16 梦想橡皮擦 阅读(3443) 评论(1) 推荐(5) 编辑
摘要:背景交代 在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术出现,对于爬虫coder来说,干!就完了,反正也996了~ 作为一个系列的文章,那免不了,依旧拿猫眼 阅读全文
posted @ 2019-04-24 17:30 梦想橡皮擦 阅读(3863) 评论(0) 推荐(4) 编辑
摘要:学术搜索 学习理论的知识少不了去检索文献,好多文献为你的实操提供了合理的支撑,我所在的大学内网默认是有知网账户的,非常NICE 今天要完成的网站是 http://ac.scmor.com/ Google学术搜索是一个文献检索服务,目前主要是提供维普资讯、万方数据等几个学术文献资源库的检索服务。通过G 阅读全文
posted @ 2019-04-23 11:12 梦想橡皮擦 阅读(3091) 评论(2) 推荐(0) 编辑
摘要:python3爬虫遇到了反爬 当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了。 接下来的几篇文章,我们研究一下各种反爬虫套路,当然互联网没有100%的反爬措施,只要你能使用浏览器访问的网页,都是可以爬取 阅读全文
posted @ 2019-04-22 14:15 梦想橡皮擦 阅读(3115) 评论(4) 推荐(0) 编辑
摘要:常见验证码 之前的博客中已经解决了一些常见验证码的问题,但是验证码是层出不穷的,目前解决验证码除了通过常规手段解决以外,还可以通过人工智能领域的深度学习去解决 深度学习?! 无疑对爬虫coder提高了N个量级的学习量。难道大公司识别验证码都需要自己去实现逻辑么? 带劲的验证码 12306验证码 12 阅读全文
posted @ 2019-04-17 10:04 梦想橡皮擦 阅读(2150) 评论(4) 推荐(0) 编辑
摘要:图片比对 昨天的博客已经将图片存储到了本地,今天要做的第一件事情,就是需要在两张图片中进行比对,将图片缺口定位出来 缺口图片 完整图片 计算缺口坐标 对比两张图片的所有RBG像素点,得到不一样像素点的x值,即要移动的距离 极验证对于用户行为检测是有专门的算法的,找到一篇比较老的文章 https:// 阅读全文
posted @ 2019-04-16 08:22 梦想橡皮擦 阅读(1061) 评论(0) 推荐(0) 编辑
摘要:@[toc] 验证码类型 今天要搞定的验证码属于现在使用非常多的验证码的一种类型 极验证滑动验证码,关于这个验证码的详细说明查阅他的官网,https://www.geetest.com/ 把验证码做到这个地步,必须点赞了。 官网最新效果 官方DEMO最新的效果如下,按照验证码的更新频率,基本博客看完 阅读全文
posted @ 2019-04-12 15:20 梦想橡皮擦 阅读(1703) 评论(0) 推荐(0) 编辑
摘要:滑动验证码介绍 本篇博客涉及到的验证码为滑动验证码,不同于极验证,本验证码难度略低,需要的将滑块拖动到矩形区域右侧即可完成。 这类验证码不常见了,官方介绍地址为:https://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.html 使用起来肯定 阅读全文
posted @ 2019-04-11 11:27 梦想橡皮擦 阅读(1721) 评论(2) 推荐(2) 编辑
摘要:今日的验证码之旅 今天你要学习的验证码采用通过第三方AI平台开放的OCR接口实现,OCR文字识别技术目前已经比较成熟了,而且第三方比较多,今天采用的是百度的。 注册百度AI平台 官方网址:http://ai.baidu.com/ 接下来申请 接下来创建一个简单应用之后,就可以使用了,我们找到 阅读文 阅读全文
posted @ 2019-04-09 16:22 梦想橡皮擦 阅读(794) 评论(0) 推荐(1) 编辑
摘要:写在前面 用Python加上一些数据分析,来证明《海王》好看。 《海王》一部电影带你重温《驯龙高手》《变形金刚》《星球大战》《星河战队》《铁血战士》《安德的游戏》《异形》可能还借鉴了对手的《钢铁侠》与《黑豹》剧情,再稍稍带一点《大鱼海棠》的味道,配上一丢丢温子仁式恐怖片套路,优秀的商业片,应该是DC 阅读全文
posted @ 2019-04-02 08:14 梦想橡皮擦 阅读(1966) 评论(11) 推荐(5) 编辑
摘要:验证码探究 如果你是一个数据挖掘爱好者,那么验证码是你避免不过去的一个天坑,和各种验证码斗争,必然是你成长的一条道路,接下来的几篇文章,我会尽量的找到各种验证码,并且去尝试解决掉它,中间有些技术甚至我都没有见过,来吧,一起Coding吧 数字+字母的验证码 我随便在百度图片搜索了一个验证码,如下 今 阅读全文
posted @ 2019-04-02 08:08 梦想橡皮擦 阅读(1186) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示