摘要:
一、什么是持续集成? (1)Continuous integration(CI) 持续集成是一种软件开发实践,即团队开发成员经常集成他们的工作,通常每个成员至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽快地发现集成错误。许多团队 阅读全文
摘要:
前言 天天说运维,究竟是干什么的?先看看工作流程呗。一般来说,运维工程师在一家企业里属于个位数的岗位,甚至只有一个。面对生产中NNN台服务器,NN个人员,工作量也是非常大的。所以嘛,图中的我好歹也会配置盔甲的。 这就是我主要干的事情(呵呵) 就算你会很厉害的脚本,面对成百上千,甚至上万的主机,效率问 阅读全文
摘要:
引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 验证码处理 使用云打码平台识别验证码 云打码平台处理验证码的实现流程: - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析, 阅读全文
摘要:
2016 年 9 月 1 日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。 其实,PaddlePaddle平台 的开发与应用已经有段时日:它源自于 2013 年百度深度学习实验室创建的 阅读全文
摘要:
上周一个叫 Abhishek Thakur 的数据科学家,在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem,介绍他建立的一个自动的机器学习框架,几乎可以解决任何机器学习问题,项目很快也会发布出来。 这篇文章迅 阅读全文
摘要:
机器学习 阅读全文
摘要:
- url是否爬过 - 数据是否爬过待更新。。。。。。。。。https://blog.csdn.net/yubei2155/article/details/79343893 阅读全文
摘要:
关于TensorFlow TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如 阅读全文
摘要:
1. 前言 对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网站的交易额,教育网站的题目等。因为这些内容,往往是一个产品的生命线,必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策 阅读全文
摘要:
Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫 问题: scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。 相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个问 阅读全文