文章分类 - 爬虫
该文被密码保护。
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于
阅读全文
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 1、memcached & redis是什么? NoSQl数据库,数据存到内存,读取速度快 应用场景:页面缓存,好处如下 1、减少数据库压力,提升访问速度 2、在数据挂掉的情况下,仍能保证业务正常
阅读全文
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。不采用关系型主要是为了获得更好得
阅读全文
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数
阅读全文
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳
阅读全文
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载
阅读全文
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 爬虫是什么 #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 #2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放
阅读全文