文章分类 -  爬虫

该文被密码保护。
posted @ 2019-11-15 17:33 小猿取经-林海峰老师 阅读(942) 评论(1) 推荐(6) 编辑
该文被密码保护。
posted @ 2019-11-12 16:45 小猿取经-林海峰老师 阅读(828) 评论(4) 推荐(9) 编辑
该文被密码保护。
posted @ 2019-11-06 15:58 小猿取经-林海峰老师 阅读(463) 评论(0) 推荐(2) 编辑
该文被密码保护。
posted @ 2019-11-06 15:56 小猿取经-林海峰老师 阅读(1304) 评论(2) 推荐(14) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于 阅读全文
posted @ 2019-11-06 15:55 小猿取经-林海峰老师 阅读(961) 评论(2) 推荐(3) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 1、memcached & redis是什么? NoSQl数据库,数据存到内存,读取速度快 应用场景:页面缓存,好处如下 1、减少数据库压力,提升访问速度 2、在数据挂掉的情况下,仍能保证业务正常 阅读全文
posted @ 2019-11-06 15:53 小猿取经-林海峰老师 阅读(488) 评论(0) 推荐(0) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。不采用关系型主要是为了获得更好得 阅读全文
posted @ 2019-11-06 15:52 小猿取经-林海峰老师 阅读(1433) 评论(1) 推荐(11) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数 阅读全文
posted @ 2019-11-06 15:50 小猿取经-林海峰老师 阅读(1912) 评论(2) 推荐(17) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳 阅读全文
posted @ 2019-11-06 15:47 小猿取经-林海峰老师 阅读(2649) 评论(6) 推荐(13) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载 阅读全文
posted @ 2019-11-06 15:46 小猿取经-林海峰老师 阅读(3019) 评论(1) 推荐(15) 编辑
摘要:egon新书python全套来袭:https://egonlin.com/book.html 一 爬虫是什么 #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 #2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放 阅读全文
posted @ 2019-11-06 15:44 小猿取经-林海峰老师 阅读(3385) 评论(0) 推荐(21) 编辑