摘要: https://movie.douban.com/ 直奔主题,给个要爬取的豆瓣电影地址,爬取热门电影名字。 右键选择查看网页源码,我们可以发现在网页静态源码里,是找不到‘来电狂想’这些关键字的。 通过检查网页,查看network下的XHR,我们可以找到对应的信息。说明我们想要爬取的这部分内容是通过A 阅读全文
posted @ 2019-03-06 21:35 DoubleFishes 阅读(5852) 评论(1) 推荐(2) 编辑
摘要: 1. 爬虫分类: 1.1 通用爬虫:例如搜索引擎:无差别的收集数据;提取存储关键字;构建索引库;给用户提供搜索接口。 1.2 聚焦爬虫:有针对性的编写特定领域数据的爬取程序。 2. Robots协议: 指定一个robots.txt文件,告诉爬虫引擎什么可以爬取,什么不可以爬取。君子协议,不受法律保障 阅读全文
posted @ 2019-03-06 20:02 DoubleFishes 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 因为我自己整理在笔记本上好几次,但是今天看到的时候,又凌乱了。所以还是再次重新整理到博客上。 在计算机的世界里: 1 bytes(字节) == 8 bite(比特);每个bite里存放0或1。 于是一个字节能表示的最大数是:11111111(2) == 255(10);能表示的最小数是:000000 阅读全文
posted @ 2019-03-06 17:54 DoubleFishes 阅读(655) 评论(0) 推荐(0) 编辑