上一页 1 2 3 4 5 6 7 ··· 47 下一页
摘要: 1、概述: 很多网站都采用AJAX 技术,SPA技术,部分都是异步动态加载的,可以提高用户体验,减少不必要的流浪,方便CDN 加速 但是,对于爬虫程序爬到的HTML页面相当于页面的模板,动态内容不在其中 解决办法之一:如果能构造一个包含js引擎的浏览器,让他加载网页并和网站交互,我们编程从这个浏览器 阅读全文
posted @ 2018-12-12 21:04 JerryZao 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 1、模拟登陆oschina(新浪) 一般登录后,用户就可以一段时间内可以使用该用户身份操作,不需要频繁登录。这背后往往使用了Cookie技术 登录后,用户获得一个cookie 值,这个值在浏览器当前会话中保存,只要不过期甚至可以保存很久 用户每次想服务器提交请求时,将这些cookie提交到服务器,服 阅读全文
posted @ 2018-12-11 15:35 JerryZao 阅读(832) 评论(0) 推荐(0) 编辑
摘要: 1、RabbitMQ RabbitMQ 是由 LShift 提供的一个Advanced Message Quenuing Protocol(AMQP)的开源实现,由以高性能,健壮性记忆可伸缩性出名的rlang 写成,因此也继承了这些优点 很成熟,久经考验,应用广泛 文档详细,客户端丰富,几乎常用语言 阅读全文
posted @ 2018-12-09 22:20 JerryZao 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 1、概述 爬虫,应该称为网络爬虫,也叫网页蜘蛛人,网络蚂蚁等 搜索引擎,就是网络爬虫的应用者 2、爬虫分类 通用爬虫: 常见就是搜索引擎,无差别的收集数据,存储,提交关键字,构建索引库,给用户提供搜索接口 爬取一般流程: 1、初始一批URL,将这些URL放到待爬的队列 2、从队列取出这些URL,通过 阅读全文
posted @ 2018-12-08 19:38 JerryZao 阅读(1552) 评论(0) 推荐(0) 编辑
摘要: 1、概述 爬虫,应该称为网络爬虫,也叫网页蜘蛛人,网络蚂蚁等 搜索引擎,就是网络爬虫的应用者 2、爬虫分类 通用爬虫: 常见就是搜索引擎,无差别的收集数据,存储,提交关键字,构建索引库,给用户提供搜索接口 爬取一般流程: 1、初始一批URL,将这些URL放到待爬的队列 2、从队列取出这些URL,通过 阅读全文
posted @ 2018-12-05 11:54 JerryZao 阅读(1142) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 47 下一页