摘要: 网络爬虫是捜索引擎(Baidu、Google、Yahoo)抓取系统的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 网络爬虫的基本工作流程如下: 首先选取一部分精心挑选的种子URL; 将这些URL放入待抓取URL队列; 从待抓取URL队列中取出待抓取在URL,解析 阅读全文
posted @ 2017-03-15 21:53 he伟_li 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://piaosanlang.gitbooks.io/spiders/01day/section1.2.html,支持原创,谢谢。 爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入htt 阅读全文
posted @ 2017-03-15 21:50 he伟_li 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://piaosanlang.gitbooks.io/spiders/01day/section1.2.html,支持原创,谢谢。 第1天-爬虫入门初级篇 IDE 选择 PyCharm Sublime Text 2 VS2015 装python2还是python3 python目前 阅读全文
posted @ 2017-03-15 21:38 he伟_li 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://piaosanlang.gitbooks.io/spiders/01day/section1.2.html,支持原创,谢谢。 学习目的 了解爬虫,爬虫起源; 爬虫是什么 专业术语: 网络爬虫(又被称为网页蜘蛛,网络机器人) 网络爬虫,是一种按照一定的规则,自动的抓取万维网信息 阅读全文
posted @ 2017-03-15 21:33 he伟_li 阅读(547) 评论(0) 推荐(0) 编辑
摘要: getItemAt(0) 获得第一行数据 getItemAt(1) 获得第二行数据 阅读全文
posted @ 2017-03-15 20:29 he伟_li 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 参考文档:http://blog.csdn.net/allovexuwenqiang/article/details/5686583 Map是c++的一个标准容器,她提供了很好一对一的关系,在一些程序中建立一个map可以起到事半功倍的效果,总结了一些map基本简单实用的操作!1. map最基本的构造 阅读全文
posted @ 2017-03-15 20:28 he伟_li 阅读(401) 评论(0) 推荐(0) 编辑