摘要: 一:爬虫介绍 二:请求库requests 三:selenium模块 四:解析库之re 五:Beautiful模块 六:存储库之MongoDB 七:爬虫性能相关 八:scrapy框架 阅读全文
posted @ 2018-01-26 15:23 forjie 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 介绍 二 安装 三 命令行工具 四 项目结构以及爬虫应用简介 五 Spiders 六 Selectors 七 Items 八 Item Pipeline 九 Dowloader Middeware 十 Spider Middleware 十一 自定义扩展 十二 settings.py 阅读全文
posted @ 2018-01-26 15:13 forjie 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 背景知识 二 同步、异步、回调机制 三 高性能 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等 阅读全文
posted @ 2018-01-26 15:09 forjie 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 简介 二 MongoDB基础知识 三 安装 四 基本数据类型 五 CRUD操作 六 可视化工具 七 pymongo 一 简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据 阅读全文
posted @ 2018-01-26 15:07 forjie 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 介绍 二 基本使用 三 遍历文档树 四 搜索文档树 五 修改文档树 六 总结 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小 阅读全文
posted @ 2018-01-26 15:02 forjie 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 time与datetime模块 二 random模块 三 os模块 四 sys模块 五 shutil模块 六 json&pickle模块 七 shelve模块 八 xml模块 九 configparser模块 十 hashlib模块 十一 suprocess模块 十二 logging模 阅读全文
posted @ 2018-01-26 15:00 forjie 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 介绍 二 安装 三 基本使用 四 选择器 五 等待元素被加载 六 元素交互操作 七 其他 八 项目练习 一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 阅读全文
posted @ 2018-01-26 14:55 forjie 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页 阅读全文
posted @ 2018-01-26 14:53 forjie 阅读(1226) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 一 爬虫是什么 二 爬虫的基本流程 三 请求与响应 四 Request 五 Response 六 总结 一 爬虫是什么 #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 #2、互联网建立的目的? 互联网的核心价值在于数据的共 阅读全文
posted @ 2018-01-26 14:50 forjie 阅读(641) 评论(0) 推荐(0) 编辑