2018 年 1月 26 日随笔档案 - forjie

摘要：一:爬虫介绍二:请求库requests 三:selenium模块四:解析库之re 五:Beautiful模块六:存储库之MongoDB 七:爬虫性能相关八:scrapy框架阅读全文

posted @ 2018-01-26 15:23 forjie 阅读(140) 评论(0) 推荐(0) 编辑

摘要：阅读目录一介绍二安装三命令行工具四项目结构以及爬虫应用简介五 Spiders 六 Selectors 七 Items 八 Item Pipeline 九 Dowloader Middeware 十 Spider Middleware 十一自定义扩展十二 settings.py 阅读全文

posted @ 2018-01-26 15:13 forjie 阅读(488) 评论(0) 推荐(0) 编辑

摘要：阅读目录一背景知识二同步、异步、回调机制三高性能一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等阅读全文

posted @ 2018-01-26 15:09 forjie 阅读(416) 评论(0) 推荐(0) 编辑

摘要：阅读目录一简介二 MongoDB基础知识三安装四基本数据类型五 CRUD操作六可视化工具七 pymongo 一简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据阅读全文

posted @ 2018-01-26 15:07 forjie 阅读(490) 评论(0) 推荐(0) 编辑

摘要：阅读目录一介绍二基本使用三遍历文档树四搜索文档树五修改文档树六总结一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小阅读全文

posted @ 2018-01-26 15:02 forjie 阅读(241) 评论(0) 推荐(0) 编辑

摘要：阅读目录一 time与datetime模块二 random模块三 os模块四 sys模块五 shutil模块六 json&pickle模块七 shelve模块八 xml模块九 configparser模块十 hashlib模块十一 suprocess模块十二 logging模阅读全文

posted @ 2018-01-26 15:00 forjie 阅读(231) 评论(0) 推荐(0) 编辑

摘要：阅读目录一介绍二安装三基本使用四选择器五等待元素被加载六元素交互操作七其他八项目练习一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全阅读全文

posted @ 2018-01-26 14:55 forjie 阅读(147) 评论(0) 推荐(0) 编辑

摘要：阅读目录一介绍二基于GET请求三基于POST请求四响应Response 五高级用法一介绍 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） #注意：requests库发送请求将网页阅读全文

posted @ 2018-01-26 14:53 forjie 阅读(1226) 评论(0) 推荐(0) 编辑

摘要：阅读目录一爬虫是什么二爬虫的基本流程三请求与响应四 Request 五 Response 六总结一爬虫是什么 #1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。 #2、互联网建立的目的？互联网的核心价值在于数据的共阅读全文

posted @ 2018-01-26 14:50 forjie 阅读(641) 评论(0) 推荐(0) 编辑

forjie