摘要: Beautifulsoup模块 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful So 阅读全文
posted @ 2019-01-20 11:23 拓荒牛wr 阅读(201) 评论(0) 推荐(0) 编辑
摘要: <!--done--> requests模块 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析 阅读全文
posted @ 2019-01-20 11:21 拓荒牛wr 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 爬虫基本原理 一 爬虫是什么 #1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 #2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享 阅读全文
posted @ 2019-01-20 10:48 拓荒牛wr 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 1.Headers: 从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对Referer (上级链接)进行检测 从而实现爬虫。 相应的解决措施:通过审查元素或者开发者工具获取相应的heade 阅读全文
posted @ 2019-01-20 10:00 拓荒牛wr 阅读(3584) 评论(0) 推荐(0) 编辑
摘要: HTTP协议详细介绍 HTTP协议详细介绍 当你在浏览器地址栏敲入“http://www.cnblogs.com/”,然后猛按回车,呈现在你面前的,将是博客园的首页了(这真是废话,你会认为这是理所当然的)。作为一个开发者,尤其是web开发人员,我想你有必要去了解这一系列的处理流程,在这期间,浏览器和 阅读全文
posted @ 2018-12-25 20:28 拓荒牛wr 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 官网:http://api.mongodb.com/python/current/tutorial.html 阅读全文
posted @ 2018-12-25 19:23 拓荒牛wr 阅读(189) 评论(0) 推荐(0) 编辑
摘要: use db 使用db数据库 show dbs 查看当前服务器中写在磁盘上的数据库 show tables 查看数据库中的collection db 查看当前使用的数据库 1.增删改查: 增: db.collection.insert({数据}) 自动生成 _id : ObjectId("") 官方 阅读全文
posted @ 2018-12-25 16:21 拓荒牛wr 阅读(199) 评论(0) 推荐(0) 编辑
摘要: MongoDB中类似$set 这样的关键字有很多, $lt $gt $lte $gte 等等,这么多我们也不方便记,这里我们说说几个比较常见的 一.查询中常见的 等于 大于 小于 大于等于 小于等于 等于 : 在MongoDB中什么字段等于什么值其实就是 " : " 来搞定 比如 "name" : 阅读全文
posted @ 2018-12-25 15:56 拓荒牛wr 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 一.MongoDB 之 丰富多彩的数据类型世界 首先我们要先了解一下MongoDB中有什么样的数据类型: Object ID :Documents 自生成的 _id String: 字符串,必须是utf-8 Boolean:布尔值,true 或者false (这里有坑哦~在我们大Python中 Tr 阅读全文
posted @ 2018-12-24 20:11 拓荒牛wr 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 理论知识 操作系统背景知识 什么是进程 进程调度 进程的并发与并行 同步\异步\阻塞\非阻塞 进程的创建与结束 在python程序中的进程操作 multiprocess模块 进程的创建和multiprocess.Process 进程同步控制 —— 锁\信号量\事件 (multiproces 阅读全文
posted @ 2018-12-19 20:31 拓荒牛wr 阅读(207) 评论(0) 推荐(0) 编辑