拓荒牛wr

2019年1月20日

摘要： Beautifulsoup模块一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful So 阅读全文

posted @ 2019-01-20 11:23 拓荒牛wr 阅读(225) 评论(0) 推荐(0)

第二篇：请求库之requests，selenium

摘要：  requests模块一介绍 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） #注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析阅读全文

posted @ 2019-01-20 11:21 拓荒牛wr 阅读(400) 评论(0) 推荐(0)

爬虫基本原理(转)

摘要：爬虫基本原理一爬虫是什么 #1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。 #2、互联网建立的目的？互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享阅读全文

posted @ 2019-01-20 10:48 拓荒牛wr 阅读(264) 评论(0) 推荐(0)

常见的反爬机制及应对策略

摘要： 1.Headers: 从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法，还有一些网站会对Referer （上级链接）进行检测从而实现爬虫。相应的解决措施：通过审查元素或者开发者工具获取相应的heade 阅读全文

posted @ 2019-01-20 10:00 拓荒牛wr 阅读(3725) 评论(0) 推荐(0)

2018年12月25日

Http协议详细介绍

摘要： HTTP协议详细介绍 HTTP协议详细介绍当你在浏览器地址栏敲入“http://www.cnblogs.com/”，然后猛按回车，呈现在你面前的，将是博客园的首页了（这真是废话，你会认为这是理所当然的）。作为一个开发者，尤其是web开发人员，我想你有必要去了解这一系列的处理流程，在这期间，浏览器和阅读全文

posted @ 2018-12-25 20:28 拓荒牛wr 阅读(223) 评论(0) 推荐(0)

pymongo

摘要：官网：http://api.mongodb.com/python/current/tutorial.html 阅读全文

posted @ 2018-12-25 19:23 拓荒牛wr 阅读(202) 评论(0) 推荐(0)

MongoDB之增、删、改、查及特殊修改器

摘要： use db 使用db数据库 show dbs 查看当前服务器中写在磁盘上的数据库 show tables 查看数据库中的collection db 查看当前使用的数据库 1.增删改查: 增: db.collection.insert({数据}) 自动生成 _id : ObjectId("") 官方阅读全文

posted @ 2018-12-25 16:21 拓荒牛wr 阅读(221) 评论(0) 推荐(0)

MongoDB之 $关键字及 $修改器 $set $inc $push $pull $pop MongoDB - 4

摘要： MongoDB中类似$set 这样的关键字有很多, $lt $gt $lte $gte 等等,这么多我们也不方便记,这里我们说说几个比较常见的一.查询中常见的等于大于小于大于等于小于等于等于 : 在MongoDB中什么字段等于什么值其实就是 " : " 来搞定比如 "name" : 阅读全文

posted @ 2018-12-25 15:56 拓荒牛wr 阅读(173) 评论(0) 推荐(0)

2018年12月24日

MongoDB之数据类型

摘要：一.MongoDB 之丰富多彩的数据类型世界首先我们要先了解一下MongoDB中有什么样的数据类型: Object ID ：Documents 自生成的 _id String：字符串，必须是utf-8 Boolean：布尔值，true 或者false (这里有坑哦~在我们大Python中 Tr 阅读全文

posted @ 2018-12-24 20:11 拓荒牛wr 阅读(220) 评论(0) 推荐(0)

2018年12月19日

python之路——进程

摘要：阅读目录理论知识操作系统背景知识什么是进程进程调度进程的并发与并行同步\异步\阻塞\非阻塞进程的创建与结束在python程序中的进程操作 multiprocess模块进程的创建和multiprocess.Process 进程同步控制 —— 锁\信号量\事件（multiproces 阅读全文

posted @ 2018-12-19 20:31 拓荒牛wr 阅读(211) 评论(0) 推荐(0)

公告