2019 年 9月随笔档案 - BruceLong

scrapy 伪装代理和fake_userAgent的使用

摘要：伪装浏览器代理在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。第一中方法： 1.在setting.py文件中加入以下内容，这是一些浏览器的头信息 1 # encoding: utf-8 2 from scrapy.utils.project 阅读全文

posted @ 2019-09-26 17:26 BruceLong 阅读(577) 评论(0) 推荐(0) 编辑

docker安装mysql 8

摘要：1. 运行容器，自动下载镜像 2. 创建主机挂载配置文件 conf存放配置文件 data存放数据库文件 3. 初始化配置文件将数据库初始文件复制到/usr/mysql/data里面 4. 停止删除容器 5. 生成启动文件 - start.sh 参数说明 --hostname \${HOST_NAM 阅读全文

posted @ 2019-09-26 12:54 BruceLong 阅读(595) 评论(0) 推荐(0) 编辑

Linux连续执行多条命令

摘要：引自：这里每条命令使用";"隔开，则无论前边的命令执行成功与否都会继续执行下一条命令这里，故意将第二条命令中的echo多写了一个o，命令执行出错，但并不影响后续命令的执行可以这么想，如果用分号来间隔命令，就相当于将命令分隔在了不同的行，无论前一行的命令成功或失败，都不影响下一行命令的执行。$ ec 阅读全文

posted @ 2019-09-23 10:37 BruceLong 阅读(17396) 评论(0) 推荐(0) 编辑

python爬虫scrapy之如何同时执行多个scrapy爬行任务

摘要：背景：刚开始学习scrapy爬虫框架的时候，就在想如果我在服务器上执行一个爬虫任务的话，还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务，但是我在这个爬行任务中，写了多个spider，重要的是我想让他们同时运行，怎么办？小白解决办法： 1、在spiders同目录阅读全文

posted @ 2019-09-16 11:38 BruceLong 阅读(1438) 评论(2) 推荐(0) 编辑

scrapy实战，使用内置的xpath，re和css提取值

摘要：以伯乐在线文章为爬取目标blog.jobbole.com，发现在"最新文章"选项中可看到所有文章一般来说，可以用scrapy中自带的xpath或者css来提取数据，定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文

posted @ 2019-09-16 11:29 BruceLong 阅读(2160) 评论(0) 推荐(0) 编辑

CentOS7下安装配置python3

摘要：CentOS7下安装配置python3实验环境操作系统：CentOS Linux release 7.3.1611 (Core) IP： 192.168.230.142下载插件根据官网提示，在centos下安装python3版本需要提前安装如下插件：openssl-devel bzip2-devel 阅读全文

posted @ 2019-09-09 17:37 BruceLong 阅读(1364) 评论(0) 推荐(0) 编辑

Python pip 安装与使用

摘要：pip 是 Python 包管理工具，该工具提供了对Python 包的查找、下载、安装、卸载的功能。目前如果你在 python.org 下载最新版本的安装包，则是已经自带了该工具。 Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。 pip 官网：https: 阅读全文

posted @ 2019-09-09 17:10 BruceLong 阅读(343) 评论(0) 推荐(0) 编辑

GitBook 使用教程

摘要：背景由于之前都把零散的知识都写在 Gist 上，要查找的时候不是很系统化，所以打算挪到 GitBook 上来统一管理，而且 GitBook 写完编译后可以生成静态页面发布到博客上，逼格满满的样子。 GitBook 简介 GitBook 官网 GitBook 文档 GitBook 准备工作安装 N 阅读全文

posted @ 2019-09-09 10:02 BruceLong 阅读(836) 评论(0) 推荐(0) 编辑

CentOS Docker 安装

摘要：Docker支持以下的CentOS版本： CentOS 7 (64-bit) CentOS 6.5 (64-bit) 或更高的版本前提条件目前，CentOS 仅发行版本中的内核支持 Docker。 Docker 运行在 CentOS 7 上，要求系统为64位、系统内核版本为 3.10 以上。 D 阅读全文

posted @ 2019-09-06 09:43 BruceLong 阅读(153) 评论(0) 推荐(0) 编辑

使用scrapy-redis搭建分布式爬虫环境

摘要：scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征：  分布式爬取您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。  分布阅读全文

posted @ 2019-09-05 16:22 BruceLong 阅读(587) 评论(0) 推荐(0) 编辑

MongoDB基础教程系列-- MongoDB 聚合管道

摘要：在讲解聚合管道（Aggregation Pipeline）之前，我们先介绍一下 MongoDB 的聚合功能，聚合操作主要用于对数据的批量处理，往往将记录按条件分组以后，然后再进行一系列操作，例如，求最大值、最小值、平均值，求和等操作。聚合操作还能够对记录进行复杂的操作，主要用于数理统计和数据挖掘。在阅读全文

posted @ 2019-09-04 17:11 BruceLong 阅读(2926) 评论(0) 推荐(1) 编辑

brucelong

09 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论