04 2019 档案

摘要:1.下载安装包 下载地址: https://www.mongodb.com/dr/fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.9.tgz/download 2. 将安装包上传到linux服务器上的/opt 目录下 3.解压,在 /opt在解压 阅读全文
posted @ 2019-04-30 18:14 冰底熊 阅读(1620) 评论(0) 推荐(1) 编辑
摘要:1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取,抓取效率可以提高很多。 2. Scrapy-redis:虽然Scrapy框架是异步加多线程的,但是我们只能在一台主机上运行,爬取效率还是有限的,Scrapy-re 阅读全文
posted @ 2019-04-29 21:17 冰底熊 阅读(7998) 评论(2) 推荐(2) 编辑
摘要:方法一:同步操作 1.pipelines.py文件(处理数据的python文件) import pymysql class LvyouPipeline(object): def __init__(self): # connection database self.connect = pymysql. 阅读全文
posted @ 2019-04-29 20:13 冰底熊 阅读(10066) 评论(1) 推荐(5) 编辑
摘要:远程服务端Scrapyd先要开启 远程服务器必须装有scapyd,并开启。 这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传 先修爬虫项目文件scrapy.cfg:如下图 cd 到爬虫项目文件夹下,后执行: scrapyd-deploy # 上传 scrapyd 阅读全文
posted @ 2019-04-29 19:47 冰底熊 阅读(1443) 评论(0) 推荐(0) 编辑
摘要:1.创建虚拟环境 ,虚拟环境名为sd mkvirtualenv sd #方便管理 2. 安装 scrapyd pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 写入一下配置 参考官网:https:/ 阅读全文
posted @ 2019-04-29 17:05 冰底熊 阅读(1919) 评论(0) 推荐(0) 编辑
摘要:1下载: pip install gerapy 2. 在D盘中新建一个文件夹,该然后cd 到该文件夹中,执行: gerapy init # 初始化,可以在任意路径下进行 cd gerapy # 初始化后,在该目录下有一个gerapy文件夹 gerapy migrate # 数据迁移初始命令 3. 启 阅读全文
posted @ 2019-04-29 09:52 冰底熊 阅读(603) 评论(0) 推荐(0) 编辑
摘要:selenium在scrapy中的使用流程 重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed(self,spider)方法,在其内部关闭浏览器对象。该方法是在爬虫结束时被调用. 重写下载中间件 阅读全文
posted @ 2019-04-28 22:15 冰底熊 阅读(725) 评论(0) 推荐(0) 编辑
摘要:部署过程 1.查看镜像 docker images 2.在/opt下建立了docker目录,下载一个django-2.1.7的源码包, 该 /opt/docker 文件夹需要用到 的文件如下,django文件需要下载 ,epel.repo 需要从阿里云进行下载,Dockerfile和run.sh 需 阅读全文
posted @ 2019-04-27 12:10 冰底熊 阅读(1816) 评论(0) 推荐(2) 编辑
摘要:案例: 网易新闻的爬取: https://news.163.com/ 爬取的内容为一下4大板块中的新闻内容 爬取: 特点: 动态加载数据 ,用 selenium 爬虫 1. 创建项目 scrapy startproject wy 2. 创建爬虫 scrapy genspider wangyi www 阅读全文
posted @ 2019-04-21 19:56 冰底熊 阅读(1035) 评论(0) 推荐(0) 编辑
摘要:爬取目标网站: http://www.chinanews.com/rss/rss_2.html 获取url后进入另一个页面进行数据提取 检查网页: 爬虫该页数据的逻辑: Crawlspider爬虫类: # -*- coding: utf-8 -*- import scrapy import re # 阅读全文
posted @ 2019-04-21 00:25 冰底熊 阅读(219) 评论(0) 推荐(0) 编辑
摘要:爬取案例: 目标网站: url = 'http://www.chinanews.com/rss/scroll-news.xml' 页面特点: 先创建爬虫项目: 也可以查看爬虫类: 创建xmlFeed 爬虫可以用: scrapy genspider -t xmlfeed cnew chinanews. 阅读全文
posted @ 2019-04-20 22:55 冰底熊 阅读(545) 评论(0) 推荐(0) 编辑
摘要:redis的发布订阅 1. 创建redis配置文件 vim /opt/redis_conf/reids-6379.conf mkdir /data/6379 redis-server redis-6379.conf # 开启redis 6379 服务端 resdis-cli -p 6379 # 进入 阅读全文
posted @ 2019-04-20 13:49 冰底熊 阅读(563) 评论(0) 推荐(0) 编辑
摘要:部署django 项目 nginx +wsgi 步骤: 1. 给项目创建一个文件夹 mkdir /opt/luf 2.上传项目到linux服务器 xftp上传到服务器 上传前端项目代码和后端项目代码 3.完成python3解释器的安装 此步骤: 4 虚拟环境安装,完成virtualenvwrappe 阅读全文
posted @ 2019-04-19 21:00 冰底熊 阅读(320) 评论(0) 推荐(0) 编辑
摘要:安装nginx nginx是一个开源的,支持高性能,高并发的www服务和代理服务软件。它是一个俄罗斯人lgor sysoev开发的,作者将源代码开源出来供全球使用。 nginx比apache性能改进许多,nginx占用的系统资源更少,支持更高的并发连接,有更高的访问效率。nginx不但是一个优秀的w 阅读全文
posted @ 2019-04-18 19:11 冰底熊 阅读(233) 评论(0) 推荐(0) 编辑
摘要:linux下安装软件方法 1 rpm (不推荐使用) 2 yum 安装(非常方便快捷) 3 编译安装(需要自定制的时候才使用) 安装mariadb(mysql) 1 使用官方源安装mariadb vim /etc/yum.repos.d/MariaDB.repo 添加repo仓库配置内容 [mari 阅读全文
posted @ 2019-04-17 16:09 冰底熊 阅读(265) 评论(0) 推荐(0) 编辑
摘要:原来的virtualenv工具使用特别麻烦,主要体现在以下几点 1 创建虚拟环境的命令太长,太难记 2 管理特别麻烦 3 进入虚拟环境需要找到这个虚拟环境的存放目录才行,如果没有统一的存放目录,很难找到 virtualenvwrapper的优点 1 创建、管理、删除虚拟环境非常方便,一条简短的命令就 阅读全文
posted @ 2019-04-16 21:30 冰底熊 阅读(348) 评论(0) 推荐(0) 编辑
摘要:1. 先创建一个存放虚拟环境的目录 /opt/venl mkdir /opt/venl 2. cd 到该存放虚拟环境的目录下,并创建一个虚拟环境 virtualenv是如何创建“独立”的Python运行环境的呢?原理很简单,就是把系统Python复制一份到virtualenv的环境,用命令sourc 阅读全文
posted @ 2019-04-16 21:23 冰底熊 阅读(641) 评论(0) 推荐(0) 编辑
摘要:编译安装python3.6的步骤 1.下载python3源码包 wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz 2.下载python3编译的依赖包 3.解压缩源码包 tar -zxvf Python-3.6.6.tgz 4. 阅读全文
posted @ 2019-04-16 20:41 冰底熊 阅读(130351) 评论(5) 推荐(29) 编辑
摘要:Tencent 招聘信息网站 创建项目 scrapy startproject Tencent 创建爬虫 scrapy genspider -t crawl tencent 1. 起始url start_url = 'https://hr.tencent.com/position.php' 在起始页 阅读全文
posted @ 2019-04-16 13:33 冰底熊 阅读(474) 评论(0) 推荐(2) 编辑
摘要:vim编辑器 vim 操作命令 在命令模式下操作 底线命令模式: 2 linux下测试访问网站命令 3. 用户管理和文件目录权限 4. 文件权限详解 5. sudo命令用法: vim /etc/sudoers: 6. 给文件和目录添加或删除权限 Linux权限的目的是(保护账户的资料) Linux权 阅读全文
posted @ 2019-04-15 22:48 冰底熊 阅读(204) 评论(0) 推荐(0) 编辑
摘要:crawlSpider 爬虫 思路: 从response中提取满足某个条件的url地址,发送给引擎,同时能够指定callback函数。 1. 创建项目 scrapy startproject myspiderproject 2. 创建crawlSpider 爬虫 scrapy genspider - 阅读全文
posted @ 2019-04-15 15:30 冰底熊 阅读(177) 评论(0) 推荐(0) 编辑
摘要:案例1 :(增量式爬取)京东全部图书,自己可以扩展 爬取每一本电子书的评论 1.spider: # -*- coding: utf-8 -*- import scrapy from copy import deepcopy import json import urllib class JdSpid 阅读全文
posted @ 2019-04-14 22:48 冰底熊 阅读(968) 评论(0) 推荐(1) 编辑
摘要:安装scrapy-redis pip install scrapy-redis 从GitHub 上拷贝源码: clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-redis.git scrapy-redi 阅读全文
posted @ 2019-04-14 22:37 冰底熊 阅读(1036) 评论(0) 推荐(0) 编辑
摘要:由于Django是动态网站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显, 最简单解决方式是使用:缓存,缓存将一个某个views的返回值保存至内存或者memcache中,5分钟内再有人来访问时, 则不再去执行view中的操作,而是直接从内存或者Redis中之前缓存的内容 阅读全文
posted @ 2019-04-14 11:00 冰底熊 阅读(206) 评论(0) 推荐(0) 编辑
摘要:简介 redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多, 包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。 这些数据类型都支持push/pop、add/remo 阅读全文
posted @ 2019-04-13 17:12 冰底熊 阅读(203) 评论(0) 推荐(0) 编辑
摘要:安装 window系统的redis是微软团队根据官方的linux版本高仿的 官方原版: https://redis.io/ 中文官网:http://www.redis.cn 下载地址: https://github.com/MicrosoftArchive/redis/releases 下载上面的z 阅读全文
posted @ 2019-04-13 11:16 冰底熊 阅读(181) 评论(0) 推荐(0) 编辑
摘要:系统环境变量的设置 以nginx为例: 方式一: ~/.bash_profile 这是个人的 方式二: 1. 创建用户和设置密码 参考:https://www.cnblogs.com/tiger666/articles/10259192.html 查看所有用户信息: 查找某个用户: 2.修改命令提示 阅读全文
posted @ 2019-04-12 22:03 冰底熊 阅读(309) 评论(0) 推荐(0) 编辑
摘要:一、安装gcc 一、安装gcc # yum -y install gcc 二、安装libevent # wget http://www.monkey.org/~provos/libevent-2.0.12-stable.tar.gz# tar zxf libevent-2.0.12-stable.t 阅读全文
posted @ 2019-04-12 16:20 冰底熊 阅读(1175) 评论(0) 推荐(0) 编辑
摘要:1. centos 安装 参照:https://www.cnblogs.com/tiger666/articles/10259102.html 安装过程注意点: 1. 安装过程中的选择安装Basic Web Server 2. 网路类型选择 1. 桥接网络: 虚拟机和大家都在同一个局域网 2 . 网 阅读全文
posted @ 2019-04-11 17:33 冰底熊 阅读(2144) 评论(0) 推荐(0) 编辑
摘要:本文主要的目标是创建flask基本的项目架构,总体架构: 详细的项目目录结构: Flask 项目创建的过程 一.项目(students)创建初始化工作 1. 创建项目的虚拟环境 2 . 在项目虚拟环境中安装开发中使用的依赖模块 3. 创建大致的目录结构 在项目目录下d:/deng/flaskLear 阅读全文
posted @ 2019-04-10 21:53 冰底熊 阅读(588) 评论(0) 推荐(1) 编辑
摘要:一 请求勾子 在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比如: 在请求开始时,建立数据库连接; 在请求开始时,根据需求进行权限校验; 在请求结束时,指定数据的交互格式; 在请求开始时,建立数据库连接; 在请求开始时,根据需求进行权限校验; 在请求结束时,指定数据的交互格式; 为了 阅读全文
posted @ 2019-04-09 23:28 冰底熊 阅读(357) 评论(0) 推荐(0) 编辑
摘要:ORM ORM 全拼Object-Relation Mapping,中文意为 对象-关系映射。主要实现模型对象到关系数据库数据的映射。 1.优点 : 只需要面向对象编程, 不需要面向数据库编写代码. 对数据库的操作都转化成对类属性和方法的操作. 不用编写各种数据库的sql语句. 实现了数据模型与数据 阅读全文
posted @ 2019-04-09 23:28 冰底熊 阅读(1783) 评论(0) 推荐(1) 编辑
摘要:简介 Flask诞生于2010年,是Armin ronacher(人名)用 Python 语言基于 Werkzeug 工具箱编写的轻量级Web开发框架。 Flask 本身相当于一个内核,其他几乎所有的功能都要用到扩展(邮件扩展Flask-Mail,用户认证Flask-Login,数据库Flask-S 阅读全文
posted @ 2019-04-09 23:27 冰底熊 阅读(283) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示