随笔档案「2019年4月」 - 冰底熊

linux如何安装和启动mongdb

摘要：1.下载安装包下载地址： https://www.mongodb.com/dr/fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.9.tgz/download 2. 将安装包上传到linux服务器上的/opt 目录下 3.解压,在 /opt在解压阅读全文

posted @ 2019-04-30 18:14 冰底熊阅读(1638) 评论(0) 推荐(1)

Gerapy的简单使用

摘要：1. Scrapy：是一个基于Twisted的异步IO框架，有了这个框架，我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取，抓取效率可以提高很多。 2. Scrapy-redis：虽然Scrapy框架是异步加多线程的，但是我们只能在一台主机上运行，爬取效率还是有限的，Scrapy-re 阅读全文

posted @ 2019-04-29 21:17 冰底熊阅读(8088) 评论(2) 推荐(2)

scrapy数据存储在mysql数据库的两种方式

摘要：方法一：同步操作 1.pipelines.py文件（处理数据的python文件） import pymysql class LvyouPipeline(object): def __init__(self): # connection database self.connect = pymysql. 阅读全文

posted @ 2019-04-29 20:13 冰底熊阅读(10182) 评论(1) 推荐(5)

利用scrapy-client 发布爬虫到远程服务端

摘要：远程服务端Scrapyd先要开启远程服务器必须装有scapyd,并开启。这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传先修爬虫项目文件scrapy.cfg:如下图 cd 到爬虫项目文件夹下，后执行： scrapyd-deploy # 上传 scrapyd 阅读全文

posted @ 2019-04-29 19:47 冰底熊阅读(1471) 评论(0) 推荐(0)

scrapyd的安装和scrapyd-client

摘要：1.创建虚拟环境，虚拟环境名为sd mkvirtualenv sd #方便管理 2. 安装 scrapyd pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 写入一下配置参考官网：https:/ 阅读全文

posted @ 2019-04-29 17:05 冰底熊阅读(1944) 评论(0) 推荐(0)

Gerapy 安装

摘要：1下载： pip install gerapy 2. 在D盘中新建一个文件夹，该然后cd 到该文件夹中，执行： gerapy init # 初始化，可以在任意路径下进行 cd gerapy # 初始化后，在该目录下有一个gerapy文件夹 gerapy migrate # 数据迁移初始命令 3. 启阅读全文

posted @ 2019-04-29 09:52 冰底熊阅读(615) 评论(0) 推荐(0)

selenium在scrapy中的使用、UA池、IP池的构建

摘要：selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__，在该方法中使用selenium实例化一个浏览器对象（因为浏览器对象只需要被实例化一次）. 重写爬虫文件的closed(self,spider)方法，在其内部关闭浏览器对象。该方法是在爬虫结束时被调用. 重写下载中间件阅读全文

posted @ 2019-04-28 22:15 冰底熊阅读(756) 评论(0) 推荐(0)

Dockerfile封装Django镜像

摘要：部署过程 1.查看镜像 docker images 2.在/opt下建立了docker目录,下载一个django-2.1.7的源码包，该 /opt/docker 文件夹需要用到的文件如下，django文件需要下载，epel.repo 需要从阿里云进行下载，Dockerfile和run.sh 需阅读全文

posted @ 2019-04-27 12:10 冰底熊阅读(1849) 评论(0) 推荐(2)

selenium、UA池、ip池、scrapy-redis的综合应用案例

摘要：案例：网易新闻的爬取： https://news.163.com/ 爬取的内容为一下4大板块中的新闻内容爬取：特点：动态加载数据，用 selenium 爬虫 1. 创建项目 scrapy startproject wy 2. 创建爬虫 scrapy genspider wangyi www 阅读全文

posted @ 2019-04-21 19:56 冰底熊阅读(1066) 评论(0) 推荐(0)

scrapy 中crawlspider 爬虫

摘要：爬取目标网站： http://www.chinanews.com/rss/rss_2.html 获取url后进入另一个页面进行数据提取检查网页：爬虫该页数据的逻辑： Crawlspider爬虫类： # -*- coding: utf-8 -*- import scrapy import re # 阅读全文

posted @ 2019-04-21 00:25 冰底熊阅读(239) 评论(0) 推荐(0)

scrapy中XMLFeedSpider

摘要：爬取案例：目标网站： url = 'http://www.chinanews.com/rss/scroll-news.xml' 页面特点：先创建爬虫项目：也可以查看爬虫类：创建xmlFeed 爬虫可以用： scrapy genspider -t xmlfeed cnew chinanews. 阅读全文

posted @ 2019-04-20 22:55 冰底熊阅读(563) 评论(0) 推荐(0)

redis的发布订阅、持久化存储、redis的主从复制

摘要：redis的发布订阅 1. 创建redis配置文件 vim /opt/redis_conf/reids-6379.conf mkdir /data/6379 redis-server redis-6379.conf # 开启redis 6379 服务端 resdis-cli -p 6379 # 进入阅读全文

posted @ 2019-04-20 13:49 冰底熊阅读(582) 评论(0) 推荐(0)

项目部署

摘要：部署django 项目 nginx +wsgi 步骤： 1. 给项目创建一个文件夹 mkdir /opt/luf 2.上传项目到linux服务器 xftp上传到服务器上传前端项目代码和后端项目代码 3.完成python3解释器的安装此步骤： 4 虚拟环境安装，完成virtualenvwrappe 阅读全文

posted @ 2019-04-19 21:00 冰底熊阅读(345) 评论(0) 推荐(0)

nginx

摘要：安装nginx nginx是一个开源的，支持高性能，高并发的www服务和代理服务软件。它是一个俄罗斯人lgor sysoev开发的，作者将源代码开源出来供全球使用。 nginx比apache性能改进许多，nginx占用的系统资源更少，支持更高的并发连接，有更高的访问效率。nginx不但是一个优秀的w 阅读全文

posted @ 2019-04-18 19:11 冰底熊阅读(265) 评论(0) 推荐(0)

linux安装redis ,mariadb

摘要：linux下安装软件方法 1 rpm （不推荐使用） 2 yum 安装(非常方便快捷) 3 编译安装(需要自定制的时候才使用) 安装mariadb(mysql) 1 使用官方源安装mariadb vim /etc/yum.repos.d/MariaDB.repo 添加repo仓库配置内容 [mari 阅读全文

posted @ 2019-04-17 16:09 冰底熊阅读(289) 评论(0) 推荐(0)

虚拟环境之virtualenvwrapper

摘要：原来的virtualenv工具使用特别麻烦，主要体现在以下几点 1 创建虚拟环境的命令太长，太难记 2 管理特别麻烦 3 进入虚拟环境需要找到这个虚拟环境的存放目录才行，如果没有统一的存放目录，很难找到 virtualenvwrapper的优点 1 创建、管理、删除虚拟环境非常方便，一条简短的命令就阅读全文

posted @ 2019-04-16 21:30 冰底熊阅读(379) 评论(0) 推荐(0)

为django项目创建虚拟环境

摘要：1. 先创建一个存放虚拟环境的目录 /opt/venl mkdir /opt/venl 2. cd 到该存放虚拟环境的目录下，并创建一个虚拟环境 virtualenv是如何创建“独立”的Python运行环境的呢？原理很简单，就是把系统Python复制一份到virtualenv的环境，用命令sourc 阅读全文

posted @ 2019-04-16 21:23 冰底熊阅读(665) 评论(0) 推荐(0)

linux下安装python

摘要：编译安装python3.6的步骤 1.下载python3源码包 wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz 2.下载python3编译的依赖包 3.解压缩源码包 tar -zxvf Python-3.6.6.tgz 4. 阅读全文

posted @ 2019-04-16 20:41 冰底熊阅读(130526) 评论(5) 推荐(29)

使用scrapy-crawlSpider 爬取tencent 招聘

摘要：Tencent 招聘信息网站创建项目 scrapy startproject Tencent 创建爬虫 scrapy genspider -t crawl tencent 1. 起始url start_url = 'https://hr.tencent.com/position.php' 在起始页阅读全文

posted @ 2019-04-16 13:33 冰底熊阅读(513) 评论(0) 推荐(2)

linux基础3

摘要：vim编辑器 vim 操作命令在命令模式下操作底线命令模式: 2 linux下测试访问网站命令 3. 用户管理和文件目录权限 4. 文件权限详解 5. sudo命令用法: vim /etc/sudoers: 6. 给文件和目录添加或删除权限 Linux权限的目的是（保护账户的资料） Linux权阅读全文

posted @ 2019-04-15 22:48 冰底熊阅读(223) 评论(0) 推荐(0)

Scrapy - CrawlSpider爬虫

摘要：crawlSpider 爬虫思路：从response中提取满足某个条件的url地址，发送给引擎，同时能够指定callback函数。 1. 创建项目 scrapy startproject myspiderproject 2. 创建crawlSpider 爬虫 scrapy genspider - 阅读全文

posted @ 2019-04-15 15:30 冰底熊阅读(213) 评论(0) 推荐(0)

scrapy-Redis 分布式爬虫

摘要：案例1 ：（增量式爬取）京东全部图书，自己可以扩展爬取每一本电子书的评论 1.spider: # -*- coding: utf-8 -*- import scrapy from copy import deepcopy import json import urllib class JdSpid 阅读全文

posted @ 2019-04-14 22:48 冰底熊阅读(996) 评论(0) 推荐(1)

scrapy-redis(一)

摘要：安装scrapy-redis pip install scrapy-redis 从GitHub 上拷贝源码： clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-redis.git scrapy-redi 阅读全文

posted @ 2019-04-14 22:37 冰底熊阅读(1063) 评论(0) 推荐(0)

Django的缓存

摘要：由于Django是动态网站，所有每次请求均会去数据进行相应的操作，当程序访问量大时，耗时必然会更加明显，最简单解决方式是使用：缓存，缓存将一个某个views的返回值保存至内存或者memcache中，5分钟内再有人来访问时，则不再去执行view中的操作，而是直接从内存或者Redis中之前缓存的内容阅读全文

posted @ 2019-04-14 11:00 冰底熊阅读(222) 评论(0) 推荐(0)

Redis

摘要：简介 redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remo 阅读全文

posted @ 2019-04-13 17:12 冰底熊阅读(220) 评论(0) 推荐(0)

1. windows 下redis数据库的安装

摘要：安装 window系统的redis是微软团队根据官方的linux版本高仿的官方原版: https://redis.io/ 中文官网:http://www.redis.cn 下载地址： https://github.com/MicrosoftArchive/redis/releases 下载上面的z 阅读全文

posted @ 2019-04-13 11:16 冰底熊阅读(200) 评论(0) 推荐(0)

02linux 基本命令

摘要：系统环境变量的设置以nginx为例：方式一： ~/.bash_profile 这是个人的方式二： 1. 创建用户和设置密码参考：https://www.cnblogs.com/tiger666/articles/10259192.html 查看所有用户信息：查找某个用户： 2.修改命令提示阅读全文

posted @ 2019-04-12 22:03 冰底熊阅读(353) 评论(0) 推荐(0)

linux 下如何安装memcached 和启动服务

摘要：一、安装gcc 一、安装gcc # yum -y install gcc 二、安装libevent # wget http://www.monkey.org/~provos/libevent-2.0.12-stable.tar.gz# tar zxf libevent-2.0.12-stable.t 阅读全文

posted @ 2019-04-12 16:20 冰底熊阅读(1208) 评论(0) 推荐(0)

centos 安装和 linux 简单命令

摘要：1. centos 安装参照：https://www.cnblogs.com/tiger666/articles/10259102.html 安装过程注意点： 1. 安装过程中的选择安装Basic Web Server 2. 网路类型选择 1. 桥接网络: 虚拟机和大家都在同一个局域网 2 . 网阅读全文

posted @ 2019-04-11 17:33 冰底熊阅读(2174) 评论(0) 推荐(0)

04 flask 项目整体构建

摘要：本文主要的目标是创建flask基本的项目架构，总体架构：详细的项目目录结构： Flask 项目创建的过程一.项目(students)创建初始化工作 1. 创建项目的虚拟环境 2 . 在项目虚拟环境中安装开发中使用的依赖模块 3. 创建大致的目录结构在项目目录下d:/deng/flaskLear 阅读全文

posted @ 2019-04-10 21:53 冰底熊阅读(621) 评论(0) 推荐(1)

02 flask 请求钩子、异常捕获、上下文、Flask-Script 扩展、jinja2 模板引擎、csrf防范

摘要：一请求勾子在客户端和服务器交互的过程中，有些准备工作或扫尾工作需要处理，比如：在请求开始时，建立数据库连接；在请求开始时，根据需求进行权限校验；在请求结束时，指定数据的交互格式；在请求开始时，建立数据库连接；在请求开始时，根据需求进行权限校验；在请求结束时，指定数据的交互格式；为了阅读全文

posted @ 2019-04-09 23:28 冰底熊阅读(397) 评论(0) 推荐(0)

03 flask数据库操作、flask-session、蓝图

摘要：ORM ORM 全拼Object-Relation Mapping，中文意为对象-关系映射。主要实现模型对象到关系数据库数据的映射。 1.优点 : 只需要面向对象编程, 不需要面向数据库编写代码. 对数据库的操作都转化成对类属性和方法的操作. 不用编写各种数据库的sql语句. 实现了数据模型与数据阅读全文

posted @ 2019-04-09 23:28 冰底熊阅读(1811) 评论(0) 推荐(1)

01Flask基础

摘要：简介 Flask诞生于2010年，是Armin ronacher（人名）用 Python 语言基于 Werkzeug 工具箱编写的轻量级Web开发框架。 Flask 本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-S 阅读全文

posted @ 2019-04-09 23:27 冰底熊阅读(300) 评论(0) 推荐(0)

侠客云

04 2019 档案

公告