2019 年 8月随笔档案 - 笑得好美

python中的装饰器

摘要：''' 开放封闭原则：开放扩展封闭：不能修改源功能代码不能改变调用方式 ''' import time # from functools import wraps def outer(flag): def warpper(f): # @wraps(f) def inner(*args,**kwargs): """ 装饰函数 :param args: :param kwargs: :retur 阅读全文

posted @ 2019-08-29 23:51 笑得好美阅读(184) 评论(0) 推荐(0) 编辑

python中的基础坑

摘要：v = [lambda :x for x in range(10)] print(v) #[lambda :x,lambda :x....]10个匿名函数 print(v[0]) #lambda :x print(v[0]()) #9 v = (lambda :x for x in range(10)) print(v) #生成器 # print(v[0]) #报错：生成器不能索引取值 # pri 阅读全文

posted @ 2019-08-28 18:04 笑得好美阅读(330) 评论(0) 推荐(0) 编辑

Django组件content-type使用方法详解

摘要：前言参考博客：https://www.zhangshengrong.com/p/zD1yQJwp1r/ 一个表和多个表进行关联，但具体随着业务的加深，表不断的增加，关联的数量不断的增加，怎么通过一开始通过表的设计后，不在后期在修改表，彻底的解决这个问题呢？ django中的一个组件content- 阅读全文

posted @ 2019-08-27 14:51 笑得好美阅读(2469) 评论(0) 推荐(0) 编辑

数据库范式

摘要：数据库范式设计关系数据库时，遵从不同的规范要求，设计出合理的关系型数据库，这些不同的规范要求被称为不同的范式，各种范式呈递次规范，越高的范式数据库冗余越小。范式简介范式来自英文Normal form，简称NF。要想设计—个好的关系，必须使关系满足一定的约束条件，此约束已经形成了规范，分成几个等阅读全文

posted @ 2019-08-27 12:59 笑得好美阅读(252) 评论(0) 推荐(0) 编辑

MySQL常见面试题索引、表设计

摘要：1 索引概念、索引模型 Q：你们每天这么大的数据量，都是保存在关系型数据库中吗？ A：是的，我们线上使用的是MySQL数据库 Q：每天几百万数据，一个月就是几千万了，那你们有没有对于查询做一些优化呢？ A：我们在数据库中创建了一些索引（我现在非常后悔我当时说了这句话） Q：那你能说说什么是索引吗？阅读全文

posted @ 2019-08-27 12:43 笑得好美阅读(2861) 评论(0) 推荐(0) 编辑

python操作MySQL之pymysql模块

posted @ 2019-08-27 11:57 笑得好美阅读(274) 评论(0) 推荐(0) 编辑

MySQL备份与还原

摘要：恢复逻辑备份数据库表的导出和导入备份/恢复案例 #数据库备份/恢复实验一：数据库损坏备份： 1. # mysqldump -uroot -p123 --all-databases > /backup/`date +%F`_all.sql 2. # mysql -uroot -p123 -e ' 阅读全文

posted @ 2019-08-27 11:41 笑得好美阅读(589) 评论(0) 推荐(0) 编辑

MySQL查询缓存

摘要：查询缓存的使用执行查询语句的时候，会先查询缓存。不过，MySQL 8.0 版本后移除，因为这个功能不太实用 my.cnf加入以下配置，重启MySQL开启查询缓存 MySQL执行以下命令也可以开启查询缓存缓存建立之后，MySQL的查询缓存系统会跟踪查询中涉及的每张表，如果这些表（数据或结构）发生变阅读全文

posted @ 2019-08-27 11:33 笑得好美阅读(342) 评论(0) 推荐(0) 编辑

MySQL索引及查询优化

摘要：mysql 索引 1.索引介绍索引按数据结构分可分为哈希表，有序数组，搜索树，跳表：哈希表适用于只有等值查询的场景有序数组适用于有等值查询和范围查询的场景，但有序数组索引的更新代价很大，所以最好用于静态数据表搜索树的搜索效率稳定，不会出现大幅波动，而且基于索引的顺序扫描时，也可以利用双向指针阅读全文

posted @ 2019-08-27 11:31 笑得好美阅读(401) 评论(0) 推荐(0) 编辑

MySQL事务隔离之MVCC版本控制

摘要：MVCC简介 MVCC是一种多版本并发控制机制。 MVCC是为了解决什么问题? 大多数的MYSQL事务型存储引擎,如,InnoDB，Falcon以及PBXT都不使用一种简单的行锁机制.事实上,他们都和MVCC–多版本并发控制来一起使用. 大家都应该知道,锁机制可以控制并发操作,但是其系统开销较大,而阅读全文

posted @ 2019-08-27 11:21 笑得好美阅读(656) 评论(0) 推荐(0) 编辑

MySQL事务及实现、隔离级别及锁与优化

摘要：事务事务是应用程序中一系列严密的操作，所有操作必须成功完成，否则在每个操作中所作的所有更改都会被撤消。事务是逻辑上的一组操作，要么都执行，要么都不执行。 ACID简介原子性(Atomicity)、一致性(Correspondence)、隔离性(Isolation)、持久性(Durability) 阅读全文

posted @ 2019-08-27 00:49 笑得好美阅读(608) 评论(0) 推荐(0) 编辑

MySQL事务操作

摘要：在 MySQL 命令行的默认设置下，事务都是自动提交的，即执行 SQL 语句后就会马上执行 COMMIT 操作。因此要显式地开启一个事务务须使用命令 BEGIN 或 START TRANSACTION，或者执行命令 SET AUTOCOMMIT=0，用来禁止使用当前会话的自动提交。菜鸟教程：htt 阅读全文

posted @ 2019-08-27 00:48 笑得好美阅读(4579) 评论(0) 推荐(0) 编辑

MySQL表的CRUD及多表查询

摘要：数据库表的增删改查操作：增、删、改查：单表查询简单查询、where约束、group by分组、聚合查询、having过滤、order by排序、limit限制、正则匹配多表查询连表查询：交叉查询、>內连查询、左外连接查询、右外连接查询、全外链接查询、连接结果筛选查询子查询　：带关键字i 阅读全文

posted @ 2019-08-27 00:47 笑得好美阅读(543) 评论(0) 推荐(0) 编辑

MySQL用户、库、表(单/多)操作

摘要：用户及权限操作：管理员登录：mysql -uroot -p 用户设置密码：set password=password(密码); 查看数据库所有用户：select * from mysql.user; 查看用户权限：show grants for 用户名@网络地址 [identified by 密码阅读全文

posted @ 2019-08-27 00:46 笑得好美阅读(569) 评论(0) 推荐(0) 编辑

MySQL存储引擎介绍

摘要：mysql数据库常用的三种存储引擎： MyISAM和InnoDB区别 MyISAM是MySQL的默认数据库引擎（5.5版之前）。虽然性能极佳，而且提供了大量的特性，包括全文索引、压缩、空间函数等，但MyISAM不支持事务和行级锁，而且最大的缺陷就是崩溃后无法安全恢复。不过，5.5版本之后，MySQL 阅读全文

posted @ 2019-08-27 00:43 笑得好美阅读(283) 评论(0) 推荐(0) 编辑

MySQL数据库基础操作语句

摘要：SQL语言主要用于存取数据、查询数据、更新数据和管理关系数据库系统，分为3种类型： 1、DDL语句数据库定义语言：数据库、表、视图、索引、存储过程，例如CREATE DROP ALTER 2、DML语句数据库操纵语言：插入数据INSERT、删除数据DELETE、更新数据UPDATE、查询数据SELECT 3、DCL语句数据库控制语言：例如控制用户的访问权限GRANT、REVOKE（取消阅读全文

posted @ 2019-08-27 00:43 笑得好美阅读(467) 评论(0) 推荐(0) 编辑

MySQL工作流程

摘要：mysql的工作流程: 1.mysql 架构 mysql 分为 server 层和存储引擎 1.1.server层连接器：管理连接权限验证查询缓存：命中缓存直接换回查询结果分析器：分析语法优化器：生成执行计划，选择索引执行器：操作索引返回结果连接器：管理连接权限验证查询缓存：命中缓存直阅读全文

posted @ 2019-08-27 00:42 笑得好美阅读(2869) 评论(0) 推荐(0) 编辑

MySQL数据库安装

摘要：mysql提供开源的安装在各个操作系统上的安装包，包括ios，linux，windows: （1）mysql的安装、启动和基础配置 —— linux版本（2）mysql的安装、启动和基础配置 —— windows版本（3）mysql的安装、启动和基础配置 —— mac版本一、mysql的安装、阅读全文

posted @ 2019-08-27 00:41 笑得好美阅读(6744) 评论(0) 推荐(0) 编辑

MySQL数据库简介

摘要：数据库相关：数据库DB（Database）、数据库管理系统DBMS（DataBase Management System）、数据库管理员DBA(Database Administrator)数据库分类：关系型数据库: MySQL/SQLServer/Oracle/Sqlserver 非关系型数据阅读全文

posted @ 2019-08-26 10:55 笑得好美阅读(1218) 评论(0) 推荐(0) 编辑

django提供二进制流数据文件的下载

摘要：基于djnago框架的二进制流数据传输（提供较大文件的下载）（1）数据源：高质量图片、视频、音频、文件、数据库数据等。如果是数据库文件，需要先读取相应的数据，然后写入表格在传输到前端以供下载！（2）数据读取：利用yield函数生成器进行rb模式文件读取操作（3）数据传输：通过Stream 阅读全文

posted @ 2019-08-19 17:42 笑得好美阅读(2636) 评论(0) 推荐(0) 编辑

xpython操作excel之xlwt与xlrd

摘要：xlwt与xlrd只能针对xls格式的excel进行操作！！！（openpyxl操作excel） xlwt写excel xlrd读excel 阅读全文

posted @ 2019-08-19 17:13 笑得好美阅读(548) 评论(0) 推荐(0) 编辑

python操作excel----openpyxl模块

摘要：openpyxl模块支持.xls和.xlsx格式的excel创建，但是只支持.xlsx格式的读取操作，不支持.xls的读取（可以使用xlrd模块来读取，写入操作也可使用xlwt模块），也可使用pandas模块对excel进行读写操作。 openpyxl创建新的excel openpyxl读取已存在e 阅读全文

posted @ 2019-08-18 01:49 笑得好美阅读(2504) 评论(0) 推荐(0) 编辑

排序算法----归并排序

摘要：归并排序归并排序采用分而治之的原理： - 将一个序列从中间位置分成两个序列； - 在将这两个子序列按照第一步继续二分下去； - 直到所有子序列的长度都为1，也就是不可以再二分截止。这时候再两两合并成一个有序序列即可。下图中的倒数第三行表示为第一次合并后的数据。其中一组数据为 4 8 ， 5 7。阅读全文

posted @ 2019-08-17 00:57 笑得好美阅读(199) 评论(0) 推荐(0) 编辑

排序算法----快速排序

摘要：快速排序将列表中第一个元素设定为基准数字，赋值给mid变量，然后将整个列表中比基准小的数值放在基准的左侧，比基准到的数字放在基准右侧。然后将基准数字左右两侧的序列在根据此方法进行排放。定义两个指针，low指向最左侧，high指向最右侧然后对最右侧指针进行向左移动，移动法则是，如果指针指向的数值阅读全文

posted @ 2019-08-17 00:56 笑得好美阅读(189) 评论(0) 推荐(0) 编辑

排序算法----希尔排序

摘要：希尔排序希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本,该方法的基本思想是：先将整个待排元素序列分割成若干个子序列（由相隔某个“增量（gap）”的元素组成的）分别进行直接插入排序，然后依次缩减增量再进行排序，待整个序列中的元素基本有序（阅读全文

posted @ 2019-08-17 00:53 笑得好美阅读(169) 评论(0) 推荐(0) 编辑

排序算法----插入排序

摘要：插入排序插入排序的主要思想是每次取一个列表元素与列表中已经排序好的列表段进行比较，然后插入从而得到新的排序好的列表段，最终获得排序好的列表。比如，待排序列表为[49,38,65,97,76,13,27,49]，则比较的步骤和得到的新列表如下：(带有背景颜色的列表段是已经排序好的，红色背景标记的是阅读全文

posted @ 2019-08-17 00:51 笑得好美阅读(171) 评论(0) 推荐(0) 编辑

排序算法----选择排序

摘要：选择排序选择排序改进了冒泡排序，每次遍历列表只做一次交换。为了做到这一点，一个选择排序在他遍历时寻找最大的值，并在完成遍历后，将其放置在正确的位置。对于冒泡排序来讲选择排序由于交换数量的减少，选择排序通常在基准研究中执行得更快。阅读全文

posted @ 2019-08-17 00:49 笑得好美阅读(227) 评论(0) 推荐(0) 编辑

排序算法----冒泡排序

摘要：冒泡排序阅读全文

posted @ 2019-08-17 00:47 笑得好美阅读(178) 评论(0) 推荐(0) 编辑

查找算法----二分查找与hash查找

摘要：二分查找有序列表对于我们的实现搜索是很有用的。在顺序查找中，当我们与第一个元素进行比较时，如果第一个元素不是我们要查找的，则最多还有 n-1 个元素需要进行比较。二分查找则是从中间元素开始，而不是按顺序查找列表。如果该元素是我们正在寻找的元素，我们就完成了查找。如果它不是，我们可以使用列表的阅读全文

posted @ 2019-08-17 00:45 笑得好美阅读(552) 评论(0) 推荐(0) 编辑

数据结构----二叉树Tree和排序二叉树

摘要：二叉树二叉树的非递归遍历 class Node: def __init__(self, value): self.left = self.right = None self.value = value # 二叉树非递归操作 class Tree(): def __init__(self): sel 阅读全文

posted @ 2019-08-17 00:42 笑得好美阅读(492) 评论(0) 推荐(0) 编辑

数据结构----链表Link

摘要：链表简介与数据结构单向链表也叫单链表，是表中最简单的一种形式，它的每个节点包含两个域，一个信息域（元素域）和一个链接域。这个链接指向链表中的下一个节点，而最后一个节点的链接域则指向一个空值。链表的定义链表的使用阅读全文

posted @ 2019-08-17 00:35 笑得好美阅读(1568) 评论(0) 推荐(0) 编辑

数据结构----双端队列Dque

摘要：双端队列的概念与数据结构 deque（也称为双端队列）是与队列类似的项的有序集合。它有两个端部，首部和尾部，并且项在集合中保持不变。 deque 特殊之处在于添加和删除项是非限制性的。可以在前面或后面添加新项。同样，可以从任一端移除现有项。在某种意义上，这种混合线性结构提供了单个数据结构中的栈和队列阅读全文

posted @ 2019-08-17 00:32 笑得好美阅读(1152) 评论(0) 推荐(0) 编辑

数据结构----队列Queue

摘要：队列的概念与数据结构队列是项的有序结合，其中添加新项的一端称为队尾，移除项的一端称为队首。当一个元素从队尾进入队列时，一直向队首移动，直到它成为下一个需要移除的元素为止。最近添加的元素必须在队尾等待。集合中存活时间最长的元素在队首，这种排序成为 FIFO，先进先出，也被成为先到先得。队列的抽象数阅读全文

posted @ 2019-08-17 00:24 笑得好美阅读(406) 评论(0) 推荐(0) 编辑

数据结构----栈stack

摘要：栈的概念与数据结构栈（有时称为“后进先出栈”）是一个元素的有序集合，其中添加移除新元素总发生在同一端。这一端通常称为“顶部”。与顶部对应的端称为“底部”。栈的底部很重要，因为在栈中靠近底部的元素是存储时间最长的。最近添加的元素是最先会被移除的。这种排序原则有时被称为 LIFO，后进先出。它基于在集阅读全文

posted @ 2019-08-17 00:21 笑得好美阅读(276) 评论(0) 推荐(0) 编辑

数据结构性能分析(代码运行效率)

摘要：代码运算时间测试模块：timeit.Timer - timeit模块：该模块可以用来测试一段python代码的执行速度/时长。 - Timer类：该类是timeit模块中专门用于测量python代码的执行速度/时长的。原型为：class timeit.Timer(stmt='pass',setup='pass')。 - stmt参数：表示即将进行测试的代码块语句。 ... 阅读全文

posted @ 2019-08-17 00:16 笑得好美阅读(458) 评论(0) 推荐(0) 编辑

算法与时间复杂度

摘要：算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或阅读全文

posted @ 2019-08-17 00:13 笑得好美阅读(621) 评论(0) 推荐(0) 编辑

Pandas库

摘要：pandas学习中文文档阅读全文

posted @ 2019-08-13 22:48 笑得好美阅读(887) 评论(0) 推荐(0) 编辑

数据分析之Numpy、Matplotlib库

摘要：1 """ 2 菜鸟教程：https://www.runoob.com/numpy/numpy-tutorial.html 3 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。 4 5 "" 阅读全文

posted @ 2019-08-13 18:06 笑得好美阅读(348) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要：增量式爬虫通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新出的新数据。增量式爬虫核心在于跳过之前已经爬去过的数据，也就是实现请求去重！去重方法将爬取过程中产生的url进行存储，存储在redis的set中。当下次进行数据爬取时，首先对即将要发起的请求对应的url在存储的url的set 阅读全文

posted @ 2019-08-13 00:04 笑得好美阅读(604) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：分布式爬虫，可以让很多台电脑都使用同一个的爬虫程序，将爬虫分发得到多台电脑上，这样可以提高爬虫的速度，也就是分布式爬虫。分布式爬虫需要专门的模块scrapy-redis，原生的scrapy框架无法实现分布式爬取，原因在于：（1）scrapy框架中五大核心组件中的调度器只归属于该项目，无法实现被分布阅读全文

posted @ 2019-08-12 23:33 笑得好美阅读(593) 评论(0) 推荐(0) 编辑

scrapy框架之CrawlSpider全站自动爬取

摘要：全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据，可参考相关博文（全站图片爬取），手动借助scrapy.Request模块发起请求。 2.对于一定规则网站的全站数据爬取，可以使用CrawlSpider实现自动爬取。 CrawlSpider是基于Spider的一个子类。和蜘蛛一样，都是阅读全文

posted @ 2019-08-12 21:16 笑得好美阅读(766) 评论(0) 推荐(0) 编辑

scrapy中间件之下载中间件使用（网易新闻爬取）

摘要：scrapy项目中的middlewarse.py中间件爬虫中间件：目前先不介绍下载中间件（需要在settings.py中开启） 1 def process_request(self, request, spider): 2 #UA伪装 3 # request.headers['User-Agen 阅读全文

posted @ 2019-08-12 19:17 笑得好美阅读(278) 评论(0) 推荐(0) 编辑

中国空气质量在线监测分析平台之JS加密、JS混淆处理

摘要：中国空气质量在线监测分析平台数据爬取分析页面分析：确定url、请求方式、请求参数、响应数据 1.访问网站首页：https://www.aqistudy.cn/html/city_detail.html，通过抓包工具分析首页请求并没有获取到页面内的数据信息 2.因此可以确定页面内的数据是动态加载的，阅读全文

posted @ 2019-08-11 23:43 笑得好美阅读(2185) 评论(0) 推荐(0) 编辑

全站深度爬取图片案例

摘要：项目目录爬虫文件setuw.py 1 # -*- coding: utf-8 -*- 2 import time 3 from lxml.html.clean import etree 4 5 import scrapy 6 from meituwangPro.items import Meitu 阅读全文

posted @ 2019-08-11 17:57 笑得好美阅读(570) 评论(0) 推荐(0) 编辑

scrapy爬取效率提升配置

摘要：增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为I 阅读全文

posted @ 2019-08-09 23:36 笑得好美阅读(568) 评论(0) 推荐(0) 编辑

scrapy请求发送详解

摘要：scrapy自动发送请求对start_urls列表中存储的起始url进行过请求的发送并没有通过手动实现，但是在parse函数中还是获取到了响应数据，这是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个方法，该方法就可以对start_urls列表中的ur 阅读全文

posted @ 2019-08-09 23:34 笑得好美阅读(1763) 评论(0) 推荐(0) 编辑

scrapy五大核心组件

摘要：scrapy五大核心组件引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 阅读全文

posted @ 2019-08-09 23:20 笑得好美阅读(242) 评论(0) 推荐(0) 编辑

scrapy实现数据持久化、数据库连接、图片文件下载及settings.py配置

摘要：数据持久化的两种方式：（1）基于终端指令的持久化存储；（2）基于管道的持久化存储基于终端指令的持久化存储在爬虫文件的parse方法中必须要return可迭代对象类型（通常为列表或字典等）的返回值，该返回值作为基于终端指令持久化指定文件的输出内容。基于管道的持久化存储 (1)编写爬虫文件进行数据阅读全文

posted @ 2019-08-09 23:11 笑得好美阅读(840) 评论(0) 推荐(1) 编辑

scrapy框架简介与安装启动

摘要：Scrapy 是一个专业的、高效的爬虫框架，它使用专业的 Twisted 包（基于事件驱动的网络引擎包）高效地处理网络通信，使用 lxml（专业的 XML 处理包）、cssselect 高效地提取 HTML 页面的有效信息，同时它也提供了有效的线程管理。安装scrapy pip3 install 阅读全文

posted @ 2019-08-09 18:14 笑得好美阅读(708) 评论(0) 推荐(0) 编辑

爬虫之图片懒加载技术、selenium工具与PhantomJS无头浏览器

摘要：2.1 selenium简介 2.2 selenium安装 2.3 selenium简单使用 2.3.1 selenium使用案例 2.3.2 selenium创建浏览器 2.3.3 selenium节点交互 2.3.4 selenium页面源码获取 2.3.5 selenium元素标签定位 2.3 阅读全文

posted @ 2019-08-08 13:28 笑得好美阅读(506) 评论(0) 推荐(0) 编辑

移动端数据爬取

摘要：移动端数据爬取 fiddler抓包工具 Fiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的http抓包工具之一。它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功阅读全文

posted @ 2019-08-07 18:12 笑得好美阅读(1677) 评论(0) 推荐(0) 编辑

高性能异步爬虫

摘要：asyncio异步携程模块在python3.4之后新增了asyncio模块，可以帮我们检测IO（只能是网络IO【HTTP连接就是网络IO操作】），实现应用程序级别的切换（异步IO）。注意：asyncio只能发tcp级别的请求，不能发http协议。 - 异步IO：所谓「异步 IO」，就是你发起一个阅读全文

posted @ 2019-08-06 22:34 笑得好美阅读(354) 评论(0) 推荐(0) 编辑

爬虫之同步、异步处理

摘要：爬虫的本质就是模拟client频繁请求server，获取响应数据，对响应数据进行解析处理。常规的串行方式同步阻塞执行，必须等待一个任务处理完后才能之后才能继续下一个，这样效率就非常低。最常用的聚焦爬虫对数据处理的IO操作（阻塞）相对密集，因此需要考虑使用异步方案解决。 1.同步串行：提交任务之后，只阅读全文

posted @ 2019-08-06 20:53 笑得好美阅读(862) 评论(0) 推荐(0) 编辑

模拟登录之图片验证码处理

摘要：登录图片验证码处理超级鹰、云打码等API接口获取。案例：古诗文网登录https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 阅读全文

posted @ 2019-08-05 22:29 笑得好美阅读(360) 评论(0) 推荐(0) 编辑

requests高级用法

摘要：代理proxies 数据采集过程中使用脚本发送请求，请求次数过于频繁，服务器监测到而采用一定的手段禁止此ip的请求，为了解决封ip的问题，我们用代理来处理这个问题。用第三方代理ip进行伪装访问，即使被封也不影响当前ip的使用，构建代理池，封了一个，其他的还可以用，这样就能缓解ip被封无法继续爬取的问阅读全文

posted @ 2019-08-05 21:37 笑得好美阅读(265) 评论(0) 推荐(0) 编辑

爬虫之四种数据解析

摘要：在获取到响应数据后，需要针对性的提取其中有用的部分，这也是采集数据最常见的方式聚焦网络爬虫。数据解析四种方式： 1.正则表达式解析 2.xpath解析 3.bs4解析 4.pyquery解析 1.正则表达式解析（re模块）案例：爬取糗事百科糗图：https://www.qiushibaike. 阅读全文

posted @ 2019-08-05 19:08 笑得好美阅读(904) 评论(0) 推荐(0) 编辑

第二章函数

摘要：1. 通过代码实现如下转换：二进制转换成十进制：v = “0b1111011” 十进制转换成二进制：v = 18 八进制转换成十进制：v = “011” 十进制转换成八进制：v = 30 十六进制转换成十进制：v = “0x12” 十进制转换成十六进制：v = 87 1 v = "0b111101 阅读全文

posted @ 2019-08-05 18:46 笑得好美阅读(695) 评论(0) 推荐(0) 编辑

re模块

摘要：常用函数： import re re.findall() :（正则，str）匹配str中所有符合正则的字符串并以列表返回 re.search() ：（正则，str）匹配str中第一个符合规则的字符串返回结果集（没有则为None），用.group()取值（没有则报错） re.match() ：（正则，str）开头匹配str中符合正则的字符串... 阅读全文

posted @ 2019-08-05 17:34 笑得好美阅读(183) 评论(0) 推荐(0) 编辑

正则表达式详解

摘要：正则表达式： 1.验证某一字符串是否符合规则 2.匹配某一字符串中的符合规则的字符串正则：字符组： [] ：一个字符组匹配一个字符[0-9][0-1a-zA-Z][ ][_] [^] :非字符组匹配（除字符组之外的其它任意字符）元字符： \d ：匹配任意一个数字... 阅读全文

posted @ 2019-08-05 17:30 笑得好美阅读(239) 评论(0) 推荐(0) 编辑

爬虫之requests的请求与响应

摘要：requests是基于urllib3的一个用于发起http请求的库（中文文档）数据采集流程：指定url>> 基于 requests模块发起请求>> 获取响应中的数据>> 数据解析>> 进行持久化存储 1.模块安装 pip install requests 2.requests之request请求阅读全文

posted @ 2019-08-05 16:45 笑得好美阅读(648) 评论(0) 推荐(0) 编辑

django之CORS跨域请求

摘要：对于想要利用django框架实现前后端分离，首要的问题是解决跨域请求的问题，什么是跨域请求？简单来说就是当前发起的请求的域与该请求指向的资源所在的域不一致。当协议+域名+端口号均相同，那么就是同一个域. 跨域问题 CORS需要浏览器和服务器同时支持。目前，所有浏览器都支持该功能，IE浏览器不能低于I 阅读全文

posted @ 2019-08-05 10:02 笑得好美阅读(1060) 评论(0) 推荐(0) 编辑

flask之CORS跨域请求处理

摘要：1 from flask import Flask 2 from flask_cors import CORS#pip install Flask-CORS#跨域请求模块 3 app = Flask(__name__) 4 app.debug = True 5 CORS(app)#跨域请求 6 7 if __name__ == '__main__': 8 app.run('0.0.0.0', 95 阅读全文

posted @ 2019-08-05 09:58 笑得好美阅读(826) 评论(0) 推荐(0) 编辑

爬虫简介

摘要：1.爬虫简介网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。简单来说就是通过编写脚本模拟浏览器发起请求获取数据。 2.爬虫分类 (1)通用网络爬虫（General Purpose Web Crawle 阅读全文

posted @ 2019-08-01 19:24 笑得好美阅读(859) 评论(0) 推荐(0) 编辑

jupyter环境安装

摘要：一、什么是Jupyter Notebook？ 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍简而言之，Jupyter Notebook是以网页的形式打开，可以在阅读全文

posted @ 2019-08-01 17:00 笑得好美阅读(2269) 评论(0) 推荐(0) 编辑

笑得好美

08 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论