随笔档案「2019年6月」 - KD_131

爬取网站附件

摘要：#爬取站长素材中的免费建立模板 import requests from lxml import etree import random headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/5... 阅读全文

posted @ 2019-06-30 22:57 KD_131 阅读(719) 评论(0) 推荐(0)

模拟登陆的方法

摘要：转载 * https://www.cnblogs.com/chenxiaohan/p/7654667.html * 正文方法一：直接使用已知的cookie访问特点：简单，但需要先在浏览器登录原理：简单地说，cookie保存在发起请求的客户端中，服务器利用cookie来区分不同的客户端。因为阅读全文

posted @ 2019-06-27 11:57 KD_131 阅读(800) 评论(0) 推荐(0)

redis简介

摘要：本篇阅读目录一、Redis简介二、Redis安装和基本使用回到顶部一、Redis简介 redis是一个非常重要的非关系型（No-Sql）数据库，数据库分两种类型（关系型数据库和非关系型数据库），我们之前学习的mysql数据库是一种典型的关系型数据库，而redis是一种典型的非关系型数据库。阅读全文

posted @ 2019-06-26 23:05 KD_131 阅读(159) 评论(0) 推荐(0)

统计文本中出现的单词个数频率

摘要：import re with open('a.txt','r') as f: dict={} # 对应存放单词和频率 for line in f.readlines(): word_list = re.findall('[a-zA-Z]+',line.lower()) # 把文本字符串变成列表存放单词 for word... 阅读全文

posted @ 2019-06-26 21:20 KD_131 阅读(337) 评论(0) 推荐(0)

二叉树

摘要：# 定义一个类创建一个二叉树 class Btree: def __init__(self,data): self.data = data self.lchild = None self.rchild = None a = Btree("A") b = Btree("B") c = Btree("C") d = Btre... 阅读全文

posted @ 2019-06-26 11:35 KD_131 阅读(178) 评论(0) 推荐(0)

双端队列 duque

摘要：一.双端队列（Deque） - 概念：deque（也称为双端队列）是与队列类似的项的有序集合。它有两个端部，首部和尾部，并且项在集合中保持不变。 - 特性：deque 特殊之处在于添加和删除项是非限制性的。可以在前面或后面添加新项。同样，可以从任一端移除现有项。在某种意义上，这种混合线性结构提供了单阅读全文

posted @ 2019-06-26 10:14 KD_131 阅读(630) 评论(0) 推荐(0)

分布式+增量式爬虫

摘要：阅读目录 CrawlSpider（爬取多页面数据） CrawlSpider的介绍需求：爬取趣事百科中所有的段子（包含1-35页）基于scrapy-redis分布式爬虫一、redis分布式部署需求：分布式爬取抽屉网中的标题（存储到redis中）增量式爬虫需求：爬取4567tv网站中所有的电阅读全文

posted @ 2019-06-10 11:35 KD_131 阅读(621) 评论(0) 推荐(0)