06 2019 档案
爬取网站附件
摘要:#爬取站长素材中的免费建立模板 import requests from lxml import etree import random headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/5... 阅读全文
posted @ 2019-06-30 22:57 KD_131 阅读(719) 评论(0) 推荐(0)
模拟登陆的方法
摘要:转载 * https://www.cnblogs.com/chenxiaohan/p/7654667.html * 正文 方法一:直接使用已知的cookie访问 特点: 简单,但需要先在浏览器登录 原理: 简单地说,cookie保存在发起请求的客户端中,服务器利用cookie来区分不同的客户端。因为 阅读全文
posted @ 2019-06-27 11:57 KD_131 阅读(800) 评论(0) 推荐(0)
redis简介
摘要:本篇阅读目录 一、Redis简介 二、Redis安装和基本使用 回到顶部 一、Redis简介 redis是一个非常重要的非关系型(No-Sql)数据库,数据库分两种类型(关系型数据库和非关系型数据库),我们之前学习的mysql数据库是一种典型的关系型数据库,而redis是一种典型的非关系型数据库。 阅读全文
posted @ 2019-06-26 23:05 KD_131 阅读(159) 评论(0) 推荐(0)
统计文本中出现的单词个数频率
摘要:import re with open('a.txt','r') as f: dict={} # 对应存放 单词 和 频率 for line in f.readlines(): word_list = re.findall('[a-zA-Z]+',line.lower()) # 把文本字符串变成列表 存放单词 for word... 阅读全文
posted @ 2019-06-26 21:20 KD_131 阅读(337) 评论(0) 推荐(0)
二叉树
摘要:# 定义一个类 创建一个二叉树 class Btree: def __init__(self,data): self.data = data self.lchild = None self.rchild = None a = Btree("A") b = Btree("B") c = Btree("C") d = Btre... 阅读全文
posted @ 2019-06-26 11:35 KD_131 阅读(178) 评论(0) 推荐(0)
双端队列 duque
摘要:一.双端队列(Deque) - 概念:deque(也称为双端队列)是与队列类似的项的有序集合。它有两个端部,首部和尾部,并且项在集合中保持不变。 - 特性:deque 特殊之处在于添加和删除项是非限制性的。可以在前面或后面添加新项。同样,可以从任一端移除现有项。在某种意义上,这种混合线性结构提供了单 阅读全文
posted @ 2019-06-26 10:14 KD_131 阅读(630) 评论(0) 推荐(0)
分布式+增量式爬虫
摘要:阅读目录 CrawlSpider(爬取多页面数据) CrawlSpider的介绍 需求:爬取趣事百科中所有的段子(包含1-35页) 基于scrapy-redis分布式爬虫 一、redis分布式部署 需求:分布式爬取抽屉网中的标题(存储到redis中) 增量式爬虫 需求:爬取4567tv网站中所有的电 阅读全文
posted @ 2019-06-10 11:35 KD_131 阅读(621) 评论(0) 推荐(0)