摘要: 我大概讲下我的答案: 1、先从网络模型层面: client (浏览器)与 server 通过 http 协议通讯,http 协议属于应用层协议,http 基于 tcp 协议,所以 client 与 server 主要通过 socket 进行通讯; 而 tcp 属于传输层协议、如果走 https 还需 阅读全文
posted @ 2018-05-03 15:34 崔恒跃 阅读(309) 评论(0) 推荐(0) 编辑
摘要: Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,种图片,非常之方便。 Scrapy 使用了 Twisted['tw st d](其主要对手是Tornado)异步网络框架我们的下载速度,不 阅读全文
posted @ 2018-04-27 12:44 崔恒跃 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 00.爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争...爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... Day 1小莫想要某站上所有的电影,写了 阅读全文
posted @ 2018-04-25 08:36 崔恒跃 阅读(542) 评论(0) 推荐(0) 编辑
摘要: Python闭包 1.什么是闭包,闭包必须满足以下3个条件: 必须有一个内嵌函数 内嵌函数必须应用外部函数的变量 外部函数的返回值必须是内嵌函数 举个栗子 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2.闭包优点 避免使用全局变量 可以提供部分数据 阅读全文
posted @ 2018-04-23 20:15 崔恒跃 阅读(447) 评论(0) 推荐(0) 编辑
摘要: import requests#根据协议类型选择不同的代理# proxies = {# "http":"182.202.222.155:61234",# "https":"50.233.137.36:80"# }# response = requests.request("get","https:/ 阅读全文
posted @ 2018-04-18 19:07 崔恒跃 阅读(217) 评论(0) 推荐(0) 编辑
摘要: f=open("2.txt",'r')ll=f.read()'''将空格都取代为逗号,方便后面的split()'''ll=ll.replace(" ",',') '''防止由于文档编辑不规范出现双逗号的情况'''ll=ll.replace(",,",',')l=ll.split("\n")rows= 阅读全文
posted @ 2018-04-15 13:49 崔恒跃 阅读(5662) 评论(0) 推荐(0) 编辑
摘要: 前提: scrapy这个框架很多人用过,网上教程也很多,但大多就是爬爬小说这种比较简单且有规律的,网易云音乐也有很多人写过,也有API,不过大多是爬取了热门歌曲,或是从歌单下手,但是考虑到歌单会有很多重复的。当然,从歌手页的话,如果有多个歌手合唱,那每个歌手页也都会有这首歌,但他们的链接是一样的,也 阅读全文
posted @ 2018-04-12 20:52 崔恒跃 阅读(4597) 评论(0) 推荐(0) 编辑
摘要: 1 使用__new__方法 class Singleton(object): def __new__(cls, *args, **kw): if not hasattr(cls, '_instance'): orig = super(Singleton, cls) cls._instance = o 阅读全文
posted @ 2018-04-08 15:06 崔恒跃 阅读(161) 评论(0) 推荐(0) 编辑
摘要: from urllib import request,parseimport json# 翻译函数def fanyi(msg): #参数封装 data = { "kw": content } #参数拼接以及转码 data = parse.urlencode(data) #请求地址 base_url 阅读全文
posted @ 2018-04-04 08:43 崔恒跃 阅读(1585) 评论(0) 推荐(0) 编辑
摘要: #1、引入模块from urllib import request#2、操作#(1)定义目标urlbase_url = "http://www.langlang2017.com/index.html"#请求头部 request headersheaders = { "Accept":"text/ht 阅读全文
posted @ 2018-04-04 08:38 崔恒跃 阅读(139) 评论(0) 推荐(0) 编辑