崔恒跃 - 博客园

2018年5月3日

摘要：我大概讲下我的答案： 1、先从网络模型层面： client （浏览器）与 server 通过 http 协议通讯，http 协议属于应用层协议，http 基于 tcp 协议，所以 client 与 server 主要通过 socket 进行通讯；而 tcp 属于传输层协议、如果走 https 还需阅读全文

posted @ 2018-05-03 15:34 崔恒跃阅读(323) 评论(0) 推荐(0)

2018年4月27日

python之scrapy

摘要： Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，种图片，非常之方便。 Scrapy 使用了 Twisted['tw st d](其主要对手是Tornado)异步网络框架我们的下载速度，不阅读全文

posted @ 2018-04-27 12:44 崔恒跃阅读(282) 评论(0) 推荐(0)

2018年4月25日

常见的爬虫与反爬虫斗争

摘要： 00.爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争...爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... Day 1小莫想要某站上所有的电影，写了阅读全文

posted @ 2018-04-25 08:36 崔恒跃阅读(564) 评论(0) 推荐(0)

2018年4月23日

Python闭包与延迟绑定

摘要： Python闭包 1.什么是闭包，闭包必须满足以下3个条件：必须有一个内嵌函数内嵌函数必须应用外部函数的变量外部函数的返回值必须是内嵌函数举个栗子 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2.闭包优点避免使用全局变量可以提供部分数据阅读全文

posted @ 2018-04-23 20:15 崔恒跃阅读(470) 评论(0) 推荐(0)

2018年4月18日

ip代理

摘要： import requests#根据协议类型选择不同的代理# proxies = {# "http":"182.202.222.155:61234",# "https":"50.233.137.36:80"# }# response = requests.request("get","https:/ 阅读全文

posted @ 2018-04-18 19:07 崔恒跃阅读(226) 评论(0) 推荐(0)

2018年4月15日

python编程：统计文件中单词出现次数

摘要： f=open("2.txt",'r')ll=f.read()'''将空格都取代为逗号，方便后面的split（）'''ll=ll.replace(" ",',') '''防止由于文档编辑不规范出现双逗号的情况'''ll=ll.replace(",,",',')l=ll.split("\n")rows= 阅读全文

posted @ 2018-04-15 13:49 崔恒跃阅读(5709) 评论(0) 推荐(0)

2018年4月12日

网易云音乐爬取

摘要：前提： scrapy这个框架很多人用过，网上教程也很多，但大多就是爬爬小说这种比较简单且有规律的，网易云音乐也有很多人写过，也有API，不过大多是爬取了热门歌曲，或是从歌单下手，但是考虑到歌单会有很多重复的。当然，从歌手页的话，如果有多个歌手合唱，那每个歌手页也都会有这首歌，但他们的链接是一样的，也阅读全文

posted @ 2018-04-12 20:52 崔恒跃阅读(4690) 评论(0) 推荐(0)

2018年4月8日

python中的单例模式的应用

摘要： 1 使用__new__方法 class Singleton(object): def __new__(cls, *args, **kw): if not hasattr(cls, '_instance'): orig = super(Singleton, cls) cls._instance = o 阅读全文

posted @ 2018-04-08 15:06 崔恒跃阅读(166) 评论(0) 推荐(0)

2018年4月4日

Post方式之百度翻译的爬取

摘要： from urllib import request,parseimport json# 翻译函数def fanyi(msg): #参数封装 data = { "kw": content } #参数拼接以及转码 data = parse.urlencode(data) #请求地址 base_url 阅读全文

posted @ 2018-04-04 08:43 崔恒跃阅读(1618) 评论(0) 推荐(0)

最基础的爬虫

摘要： #1、引入模块from urllib import request#2、操作#(1)定义目标urlbase_url = "http://www.langlang2017.com/index.html"#请求头部 request headersheaders = { "Accept":"text/ht 阅读全文

posted @ 2018-04-04 08:38 崔恒跃阅读(154) 评论(0) 推荐(0)

鹿港小镇

公告