摘要:
ProxyHandler处理器一、如果我们在一段时间内用某个ip地址访问了一个网站次数过多,网站就检测到不正常,就会禁止这个ip地址的访问。所以我们可以设置一些代理服务器,每段时间换个代理,就算ip被禁止,我们也可以换个ip继续爬取 代理有 1、西刺免费代理:http://www.xicidaili 阅读全文
摘要:
urlparse和urlsplit函数: urlparse: url='http://www.baidu.com/s?wd=python&username=abc#1' result=parse.urlparse(url) print(result) 输入的结果为解析之后的各部分 输出对应的参数: 阅读全文
摘要:
1.可用性 刺激源:用户 刺激:当很多用户在一个时间进行操作而造成访问源过大,造成系统崩溃 环境:正常操作时 响应:当访问源过大时,系统检测到状况,记录并通知 响应度量:一定时间内排除故障,刷新页面 2.可修改性 刺激源:开发人员 刺激:修改用户界面时 环境:在设计阶段 响应:找到需要修改的位置,进 阅读全文
摘要:
爬虫得例子: 百度、谷歌、360搜索等(把关键字相关得网页提取出来) 爬虫是什么: 爬虫是一个模拟人类请求网站行为的程序,自动请求网页,把数据抓取下来,使用一定的规则提取有价值的数据。 爬虫的种类: 分为通用爬虫和聚焦爬虫 通用爬虫是利用搜索引擎来抓取的;聚焦爬虫是利用程序进行抓取,并进行抓取有用的 阅读全文
摘要:
通过学习,首先了解了什么是架构,架构是:如果把一个问题看作一个整体,把这个整体分成不同的部分,把每一部分分给不同的角色,这些角色之间可以相互沟通,并且具有一定的联系机制,使得这些部分能够根据这个机制的结合为一个整体,来完成这个整体所需要的目标活动。架构是如何产生的,因为一个整体如果都由一个角色完成, 阅读全文
摘要:
一、什么是架构 把一个整体(完成人类生存的所有工作)切分成不同的部分(分工),由不同角色来完成这些分工,并通过建立不同部分相互沟通的机制,使得这些部分能够有机的结合为一个整体,并完成这个整体所需要的所有活动,这就是架构 也就是说: 根据要解决的问题,对目标系统的边界进行界定。 并对目标系统按某个原则 阅读全文
摘要:
爬虫是一个程序,这个程序的目的就是为了抓取万维网信息资源,比如你日常使用的谷歌等搜索引擎,搜索结果就全都依赖爬虫来定时获取 从百度可以看出来 爬虫与python关系很紧密, 爬虫的目标对象也很丰富,不论是文字、图片、视频,任何结构化非结构化的数据爬虫都可以爬取,爬虫经过发展,也衍生出了各种爬虫类型: 阅读全文
摘要:
变量类型的转换 当一个变量被赋值为一个对象以后,这个对象的类型就固定了。当运算需要的时,必须使用显示的变量类型转换。 例如: >>> a = input('请输入一个整数:') 请输入一个整数:>? 5 >>> int(a) 5 >>> a '5' float()函数:将其其它类型数据转换为浮点数 阅读全文
摘要:
Python的基本数据类型 Python: 的数字有 4 中数据类型:整数(int)、浮点数(float)、布尔值(bool)、复数(complex)。 打印:数据类型 >>> type (1) >>> <class 'int'> >>> type (1.0) >>> <class 'float'> 阅读全文