大型网站架构模式
模式的关键在于模式的可重复性,问题与场景的可重复性,带来解决方案的可重复使用。
2.1 分层
将系统在横向维度上切分成几个部分,每个部分负责一部分相对简单的职责。然后通过上下层依赖和调用组成一个完整的系统。
分层结构在计算机世界中无处不在,网络的7层通信协议是一种分层结构,计算机硬件,操作系统,应用软件也可以看做是一种分层结构。在大型网站架构中也采用分层结构,将网站软件系统分为应用层、服务层、数据层。
应用层:负责具体业务和视图展示,如网站首页、搜索输入和结果展示。
服务层:为应用层提供服务支持,如用户管理服务,购物车服务等。
数据层:提供数据存储访问服务,如数据库、缓存、文件、搜索引擎等。
分层也有一些挑战,就是必须合理规划层次边界和接口,在开发过程中,严格遵循分层架构约束,禁止跨层次调用,及逆向调用。
在实践中,大的分层结构还可以继续分层,如应用层可以分为视图层(html+css),和业务逻辑层(js,jq,Angularjs)。服务层也可以细分为数据接口层(适配各种输入和输出的数据格式)和逻辑处理层。
分层架构是逻辑上的,三层可以部署在同一个物理机器上。但随着业务发展,必然要对已经分层的模块分离部署。分层架构模式最初的目的是规划软件清晰的逻辑结构便于开发维护,但在网站发展的过程中,分层结构对网站支持高并发向分布式方向发展至关重要。
2.2 分割
纵向对软件进行切分,将不同功能和服务分割开来,包装成高内聚低耦合的模块单元。一方面有助于软件的开发和维护,另一方面,便于不同模块的分布式部署,提高网站的并发处理能力和功能扩展能力。
2.3 分布式
对于大型网站,分层和分割的一个主要目的是为了切分后的模块便于分布式部署。即将不同模块部署在不同的服务器上,通过远程调用协同工作。分布式意味着可以使用更多的计算机完成同样的功能,计算机越多,cpu,内存,存储资源也就越多,能够处理的并发和数据访问量就越大。
但是分布式在解决网站的高并发问题的同时也带来了其他问题。首先,分布式意味着服务调用必须通过网络,可能会对性能造成严重的影响。其次,服务器越多,服务器宕机的几率就越大,一台服务器宕机造成的服务不可用可能会导致很多应用不可访问,使网站可用性降低。另外,数据在分布式的环境中保持数据一致性也非常困难,分布式事务也难以保证。分布式还导致网站依赖错综复杂,开发管理维护困难。因此分布式设计需要量力而行,切莫为了分布式而分布式。、
在网站应用中常用的分布式方案有以下几种:
分布式应用和服务:将分层和分割后的应用和服务模块分布式部署。
分布式静态资源:网站静态资源图片等资源独立分布式部署,并采用独立的域名。动静分离。静态资源分布式部署可以减轻应用服务器的负载压力。
分布式数据和存储:大型网站需要处理以P为单位的海量数据,单台计算机无法提供如此大的存储空间。除了对传统关系型数据库进行分布式部署外,为网站应用而生的各种NoSQL产品几乎都是分布式的。
分布式计算:严格来说,应用、服务、实时数据处理都是计算,网站除了要处理这些在线业务,还有很大一部分用户没有直观感受的后台业务要处理,包括搜索引擎的索引构建,数据仓库的数据分析统计等。这些业务的计算规模非常庞大,目前网站普遍使用Hadoop及其MapReduce分布式计算框架进行此类批处理计算,其特点是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。
此外还有可以支持网站线上服务器配置实时更新的分布式配置。分布式环境下实现并发和协同的分布式锁。支持云存储的分布式文件系统等。
2.4 集群
多台服务器部署相同应用构成一个集群,通过负载均衡设备共同对外提供服务。
2.5 缓存
缓存就是将数据放在距离计算最近的位置以加快处理速度。CDN(内容分发网络)部署在距离终端用户最近的网络服务商,用户的网络请求总是先到达网络服务商那里,在这里缓存一些较少变化的数据(视频网站和门户网站会将访问量大的热点内容缓存在CDN)。反向代理 属于网站前端架构的一部分,当用户请求到达网站的处理中心时,最先访问到的就是反向代理服务器,这里缓存网站的静态资源。本地缓存 在应用服务器本地缓存着热点数据,无需访问数据库。分布式缓存 将数据缓存在一个专门的分布式缓存集群中,应用程序通过网络通信访问缓存数据。
使用缓存有两个条件:1.数据访问热点不均衡,某些被频繁范围的数据应该放入缓存。2.数据在某个时间段内有效,不会很快过期,否则缓存的数据就会因一句失效而产生脏读,影响结果的正确性。
2.6 异步
降低软件耦合性,事物之间直接关系越少,就越少被彼此影响,越可以独立发展。系统解耦合的手段除了分层,分割,分布等。还有异步,业务之间的消息传递不是同步调用,而是将一个业务操作分成多个阶段,每个阶段之间通过共享数据的方式异步执行进行写作。在单一服务器内部可以通过多线程共享内存队列的方式实现异步,处在业务操作系统前面的线程将输出写入到队列,后面的线程从队列中读取数据进行处理。在分布式系统中,多个服务器集群通过分布式消息队列实现异步。分布式消息队列也可以看做内存队列的分布式部署。
异步架构是典型的生产者消费者模式,两者不存在直接调用,只要保持数据结构不变,彼此功能实现可随意变化而不互相影响。
特性:提高系统可用性,加快网站响应速度,消除并发访问高峰。
2.7 冗余
网站需要7*24小时连续运行,但是服务器随时可能出现故障。为了保证在服务器宕机的情况下网站依然可以继续服务,不丢失数据,就需要一定程度的服务器冗余运行,数据冗余备份。数据库除了定期备份,存档保存,实现冷备份外,为了保证在线业务高可用,还需要对数据库进行主从分类,实时同步实现热备份。为了抵御不可抗力导致的网站完全瘫痪,某些大型网站会对整个数据中心进行备份,全球范围内部署灾备数据中心。网站程序和数据实时同步到多个灾备数据中心。
2.8 自动化
发布过程自动化可有效减少故障。自动化代码管理,代码版本控制,代码分支创建合并等过程自动化,开发工程师只要提交自己参与开发的产品代号,系统就会自动为其创建开发分支,后期会自动进行代码合并。自动化测试,代码开发完成后,提交测试后,系统自动将代码部署到测试环境,启动自动化测试用例进行测试,向相关人员发送测试报告,向系统返回测试结果。自动化安全测试,自动化监控,自动化报警,自动化失效转移,自动化失效恢复,自动化降级,自动化分配资源等。
2.9 安全
通过密码和手机校验码进行身份验证。登录、交易等操作需要对网络通信进行加密,网站服务器上存储的敏感数据也要加密。为了防止机器人程序滥用网络资源攻击网站,使用验证码进行识别。对于常见的用于攻击网站的XSS攻击,SQL注入,进行编码转换等相应处理。对于垃圾信息,敏感信息过滤。对交易转账等重要操作根据交易模式和交易信息进行风险控制。