大型网站系统与Java中间件实践
大型网站系统与Java中间件实践(贯通分布式高并发高数据高访问量网站架构与实现之权威著作,九大一线互联网公司CTO联合推荐)
曾宪杰 著
ISBN 978-7-121-22761-5
2014年4月出版
定价:65.00元
340页
16开
编辑推荐
到底是本什么书,拥有这样一份作序推荐人列表:阿里集团章文嵩博士|新浪TimYang|去哪网吴永强|丁香园冯大辉|蘑菇街岳旭强|途牛汤峥嵘|豆瓣洪强宁|淘宝陈皓/林昊……
这本书出自淘宝技术部总监之手,他也是淘宝近10年来历次技术飞跃的参与者、贡献者和带领者,其中的经验直接来自淘宝服务框架、消息中间件及数据访问层。
《淘宝技术这十年》勾勒出淘宝Java技术变迁波澜壮阔的轮廓,本书则给出最详尽、深入、系统的解读与演示,实用到足以让任一层级的学习者如获至宝。
看过的人无不暗中叫它“那些年我们一起走过的坑”,领略超大型网站陈年积淀的宝贵经验、领先思路和具体手法,后来者就有机会弯道超车!
内容提要
《大型网站系统与Java中间件实践》围绕大型网站和支撑大型网站架构的 Java 中间件的实践展开介绍。从分布式系统的知识切入,让读者对分布式系统有基本的了解;然后介绍大型网站随着数据量、访问量增长而发生的架构变迁;接着讲述构建 Java 中间件的相关知识;之后的几章都是根据笔者的经验来介绍支撑大型网站架构的 Java 中间件系统的设计和实践。希望读者通过《大型网站系统与Java中间件实践》可以了解大型网站架构变迁过程中的较为通用的问题和解法,并了解构建支撑大型网站的 Java 中间件的实践经验。对于有一定网站开发、设计经验,并想了解大型网站架构和支撑这种架构的系统的开发、测试等的相关工程人员,《大型网站系统与Java中间件实践》有很大的参考意义;对于没有网站开发设计经验的人员,通过《大型网站系统与Java中间件实践》也能宏观了解大型网站的架构及相关问题的解决思路和方案。
目录
第1章 分布式系统介绍 1
1.1 初识分布式系统 1
1.1.1 分布式系统的定义 1
1.1.2 分布式系统的意义 3
1.2 分布式系统的基础知识 5
1.2.1 组成计算机的5要素 5
1.2.2 线程与进程的执行模式 6
1.2.3 网络通信基础知识 13
1.2.4 如何把应用从单机扩展到分布式 18
1.2.5 分布式系统的难点 31
第2章 大型网站及其架构演进过程 35
2.1 什么是大型网站 35
2.2 大型网站的架构演进 37
2.2.1 用Java技术和单机来构建的网站 37
2.2.2 从一个单机的交易网站说起 38
2.2.3 单机负载告警,数据库与应用分离 40
2.2.4 应用服务器负载告警,如何让应用服务器走向集群 41
2.2.5 数据读压力变大,读写分离吧 50
2.2.6 弥补关系型数据库的不足,引入分布式存储系统 56
2.2.7 读写分离后,数据库又遇到瓶颈 58
2.2.8 数据库问题解决后,应用面对的新挑战 60
2.2.9 初识消息中间件 63
2.2.10 总结 64
第3章 构建Java中间件 67
3.1 Java中间件的定义 67
3.2 构建Java中间件的基础知识 68
3.2.1 跨平台的Java运行环境——JVM 69
3.2.2 垃圾回收与内存堆布局 70
3.2.3 Java并发编程的类、接口和方法 72
3.2.4 动态代理 89
3.2.5 反射 91
3.2.6 网络通信实现选择 93
3.3 分布式系统中的Java中间件 94
第4章 服务框架 97
4.1 网站功能持续丰富后的困境与应对 97
4.2 服务框架的设计与实现 100
4.2.1 应用从集中式走向分布式所遇到的问题 100
4.2.2 透过示例看服务框架原型 101
4.2.3 服务调用端的设计与实现 107
4.2.4 服务提供端的设计与实现 132
4.2.5 服务升级 137
4.3 实战中的优化 138
4.4 为服务化护航的服务治理 142
4.5 服务框架与ESB的对比 146
4.6 总结 147
第5章 数据访问层 149
5.1 数据库从单机到分布式的挑战和应对 149
5.1.1 从应用使用单机数据库开始 149
5.1.2 数据库垂直/水平拆分的困难 150
5.1.3 单机变为多机后,事务如何处理 152
5.1.4 多机的Sequence问题与处理 165
5.1.5 应对多机的数据查询 168
5.2 数据访问层的设计与实现 174
5.2.1 如何对外提供数据访问层的功能 174
5.2.2 按照数据层流程的顺序看数据层设计 177
5.2.3 独立部署的数据访问层实现方式 192
5.2.4 读写分离的挑战和应对 194
5.3 总结 200
第6章 消息中间件 203
6.1 消息中间件的价值 203
6.1.1 消息中间件的定义 203
6.1.2 透过示例看消息中间件对应用的解耦 204
6.2 互联网时代的消息中间件 208
6.2.1 如何解决消息发送一致性 209
6.2.2 如何解决消息中间件与使用者的强依赖问题 218
6.2.3 消息模型对消息接收的影响 222
6.2.4 消息订阅者订阅消息的方式 229
6.2.5 保证消息可靠性的做法 230
6.2.6 订阅者视角的消息重复的产生和应对 245
6.2.7 消息投递的其他属性支持 249
6.2.8 保证顺序的消息队列的设计 252
6.2.9 Push和Pull方式的对比 257
第7章 软负载中心与集中配置管理 259
7.1 初识软负载中心 259
7.2 软负载中心的结构 261
7.3 内容聚合功能的设计 263
7.4 解决服务上下线的感知 267
7.5 软负载中心的数据分发的特点和设计 269
7.5.1 数据分发与消息订阅的区别 269
7.5.2 提升数据分发性能需要注意的问题 271
7.6 针对服务化的特性支持 272
7.6.1 软负载数据分组 272
7.6.2 提供自动感知以外的上下线开关 273
7.6.3 维护管理路由规则 273
7.7 从单机到集群 274
7.7.1 数据统一管理方案 275
7.7.2 数据对等管理方案 276
7.8 集中配置管理中心 280
7.8.1 客户端实现和容灾策略 282
7.8.2 服务端实现和容灾策略 284
7.8.3 数据库策略 285
第8章 构建大型网站的其他要素 287
8.1 加速静态内容访问速度的CDN 287
8.2 大型网站的存储支持 291
8.2.1 分布式文件系统 292
8.2.2 NoSQL 294
8.2.3 缓存系统 298
8.3 搜索系统 301
8.3.1 爬虫问题 302
8.3.2 倒排索引 302
8.3.3 查询预处理 304
8.3.4 相关度计算 304
8.4 数据计算支撑 304
8.5 发布系统 307
8.6 应用监控系统 310
8.7 依赖管理系统 312
8.8 多机房问题分析 315
8.9 系统容量规划 317
8.10 内部私有云 319
后记 321
精彩节摘
推荐序一
从事互联网系统开发的人员大多希望成为资深的架构师或领域专家。但大部分人员由于自身工作环境及条件的限制,缺少大型系统实践经验,或者对核心的案例缺乏真实的了解,因此很难有机会理解分布式设计中的关键问题及应对方案。如何才能找到有效的方法并早日成为资深系统架构师呢?
《大型网站系统与Java中间件实践》一书介绍了大型网站分布式领域的各种问题,并且以互联网语言Java语言为主。这对于希望提升架构能力的技术人员来说,一方面有助于他们了解理论层面体系,掌握大型系统的全貌;另一方面,由于作者具有淘宝平台的丰富的架构及中间件开发经验,因而书中的要点都是大型网站在实际运行中的精华经验,不管你是使用一个已有的分布式开源解决方案,还是自行开发分布式组件,了解这些关键点都会帮助你快速深入地驾驭分布式领域的核心架构。
书中内容尽是实战经验,虽不布道,但所述内容却不乏硝烟——因为是作者在分布式系统的构建、拆分、服务化、部署、实战过程中所经历的教训、积累的经验。书中还有很多性能优化分析、多种方案选择时的tradeoff及实战中的方案。方案选择无所谓最佳,只有最适合,这本书不仅给出了方案选择的方法,更给出了方案选择的原因。本书除了适合希望提升架构能力的技术人员阅读,对于正在从事大数据、高并发、中间件使用或研发的一线开发人员也很有价值。
——杨卫华(@TimYang)
新浪网技术总监
推荐序二
看了华黎寄给我的样章有很深的感触,时间仿佛又回到两年多前,当时“去哪儿”网的业务飞速发展,系统遇到了各种各样的问题。
首先是系统无节制地变得臃肿庞大,大量的web service的调用将我们的系统变成了一个蜘蛛网,新进入的工程师需要很长时间的熟悉才能对原有系统做出修改。
其次系统随着业务量的不断增大变得不堪重负,开始还能通过增加硬件来扩容,后来增加硬件能够带来的效果已无济于事。
还有,质量越来越难以保证,测试的时间变得越来越长,无法跟上和满足业务发展和变化的需要,团队的压力也越来越大,各个团队都需要增加人员,但是生产力的提升并不明显。
回顾那段时间,故障频发,效率低下,团队人困马乏,成就感变得越来越低。于是我们参考了国内外经历过这个阶段的公司的做法,引入了服务化框架,将系统拆小,重视了系统层次,控制了系统之间的调用关系,也采用了可靠消息系统来应对业务系统之间的强耦合问题。经过两年的努力,现在终于看到了胜利的曙光。
总结下来系统发展的困难也是演进推动力,主要来自于三个方面:一是系统的负载规模,二是系统的复杂度,三是由前两个方面带来的开发团队的规模扩张。而中间件技术是解决上述三个问题的重要方法。
如果在两年甚至三年前华黎的这本书就已经出版,那么去哪儿网的系统发展就能少走很多弯路。过去两年中,我们为了概念和做法进行了无数次的讨论、争执、尝试、修正。因为我们当时获得经验的途径主要是通过阅读国内外各大网站的同行在各种技术会议上的演讲、PPT,或者与他们交流过程中得到各种启示,这对于一个快速成长中的系统来讲太不成体系了,无法对日常的工作进行指导。而华黎写的这本书融合了他过去在淘宝的经验,书中的做法、理念经过了淘宝系统的爆炸性增长的检验,详实地阐述了Java中间件技术在大型网站,尤其是大型交易类网站的建设和应用经验。
书若其人,这本书很实在,用现在流行的话语来讲,就是干货多。我认识华黎有三年了,三年内见过几面,每次见面我都有很多收获。这次他把他的经验和领悟集结成书,相信对很多正在投身于互联网系统开发,特别是高负载、高复杂度的系统开发的工程师们会有很大帮助。也衷心祝福华黎在未来的日子里,儿子健康成长,家庭幸福,工作顺利。
——吴永强(@吴永强去哪)
去哪网 CTO
作者简介
曾宪杰,淘宝花名华黎,现任淘宝技术部总监。2002年毕业于浙江大学计算机系。2007年加入淘宝网平台架构团队,负责构建淘宝自主的消息中间件系统,同期主导了淘宝数据层的创建,这两个产品也是淘宝中间件中较为重要的两个。2010年下半年起开始负责整个淘宝中间件团队,帮助团队成为业内知名的Java技术团队。2012年开始从中间件走向应用系统的研发工作,2013年初负责新组建的淘宝技术部。熟悉C++和Java,在多线程、并发、网络通信及支撑大型网站的中间件领域有较多经验,对新技术有浓厚的兴趣。致力于带领团队在无线、数据、业务 平台和组件化开发方面取得突破。与林昊合著有《OSGi原理与最佳实践》一书。
媒体评论
通过这本书可以学习到大量构建大型网站系统的核心技 术,以及支撑大型网站的Java中间件的必备知识。作者在超大型电子商务网站的多年实战经验使得本书的内容极具价值。 如果你所在的技术团队正在因面对大型网站而一筹莫展,或 许你可以从这本书中得到启发。另外,如果想成为Java技术架 构师,那么你也不应错过此书。 ——冯大辉 (@Fenng) 丁香园CTO
华黎是我的前同事兼好友,听说他要出版一本书,我就猜到是关于大型网站和中间件的,因为这是他的老本行。在互联网技术领域,理论永远过剩,而真正从零构建整个体系的机会少之又少,华黎是淘宝网规模高速增长、中间件体系快速发展的亲历者、核心工程师,实践后的理论才更精确、更务实,这是我推荐这本书的理由。 ——岳旭强(@岳旭强) 蘑菇街CTO
与宪杰认识多年,也一起在淘宝共事过不短的时间,我深知他在大型互联网系统和Java中间件领域不仅有很强的理论基础,而且有丰富的实战经验。终于看到他把多年的积淀汇集成书,由衷地为他感到高兴。拿到书稿后,我迫不及待地从头至尾拜读了一遍。这应该是国内第一本从基础知识到构建应用,从理论到实践,把Java中间件非常系统和完整地阐述清楚的书。此外,书中列举的大量实践经验与很多通用设计思路不同,甚至是相反的。这是因为当面对高并发、高访问和海量数据时,在学校中学到的知识或普通书本中看到的方法行不通。这些看似古怪或丑陋的方法,是大型互联网企业用无数血泪换来的宝贵经验。特此推荐给对构建大型互联网 系统感兴趣的读者。 ——汤峥嵘(@汤峥嵘-还在路上) 途牛CTO
要用Java构建一个大流量且有着复杂处理流程的网站,中间件技术是必须要用的技术,没有中间件就无法做到水平扩展,无法做到计算或数据集群的构建,也就无法构建一个大型网站。本书通过解决实际问题一步一步地带着你细数了用 Java 构建一个大型网站的各种技术细节和注意事项,讲解深入浅出。从系统架构到实际代码,从基础理论到实际操作,看得出来作者在中间件技术方面的丰富经验。这是一本系统得可以让你少走很多弯路的实战型技术书。 ——陈皓( @左耳朵耗子) 阿里巴巴集团资深技术专家
拿到书稿,一读之下不禁击节赞叹!这本书对大型网站发展过程中会遇到的各种架构问题和解决方案的讨论和总结,正是我在过去多年的工作中经常碰到和思考的。真是心有戚戚焉!本书详细阐述了解决大型网站架构问题时通常都会采用的方案:服务框架、数据访问层、消息中间件、配置管理等,对为什么要做、如何做、如何权衡得失等进行了非常细致的介绍,是一本不可多得的好书。虽然本书的内容是基于Java的实现,但在架构层面,对使用任何语言的架构师和开发者都具有重要的参考价值。 ——洪强宁(@hongqn) 豆瓣网首席架构师
本书作者是淘宝Java应用架构从集中式到分布式的实际参与者,并带领构建淘宝中间件两年多的时间。本书详细说明了大型Java网站必备的三利器——服务框架、消息中间件和数据访问层——的具体设计和实现方法,其中很多是淘宝在架构演进过程中摸爬滚打的实战经验和血泪教训。书中的内容一方面有助于开阔视野,另一方面大量宝贵的实战经验可以给需要做类似产品的读者带来不小的帮助。 —— 林昊 阿里巴巴集团资深技术专家
前言
由于2007年一个很偶然的机会,我加入了淘宝平台架构组,职位是C++工程师。然后我就在只完成了C语言的一个小功能后,开始了Java中间件的研究生涯。从2007年下半年到2013年年初,近6年时间我都在和支撑整个网站应用的Java中间件打交道——从设计实现消息中间件到参与数据访问层设计,再到负责整个Java中间件团队,我也从一个不太懂Java的C++工程师成长为对Java中间件有一定了解和积累的工程负责人。在这个过程中,我也有幸参与了淘宝从集中式的Java应用到分布式Java应用的架构变迁。
本书从分布式系统说起,然后介绍大型网站的变迁中遇到的挑战和应对策略,接着讲解Java中间件的内容,重点介绍了笔者在实践中自主开发的支撑大型网站应用的几个Java中间件产品,包括对它们的思考及其设计和实现原理。最后介绍了支撑大型网站的其他基础要素,包括CDN、搜索、存储、计算平台,以及运维相关的系统等内容。
通过阅读本书,笔者希望读者能够尽量完整地了解大型网站的挑战和应对办法,并且能够了解淘宝在大型网站变迁过程中产生的这几个中间件的具体产品及其背后的思考和设计,并能够对除中间件之外的支撑大型网站的其他系统有一定的了解。希望初学者能够更多地关注全貌,也希望有相关经验的人士可以从本书中得到一些启发,汲取一些经验。
2013年5月,我的岗位有了调整,在接下来的时间中我将带领淘宝技术部承担淘宝业务应用的开发工作。这本书也是对自己淘宝中间件6年工作生涯的一份纪念。
最后要说的是,能够完成本书有很多的人要感谢,首先要感谢淘宝给我这么好的平台和机会,没有这个机会就不会有本书。然后也非常感谢太太王海凤对我的支持,4年前和林昊合著《OSGi原理与最佳实践》一书的时候,我们刚谈恋爱,我把很多本应陪你的时间用在了写作上;4年后,我又把本应陪你和儿子的时间用在了写作上,没有你的支持和理解,我不可能完成这次写作。最后也要感谢我的父母、岳父母、姑姑和小表妹,有你们照顾宸宸,我才能专心地写作本书。
曾宪杰
2013年11月于杭州