什么是CAP
CAP是Consistency、Availability、Partition tolerance三个词语的缩写,分别表示一致性、可用性、分区容忍性。
为了方便对CAP理论的理解,我们结合电商系统中的一些业务场景来理解CAP。
一致性是指写操作后的读操作可以读取到最新的数据状态,当数据分布在多个节点上时,从任意节点上读取的数据都是最新的。
上图中,商品信息的读写要满足一致性就要实现下面的目标:
商品服务成功写入主数据库后,立刻能从从数据库中查询到最新的数据。
如何实现一致性?
- 数据写入主数据库后要立即将数据同步到从数据库。
- 在主从同步期间要将从数据库锁定,待同步完成后再释放锁,以免在同步期间,在从数据库中读取到旧数据。
- Availability(可用性)
可用性是指任何事务操作都可以得到响应结果,且不会出现响应超时或响应错误。
上图中,商品信息的读写要满足可用性就要实现下面的目标:
- 从数据库接收到查询请求需立即返回响应数据。
- 从数据库不允许出现响应超时或响应错误。
如何实现可用性?
- 主从同步期间,不可将从数据库中的资源锁定。
- 即使数据还没有同步过来,从数据库也要返回要查询的数据,哪怕是旧数据也行。
- Partition tolerance(分区容忍性)
通常分布式系统的各个节点部署在不同的子网,这就是**分区;因为**分区存在,那么不可避免地会出现由于**问题而导致节点之间通信失败,此时系统仍可对外提供服务,这就叫分区容忍性。
上图中,商品信息的读写要满足分区容忍性就要实现下面的目标:
- 主从同步失败不能影响读写操作。
- 其中一个节点挂掉不影响另一个节点对外提供服务。
如何实现分区容忍性?
- 尽量使用异步操作取代同步操作。例如使用异步方式将数据从主数据库同步到从数据库,这样节点之间能有效地实现松耦合。
- 添加从数据库节点,其中一个从节点挂掉时,其他从节点提供服务。
注意:分区容忍性是分布式系统应具备的基本能力。
CAP组合方式
在所有分布式事务场景中不会同时具备CAP三个特性,因为在具备了P的前提下C和A是不能共存的。
- AP
放弃一致性,追求可用性和分区容忍性。这是很多分布式系统设计时的选择。
例如上面的商品服务,完全可以实现AP,前提是用户可以接受所查询的数据在一定时间内不是最新的。
通常实现AP时都会保证最终一致性。BASE理论就是根据AP来扩展的。
- CP
放弃可用性,追求一致性和分区容忍性。zookeeper其实就是追求的强一致性。
- CA
一般分布式系统不会采用。
总结
CAP是一个已经被证实的理论:一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容忍性(Partition tolerance)这三项中的两项。它可以作为我们进行架构设计、技术选型的考量标准。对于多数大型互联网系统,节点众多、部署分散,节点故障和**故障都是常态,而且要保证服务可用性达到N个9(99.99….%),并且要达到良好的响应性能,因此一般都会做出如下选择:保证P和A,舍弃C,保证最终一致性。