【图灵学院】CAP定理和BASE定理

两阶段提交和三阶段提交是XA协议解决分布式数据一致性问题的基本原理,但是这两种方案为了保证数据的强一致性,降低了可用性。实际上这里涉及分布式事务的两个理论模型。

CAP定理

CAP定理又叫布鲁尔定理,简单来说它是指分布式系统中不可能同时满足一致性(Consistency)、可用性(Availability)、分区容错性(Partition  Tolerance)。这三个基本需求,最多同时满足两个。

  • 一致性:数据在多个副本中要保证强一致,比如前面说的分布式数据一致性问题。
  • 可用性:系统对外提供的服务必须一直处于可用状态,在任何故障下,客户端都能在合理的时间内获得服务端的非错误响应。
  • 分区容错性:在分布式系统中遇到任何网络分区故障,系统仍然能够正常对外提供服务。

不同节点分布在不同的子网络中时,在内部子网络正常的情况下,由于某些原因导致这些子节点之间出现网络不通的情况,导致整个系统环境被切分成若干独立的区域,这就是网络分区。

CAP定理证明,在分布式系统中,要么满足CP,要么满足AP,不可能实现CAP或者CA。原因是网络通信并不是绝对可靠的,比如网络延时、网络异常等都会导致系统故障。而在分布式系统中,即便出现网络故障也需要保证系统仍然能够正常对外提供服务,所以在分布式系统中Partition Tolerance是必然存在的,也就是需要满足分区容错性。
如果是CA或者CAP这种情况,相当于网络百分之百可靠,否则当出现网络分区的时候,为了保证数据的一致性,必须拒绝客户端的请求。但是如果拒绝了请求,就无法满足A,所以在分布式系统中,不可能选择CA,因此只能有AP或者CP两种选择。

  • AP:对于AP来说,相当于放弃了强一致性,实现最终的一致,这是很多互联网公司解决分布式数据一致性问题的主要选择。
  • CP:放弃了高可用性,实现强一致性,前面的两阶段提交协议和三阶段提交协议都采用这种方案,可能导致的问题是用户完成一个操作会等待较长时间。

BASE定理

BASE理论是由于CAP中一致性和可用性不可兼得而衍生出来的一种新的思想,BASE理论的核心思想是通过牺牲数据的强一致性来获得高可用性,它有如下三个特性:

  • Basically Available(基本可用):分布式系统在出现故障时,允许损失一部分功能的可用性,保证核心功能的可用。
  • Soft State(软状态):允许系统中的数据存在中间状态,这个状态不影响系统的可用性,也就是允许系统中不同节点的数据副本之间的同步存在延时。
  • Eventually Consistent(最终一致性):中间状态的数据在经过一段时间之后,会达到一个最终的数据一致性。

BASE理论并没有要求数据的强一致性,而是允许数据在一段时间内是不一致的,但是数据最终会在某个时间点实现一致。在互联网产品中,大部分都会采用BASE理论实现数据的一致性,因为产品的可用性对于用户来说更加重要。

举个栗子,在电商平台中用户发起一个订单的支付,不需要同步等待支付的执行结果,系统会返回一个支付处理中的状态到用户界面。对于用户来说,他可以从订单列表中看到支付的处理结果,而对于系统来说,当第三方的支付处理成功之后,再更新该订单的支付状态即可,在这个场景当中,虽然订单的支付状态和第三方的支付状态存在短期的不一致,但是用户却获得了更好的产品体验。