为什么公交车来的总比时间表上说的还久?

十字路口的红绿灯,每分钟交替一次的话,你在红灯的时候到达的平均等待时间是多久?

1/2=0.51/2 = 0.5 分钟

公交车平均五分钟来一次的话你等公交车要多久?

5/2=2.55/2 = 2.5 分钟

错啦!这就是经典的等车悖论,因为公交车平均每五分钟来一辆,那么你的平均等待时间将是五分钟。

均匀分布和指数分布

红绿灯和公交车有什么不同的地方呢?

我们往往假设,红绿灯每次交替的时间是固定的(假设是一分钟),是不随着雨天还是晴天而改变的。如果我们在任何时间抵达红绿灯前,我们到达的分布可以视作是均匀分布的(如下图)。

Uniform distribution PDF

也就是说,在每个红灯的前,我们可能的等待时间是从0分钟(一到灯就绿了)到1分钟之间(一到灯就红了)每个时间出现的可能性是完全一致的。因此我们可以简单地做一个平均运算来算出我们的期待值,也就是说:

E[X]=a+b2=1+02=12E[X]=\frac{a+b}{2} = \frac{1+0}{2} = \frac{1}{2}

但是相比之下公交车则完全不同,公交车的到达时间是平均五分钟,这么说来和红绿灯则是完全不同。路况不同,路上的红绿灯稍有不同,就不可能在五分钟准时抵达。虽然人们脑海中认为公交车和红绿灯一样也是完全准时的,但事实却不是如此。我们往往将一段时间内到达公交车的数量假设为泊松分布,而公交车的间隔是指数分布的(下图)。

Probability density function

如果从指数分布去考虑,我们等待的时间并不是均匀分布的。直观地说,我们到达等待时间更长的区间的可能性更大,因此我们等待的平均时间,并不是一个简单的算术平均值,而是一个加权平均值,而等待的时长也因此被拉高了。

指数分布的无记忆性

无记忆性指的是,指数分布的概率只和时间区间有关,和已经发生了多久(时间的起点)无关。用数学公式可以表达为:

Pr(T>s+tT>s)=Pr(T>t),s,t0\Pr \left (T > s + t | T > s \right ) = \Pr(T > t), \qquad \forall s, t \ge 0

证明可以通过条件概率的贝叶斯定律。另外,由于对时间而言, Pr(T>s+tT>s)=Pr(T>s+t)Pr(T>s+t\cap T>s) = Pr(T>s+t) 易证上述公式成立。

生活中有许多东西服从指数分布。例如电池等电子元件的寿命在低于某个值的时候:如果电池标示1000次充放电会坏,往往有些人的用了100次就坏了,而有些人的用了1000次也仍然完好无损。这和批次的质量等有关系,而在一个界限值之下,人们往往会将它的使用年限用指数分布来衡量:一块充放电100次的电池和一块充放300次的电池,在未来还能使用100次的概率是相同的。虽然听上去很不可思议,但是这也是由于指数分布的方差极大二导致的。

同理,虽然听上去不可思议,但是你等公交车的时间往往也和上一辆车什么时候开走的没有什么关系,因为指数分布是没有记忆的,它不会“记得”上一次公交车经过的时间。而等待时间的平均值,和公交车间隔的平均值是相同的。

等车悖论

等车悖论告诉我们的不仅仅是你等车的时间要比你想象的长,更重要的是,我们必须要知道,我们脑海中假定的模型和现实生活中的模型总有一点偏差,而这点偏差往往导致的是我们捶胸顿足,发现自己又迟到了又赶不上车了。

可能这就是所谓的“生活总有一些不如意吧”,因为是总有,所以背后就有其道理呀!