今天看了一篇关于 多臂老虎机(MAB)的文章,真是操蛋,里面关于计算平均值这里使用了这样的公式:

# 乍一看,让人丈二的和尚摸不着头脑,“也太高大上了吧”
self.estimates[chosen_arm] += (reward - self.estimates[chosen_arm]) / self.action_counts[chosen_arm]
经过我一番推导:

# 本来可以说人话:
“新平均值 = (老总和 + 新数据) ÷ 新总数”
# 非要写成:
“μₙ₊₁ = μₙ + (xₙ₊₁ – μₙ)/(n + 1)”