标记为后验预测的文章

辛普森悖论

辛普森悖论 描述了一种情况,即在组内两个变量之间可能存在负相关关系,但是当来自多个组的数据合并时,这种关系可能会消失甚至反转符号。 下面的 gif(来自辛普森悖论 Wikipedia 页面)非常出色地演示了这一点。

阅读更多 ...


广义极值分布

广义极值 (GEV) 分布是一个元分布,包含极值分布的威布尔、耿贝尔和弗雷歇族。 它用于对平稳过程的极值(最大值或最小值)的分布进行建模,例如年最大风速、桥梁上的年最大卡车重量等等,而无需先验 决定尾部行为。

阅读更多 ...


双重差分

本笔记本简要概述了用于因果推断的双重差分方法,并展示了如何在贝叶斯框架下使用 PyMC 进行此类分析的工作示例。 虽然笔记本提供了该方法的高级概述,但我建议查阅两本关于因果推断的优秀教科书。 The Effect [Huntington-Klein,2021]Causal Inference: The Mixtape [Cunningham,2021] 都有专门讨论双重差分的章节。

阅读更多 ...


反事实推断:计算由 COVID-19 导致的超额死亡人数

因果推理和反事实思维是非常有趣但复杂的主题! 尽管如此,我们可以通过相对简单的例子来着手理解这些想法。 本笔记本侧重于使用 PyMC 进行贝叶斯因果推理的概念和实际实现。

阅读更多 ...


使用数据容器

在构建梦想中的统计模型之后,您将需要为其提供一些数据。 数据通常以两种方式引入 PyMC 模型。 一些数据用作外生输入,在线性回归模型中称为 X,其中 mu = X @ beta。 其他数据是模型内生输出的“观察”示例,在回归模型中称为 y,并用作模型隐含的似然函数的输入。 这些数据(外生或内生)可以作为各种数据类型包含在模型中,包括 numpy ndarrays、pandas SeriesDataFrame,甚至 pytensor TensorVariables

阅读更多 ...