初学者文章
Simpson’s paradox
- 2024年9月24日
辛普森悖论 描述了一种情况,即在一个群体内,两个变量之间可能存在负相关关系,但是当来自多个群体的数据合并时,这种关系可能会消失甚至反转符号。 下面的 gif 动图(来自辛普森悖论的 维基百科 页面)很好地演示了这一点。
使用 do 算子的干预分布和图变异
- 2023年7月24日
PyMC 是开源贝叶斯统计生态系统的关键组成部分。 它每天帮助解决各个行业和学术研究领域的实际问题。 并且它通过其可访问性、强大性和在解决贝叶斯统计推断问题方面的实用性而获得了这种程度的效用。
具有有序分类结果的回归模型
- 2023年4月24日
与许多统计学领域一样,调查数据的语言也带有过载的词汇。 在讨论调查设计时,您经常会听到关于基于设计和基于模型的方法在 (i) 抽样策略和 (ii) 对相关数据进行统计推断之间的对比。 我们不会深入探讨不同抽样策略的细节,例如:简单随机抽样、整群随机抽样或使用人口权重方案的分层随机抽样。 关于这些策略的文献浩如烟海,但在此 notebook 中,我们将讨论何时以及为什么将模型驱动的统计推断应用于 李克特 量表调查响应数据和其他类型的有序分类数据是有用的。
使用 BART 对异方差性进行建模
- 2023年1月24日
在此 notebook 中,我们展示了如何使用 BART 对异方差性进行建模,如 pymc-bart
的论文 [Quiroga et al., 2022] 的第 4.1 节所述。 我们使用 R 包 datarium
[Kassambara, 2019] 提供的 marketing
数据集。 我们的想法是将营销渠道对销售额的贡献建模为预算的函数。
贝叶斯因子和边际似然
- 2023年1月10日
比较模型的“贝叶斯方法”是计算每个模型 \(p(y \mid M_k)\) 的边际似然,即给定 \(M_k\) 模型,观察到的数据 \(y\) 的概率。 这个量,边际似然,只是贝叶斯定理的归一化常数。 如果我们写出贝叶斯定理并明确所有推论都依赖于模型,我们就可以看到这一点。
广义极值分布
- 2022年9月27日
广义极值 (GEV) 分布是一种元分布,包含 Weibull、Gumbel 和 Frechet 族的极值分布。 它用于对平稳过程的极值(最大值或最小值)的分布进行建模,例如年最大风速、桥梁上的年最大卡车重量等等,而无需对尾部行为做出先验决定。
随机波动率模型
- 2022年6月17日
资产价格具有随时间变化的波动率(每日 returns
的方差)。 在某些时期,回报率变化很大,而在另一些时期则非常稳定。 随机波动率模型使用潜在波动率变量对此进行建模,该变量被建模为随机过程。 以下模型类似于 No-U-Turn Sampler 论文 [Hoffman and Gelman, 2014] 中描述的模型。
样条
- 2022年6月4日
通常,我们想要拟合的模型不是 \(x\) 和 \(y\) 之间的完美直线。 相反,模型的参数预计会在 \(x\) 上变化。 有多种方法可以处理这种情况,其中一种是拟合样条。 样条拟合实际上是多条单独曲线(分段多项式)的总和,每条曲线都拟合到 \(x\) 的不同部分,并在它们的边界(通常称为节点)处连接在一起。
通用 API 快速入门
- 2022年5月31日
PyMC 中的模型以 Model
类为中心。 它引用所有随机变量 (RV) 并计算模型 logp 及其梯度。 通常,您会将其实例化为 with
上下文的一部分
近似贝叶斯计算
- 2022年5月31日
近似贝叶斯计算方法(也称为无似然推断方法)是一组技术,旨在用于在似然函数难以处理或评估成本高昂的情况下推断后验分布。 这并不意味着似然函数不是分析的一部分,只是我们正在逼近似然,因此得名 ABC 方法。
回归不连续性设计分析
- 2022年4月24日
准实验 涉及实验干预和定量测量。 然而,准实验不涉及将单元(例如细胞、人、公司、学校、州)随机分配到测试组或对照组。 这种无法进行随机分配的情况在做出因果声明时会带来问题,因为它使得更难以论证对照组和测试组之间的任何差异是由于干预而不是由于混杂因素造成的。
贝叶斯调节分析
- 2022年3月24日
此 notebook 涵盖贝叶斯 调节分析。 当我们认为一个预测变量(调节变量)可能会影响另一个预测变量和结果之间线性关系时,这是合适的。 在这里,我们看一个示例,其中我们查看训练时间和肌肉质量之间的关系,其中可能是年龄(调节变量)会影响这种关系。
使用块更新的 Lasso 回归
- 2022年2月10日
有时,一起更新一组参数非常有用。 例如,高度相关的变量通常最好一起更新。 在 PyMC 中,块更新很简单。 这将使用 pymc.sample
的参数 step
来演示。
使用数据容器
- 2021年12月16日
在构建您梦想中的统计模型之后,您将需要向其输入一些数据。 数据通常以两种方式引入 PyMC 模型。 有些数据用作外生输入,在线性回归模型中称为 X
,其中 mu = X @ beta
。 其他数据是模型内生输出的“观察”示例,在回归模型中称为 y
,并用作模型隐含的似然函数的输入。 这些数据(外生或内生)可以作为各种数据类型包含在您的模型中,包括 numpy ndarrays
、pandas Series
和 DataFrame
,甚至 pytensor TensorVariables
。
序贯蒙特卡洛
- 2021年10月19日
使用标准 MCMC 方法从具有多个峰值的分布中采样可能很困难,甚至不可能,因为马尔可夫链通常会卡在任一最小值中。 序贯蒙特卡洛采样器 (SMC) 是缓解此问题的一种方法。
贝叶斯 A/B 测试简介
- 2021年5月23日
此 notebook 演示了如何实现 A/B 测试的贝叶斯分析。 我们实现了 VWO 的贝叶斯 A/B 测试白皮书 [Stucchio, 2015] 中讨论的模型,并讨论了这些模型不同先验选择的效果。 此 notebook 不讨论其他相关主题,例如如何选择先验、提前停止和功效分析。