初学者文章

Simpson’s paradox

辛普森悖论 描述了一种情况,即在一个群体内,两个变量之间可能存在负相关关系,但是当来自多个群体的数据合并时,这种关系可能会消失甚至反转符号。 下面的 gif 动图(来自辛普森悖论的 维基百科 页面)很好地演示了这一点。

阅读更多 ...


冈比亚疟疾的流行率

重复的隐式目标名称:“冈比亚疟疾的流行率”。

阅读更多 ...


分类回归

在此示例中,我们将对具有两个以上类别的结果进行建模。

阅读更多 ...


样本外预测

我们想要拟合一个逻辑回归模型,其中两个数值特征之间存在乘法交互作用。

阅读更多 ...


GLM:负二项回归

此 notebook 使用的库不是 PyMC 依赖项,因此需要专门安装才能运行此 notebook。 打开下面的下拉菜单以获取更多指导。

阅读更多 ...


使用 do 算子的干预分布和图变异

PyMC 是开源贝叶斯统计生态系统的关键组成部分。 它每天帮助解决各个行业和学术研究领域的实际问题。 并且它通过其可访问性、强大性和在解决贝叶斯统计推断问题方面的实用性而获得了这种程度的效用。

阅读更多 ...


具有有序分类结果的回归模型

与许多统计学领域一样,调查数据的语言也带有过载的词汇。 在讨论调查设计时,您经常会听到关于基于设计基于模型的方法在 (i) 抽样策略和 (ii) 对相关数据进行统计推断之间的对比。 我们不会深入探讨不同抽样策略的细节,例如:简单随机抽样、整群随机抽样或使用人口权重方案的分层随机抽样。 关于这些策略的文献浩如烟海,但在此 notebook 中,我们将讨论何时以及为什么将模型驱动的统计推断应用于 李克特 量表调查响应数据和其他类型的有序分类数据是有用的。

阅读更多 ...


多元高斯随机游走

此 notebook 展示了如何使用多元 高斯随机游走 (GRW) 拟合相关时间序列。 特别是,我们针对依赖于 GRW 的模型对时间序列数据执行贝叶斯 回归

阅读更多 ...


使用 BART 对异方差性进行建模

在此 notebook 中,我们展示了如何使用 BART 对异方差性进行建模,如 pymc-bart 的论文 [Quiroga et al., 2022] 的第 4.1 节所述。 我们使用 R 包 datarium [Kassambara, 2019] 提供的 marketing 数据集。 我们的想法是将营销渠道对销售额的贡献建模为预算的函数。

阅读更多 ...


GLM:稳健线性回归

重复的隐式目标名称:“glm: robust linear regression”。

阅读更多 ...


贝叶斯因子和边际似然

比较模型的“贝叶斯方法”是计算每个模型 \(p(y \mid M_k)\)边际似然给定 \(M_k\) 模型,观察到的数据 \(y\) 的概率。 这个量,边际似然,只是贝叶斯定理的归一化常数。 如果我们写出贝叶斯定理并明确所有推论都依赖于模型,我们就可以看到这一点。

阅读更多 ...


广义极值分布

广义极值 (GEV) 分布是一种元分布,包含 Weibull、Gumbel 和 Frechet 族的极值分布。 它用于对平稳过程的极值(最大值或最小值)的分布进行建模,例如年最大风速、桥梁上的年最大卡车重量等等,而无需对尾部行为做出先验决定。

阅读更多 ...


使用截断或删失数据的贝叶斯回归

此 notebook 提供了一个示例,说明当您的结果变量被删失或截断时如何进行线性回归。

阅读更多 ...


如何调试模型

调试模型有不同的级别。 最简单的方法之一是只打印出不同变量正在取的值。

阅读更多 ...


空间数据的条件自回归 (CAR) 模型

此 notebook 使用的库不是 PyMC 依赖项,因此需要专门安装才能运行此 notebook。 打开下面的下拉菜单以获取更多指导。

阅读更多 ...


随机波动率模型

资产价格具有随时间变化的波动率(每日 returns 的方差)。 在某些时期,回报率变化很大,而在另一些时期则非常稳定。 随机波动率模型使用潜在波动率变量对此进行建模,该变量被建模为随机过程。 以下模型类似于 No-U-Turn Sampler 论文 [Hoffman and Gelman, 2014] 中描述的模型。

阅读更多 ...


样条

通常,我们想要拟合的模型不是 \(x\)\(y\) 之间的完美直线。 相反,模型的参数预计会在 \(x\) 上变化。 有多种方法可以处理这种情况,其中一种是拟合样条。 样条拟合实际上是多条单独曲线(分段多项式)的总和,每条曲线都拟合到 \(x\) 的不同部分,并在它们的边界(通常称为节点)处连接在一起。

阅读更多 ...


采样器统计

在检查收敛性或调试行为不端的采样器时,仔细查看采样器正在做什么通常很有帮助。 为此,一些采样器会导出每个生成的样本的统计信息。

阅读更多 ...


通用 API 快速入门

PyMC 中的模型以 Model 类为中心。 它引用所有随机变量 (RV) 并计算模型 logp 及其梯度。 通常,您会将其实例化为 with 上下文的一部分

阅读更多 ...


近似贝叶斯计算

近似贝叶斯计算方法(也称为无似然推断方法)是一组技术,旨在用于在似然函数难以处理或评估成本高昂的情况下推断后验分布。 这并不意味着似然函数不是分析的一部分,只是我们正在逼近似然,因此得名 ABC 方法。

阅读更多 ...


回归不连续性设计分析

准实验 涉及实验干预和定量测量。 然而,准实验涉及将单元(例如细胞、人、公司、学校、州)随机分配到测试组或对照组。 这种无法进行随机分配的情况在做出因果声明时会带来问题,因为它使得更难以论证对照组和测试组之间的任何差异是由于干预而不是由于混杂因素造成的。

阅读更多 ...


高斯混合模型

混合模型 允许我们推断数据分布的组成部分贡献者。 更具体地说,高斯混合模型允许我们推断指定数量的底层成分高斯分布的均值和标准差。

阅读更多 ...


贝叶斯调节分析

此 notebook 涵盖贝叶斯 调节分析。 当我们认为一个预测变量(调节变量)可能会影响另一个预测变量和结果之间线性关系时,这是合适的。 在这里,我们看一个示例,其中我们查看训练时间和肌肉质量之间的关系,其中可能是年龄(调节变量)会影响这种关系。

阅读更多 ...


二项回归

此 notebook 涵盖 二项回归(广义线性建模的一个特定实例)背后的逻辑。 该示例非常简单,只有一个预测变量。

阅读更多 ...


贝叶斯中介分析

此 notebook 涵盖贝叶斯 中介分析。 当我们想要探索预测变量和结果变量之间可能的中介途径时,这非常有用。

阅读更多 ...


使用块更新的 Lasso 回归

有时,一起更新一组参数非常有用。 例如,高度相关的变量通常最好一起更新。 在 PyMC 中,块更新很简单。 这将使用 pymc.sample 的参数 step 来演示。

阅读更多 ...


贝叶斯估计取代 T 检验

非连续标题级别增加; H1 到 H3 [myst.header]

阅读更多 ...


使用数据容器

在构建您梦想中的统计模型之后,您将需要向其输入一些数据。 数据通常以两种方式引入 PyMC 模型。 有些数据用作外生输入,在线性回归模型中称为 X,其中 mu = X @ beta。 其他数据是模型内生输出的“观察”示例,在回归模型中称为 y,并用作模型隐含的似然函数的输入。 这些数据(外生或内生)可以作为各种数据类型包含在您的模型中,包括 numpy ndarrays、pandas SeriesDataFrame,甚至 pytensor TensorVariables

阅读更多 ...


序贯蒙特卡洛

使用标准 MCMC 方法从具有多个峰值的分布中采样可能很困难,甚至不可能,因为马尔可夫链通常会卡在任一最小值中。 序贯蒙特卡洛采样器 (SMC) 是缓解此问题的一种方法。

阅读更多 ...


贝叶斯 A/B 测试简介

此 notebook 演示了如何实现 A/B 测试的贝叶斯分析。 我们实现了 VWO 的贝叶斯 A/B 测试白皮书 [Stucchio, 2015] 中讨论的模型,并讨论了这些模型不同先验选择的效果。 此 notebook 讨论其他相关主题,例如如何选择先验、提前停止和功效分析。

阅读更多 ...