认识我们的 2023 年 PyMC 实习生#
Daniel Saunders#
项目名称
扩展 PyMC 中对空间模型的支持
项目描述
信息
预期成果:实现上述一种或多种方法,以及一个或多个可以添加到 PyMC 文档中的 notebook 示例,以演示这些技术。
实习标签:GSoC
导师
个人简介
我是英属哥伦比亚大学的哲学博士生。我的学术工作着眼于行为科学的基础 - 哪些框架最适合理解和建模人类行为?评估数据抽象理论模型的正确方法是什么?我对贝叶斯统计学很感兴趣,因为它为思考这些问题提供了一些新颖的方法。
联系方式
Twitter: @CarolBasknRobns
GitHub: @daniel-saunders-phil
在 Daniel 的 GSoC 博客了解更多信息:Daniel’s GSoC blog。
是什么促使您申请 PyMC 的实习?
几年前,我开始阅读 Richard McElreath 的杰作《Statistical Rethinking》,并爱上了概率编程。我之前的编码经验是 Python,所以 PyMC 自然而然地成为我选择的概率编程语言。从那时起,我真的越来越喜欢这个包,并想学习如何以认真的方式为它做出贡献。
为什么您选择特定的项目主题?
我知道我更适合在建模方面工作,而不是后端或可视化方面。所以这是合乎逻辑的选择。
您是如何参与开源软件的?
我参加了 2022 年 7 月与 Data Umbrella 合作组织的 PyMC sprint。我记得 Reshama Shaikh、Ravin Kumar、Rowan Schaefer 和 Oriol Abril Pla 都非常好,而且非常乐于助人。他们教我 git 的工作原理以及如何整理文档字符串。
开源世界起初绝对让人感到不知所措,但我很享受身处完全陌生的环境。在申请 GSoC 之前的几个月里,我只是在 GitHub 上潜水。
您期望或希望从实习经验中获得什么?
我想提高我的技能并扩大我的社区。参与大型协作软件项目完全是不同的挑战,因此我想了解它们是如何运作的。同样,我的项目真的会推动我对概率编程的知识向前发展。了解在这个领域工作的人以及哪些项目让他们兴奋是我真正期待的另一件事。
您的职业目标是什么?您如何看待实习计划推动您实现这些目标?
我想在概率编程领域工作,无论是在学术界还是私营部门。我之前的经验主要是学术方面的,所以我渴望稍微走出那个世界,并与在私营部门工作的人建立联系。我希望 GSoC 能以一种我希望打开新大门的方式丰富我的经验。
Shreyas Singh#
项目名称
支持任意删失 logp 的自动推导
项目描述
PyMC 可以自动推导出某些删失过程的 logp,例如左删失和/或右删失以及舍入。本项目将把此能力扩展到任意形式的删失,其中左/右删失和舍入只是特例。这将包括区间删失和分箱。
本项目将需要学习如何解析 PyTensor 图,PyTensor 是 PyMC 使用的后端。有关更多详细信息,请参阅 https://pymc.cn/projects/docs/en/v5.0.2/learn/core_notebooks/pymc_pytensor.html。对概率论的理解会有所帮助,但不是必需的(您可以边做边学)
信息
预期成果:PyMC logprob 子模块将理解任意删失编码模型。
实习标签:PyMC 研究
导师
个人简介
我是宾夕法尼亚大学科学计算专业的硕士研究生,我的兴趣领域包括符号计算和概率编程。我曾致力于在计算物理中使用统计分析工具,然后在埃森哲日本公司从事软件开发。我沉迷于数据科学中使用的计算后端结构,为此,在相对较新的开源之旅中,我一直乐于为 PyTensor 和 PyMC 做出贡献。
联系方式
Twitter: @shreyas_singh_
LinkedIn: shreyassinghiitr
GitHub: @shreyas3156
在 Shreyas 的实习博客了解更多信息:Shreyas’s internship blog。
是什么促使您申请 PyMC 的实习?
我的本科专业是工程物理,但在辅修数学时,我意识到自己对统计学和计算数学的亲和力。虽然我之前在工作中拥有 Java 开发经验,但我希望以更严谨的态度追求概率编程。
在浏览参与 GSoC 的组织时,我发现了 PyMC。大量的 PyMC 示例、PyMCon Web 系列以及 GitHub 和 Discourse 上活跃的社区最吸引我。
为什么您选择特定的项目主题?
我非常着迷于 PyTensor(PyMC 的计算后端)以及它如何在底层处理各种操作和优化。此外,在生存分析中使用任意删失,尤其是在传染病研究中,也是一个驱动因素。
您是如何参与开源软件的?
尽管我之前有软件开发和数据分析经验,但我最近才接触到开源世界。一些朋友建议为开源软件做贡献,因为学习曲线陡峭但回报丰厚。我对贡献的多样性以及来自各种背景的开发人员为了共同目标而共同努力并与希望学习的人分享知识的意愿感到惊讶。
您期望或希望从实习经验中获得什么?
我希望为尽可能多的任意删失情况添加对数概率推断,同时考虑到一些特殊的边缘情况。最终目标还将是将这些似然函数移植到 Bambi 中,并为整个 logprob 子模块提供适当的文档。总的来说,我希望从我的导师和组织的其他成员那里学到很多东西,并成为 PyMC 的定期贡献者,同时学习开源方面的最佳实践。
您的职业目标是什么?您如何看待实习计划推动您实现这些目标?
我渴望成为气象学、天文学或医疗保健等科学领域的精通的数据科学家。PyMC 的实习计划,尤其是像这样引人入胜的项目,将为我提供统计建模和机器学习的坚实基础。在 GSoC 的申请阶段,我已经学到了很多东西,开源项目中各种各样的机会将继续激发我的好奇心。
Gabriel Stechschulte#
项目名称
更好的工具来解释复杂的 Bambi 回归模型
项目描述
Bambi 允许构建位置、尺度和形状的广义线性模型。参数估计的解释可能具有挑战性,特别是当模型包含多个不同性质的预测变量(可能经过转换)并且模型参数通过链接函数进行修改时。为了简化理解,研究人员通常更喜欢专注于更简单且易于解释的量和可视化。然而,计算这些量及其标准误差既耗时又并非易事。Bambi 目前有一些 可视化功能 目前有一些可视化功能来帮助理解模型预测,并且此计划旨在增强这些功能。我们目标的有用参考是 R 库 marginaleffects。
信息
预期成果:实现一个或多个绘图函数,以帮助解释 Bambi 的模型
实习标签:GSoC
导师
个人简介
我拥有数据科学硕士学位,并在电梯制造/生产公司的供应链部门担任系统工程师。我开发分层回归模型来分析我们不同产品线和配置的成本和盈利能力,并执行优化以减少材料浪费和成本。
联系方式
Twitter: @__gsteck__
GitHub: @GStechschulte
在 Gabriel 的 GSoC 博客了解更多信息:Gabriel’s GSoC blog。
是什么促使您申请 PyMC 的实习?
我 2023 年的个人目标是开始为开源概率编程库做出贡献,以:(1)加深我在贝叶斯统计和软件开发方面的知识和技能,以及(2)在使用该软件 1-2 年后“回馈” PPL 开源社区,以及(3)结识概率编程领域志同道合的人。
为什么您选择特定的项目主题?
虽然贝叶斯工作流程的模型构建部分变得更容易,但这些模型的解释却没有。即使对于建模者而言,广义线性模型的解释也很繁琐;更重要的是需要向管理层和其他非技术利益相关者解释。因此,我认为我的项目主题是一种自动执行模型可解释性某些方面的方法,以及一种更有效地向非技术受众呈现复杂模型的方法。
您是如何参与开源软件的?
我在 Twitter 和 GitHub 上关注了 PyMC、Bambi、Aesara 和 Blackjax 的大多数核心开发人员。看到他们(和社区)对想要做出贡献的初级开发人员的支持是多么支持,这表明我不应该害怕。我的第一个合并的 PR 是 Blackjax 中与文档相关的,哈哈。
您期望或希望从实习经验中获得什么?
我期望能够
提高软件工程知识和技能,例如编写测试、健壮的代码(错误处理和形状处理)以及面向对象编程。
更深入地研究 Bambi 和 xarray 库。
与 Bambi 库的其他开发人员会面、交流和学习。
及时合并我的所有三个项目交付成果。
您的职业目标是什么?您如何看待实习计划推动您实现这些目标?
我的职业目标之一是在一家公司工作,我们不仅使用开源概率编程(及相关)库,而且还分配一定比例的资源(时间和金钱)来进一步开发和改进这些库。