probit模型中的probit究竟是指什么？ - 知乎专栏

2024-11-24

文章推薦指數： 80 %

投票人數：10人

嵌套Logit（NL）：. Nested Logit模型 · Nested Logit模型拟合实战案例（SAS篇）. Biogeme：. Biogeme入门教程（中文 ... 首发于DCM笔记无障碍写文章登录/注册原创文章，如需转载请联系作者！前两篇聊了Logistic函数相关的历史；今天我们说一说Probit模型。

如果你去查一下probit这个单词含义，你会发现字典上给出的probit的含义是“概率单位”。

——咦，这概率单位是个什么鬼？probit单词释义在说Probit模型之前，我们先讲一个关于小强的故事。

对小强来说，这个故事有点悲伤，因为这是杀虫剂和小强的故事…在生物鉴定领域，经常需要研究某些生物对于外部刺激的反应。

比如，对某种昆虫应用不同剂量的杀虫剂，然后观察杀虫剂的剂量(X)与观察昆虫是否死亡(Y)之间的关系；再比如，对某类疾病的患者使用药物，然后观察药量(X)与患者是否治愈(Y)之间的关系，等等。

在这类研究中，自变量一般是某种药物（刺激）的剂量，而因变量则是一个二分类变量——存活或者死亡，治愈或者未治愈，等等。

今天我们的研究课题是：需要多少蟑螂药才能把小强药翻…首先要声明的是，小强也分青铜、王者——青铜级别的小强耐药性差，少量的蟑螂药就可以让他们一命呜呼；而王者级别的小强要生猛得多，他们可以抗住更多的药量。

同样的药量（刺激），不同的反应（结果）——也就是说，每个小强有着不同的抗药阈值。

我们可以把这个阈值看作是一个随机变量，且服从正态分布（如果不是正态分布的话，可以利用对数转换等方法令其近似服从正态分布）。

下面开始做实验：每次抓50只左右的小强，洒入一定剂量的蟑螂药；然后数一数有多少只小强还活着、多少只已经死去。

实验结果如下表1所示。

简单说一下表中的数据，以第3行为例：洒入浓度为5.1mg/L的蟑螂药，46只小强中不幸有24只与世长辞，死亡率为52%——这说明，52%的小强的抗药阈值低于5.1mg/L。

表1：实验结果数据本例中，我们对药量阈值取对数处理，记为x；处理后的数据如表2所示：表2：处理后的数据按照上面的讨论，假设x服从参数为\mu、\sigma的正态分布。

下面要解决的问题是：如何根据上面观测的x-p数据确定出参数\mu、\sigma的值？我们把表2中的5个数据点绘在平面坐标系中，如下图中的橙色圆点；我们的目标是：找到合适的参数\mu、\sigma使得它所对应的累积概率密度函数（CDF，下图中的蓝色线）完美地穿过5个样本点。

在今天，我们可以有很多办法解决这个问题：最简单的，把观测到的数据输入到一个统计软件中（比如R，或者SAS等），利用计算机可以快速地得到结果这里样本量不大，也可以利用最大似然估计法手动计算出参数的估计值（有关最大似然估计法的介绍可以翻一下我之前的文章：《最大似然估计（上）——离散选择模型之十二》、《最大似然估计（下）——离散选择模型之十三》）但是在20世纪30年代之前，科学家们是怎么做的呢？要知道公认的人类历史上第一台现代电子计算机是1946年在美国宾夕法尼亚大学诞生的电子数值积分计算机（简称ENIAC）；Probit模型的最大似然估计法是美国生物学家、统计学家布利斯（ChesterIttnerBliss，1899-1979）在1934年正式提出来的。

在那个年代，你手上可能只有一张正态分布函数值表…好吧，那就从正态分布函数值表开始。

先复习一下统计学中的一个小知识：若随机变量x服从参数为\mu、\sigma的正态分布，定义一个新的随机变量:y=\frac{x-\mu}{\sigma}\\则y服从参数为(0,1)的标准正态分布。

相应的累积概率密度函数可以表示为：Φ(y)=\frac{1}{√2π}∫_{-∞}^{y}exp⁡\left(\frac{-1}{2u^2}\right)du \;\; (1)\\本例中，我们已经观测到p的值为：0.88、0.86、0.52、0.33、0.12；通过查询正态分布函数值表可以得到相应的y值为：1.17、1.08、0.05、-0.44、-1.175。

由于x和y之间存在线性关系：y=\frac{x-\mu}{\sigma}\;\; (2)\\利用最小二乘法可以估计得到:y=-2.87+4.18x\\即：\frac{1}{\sigma}=4.18\\\frac{\mu}{\sigma}=2.87\\从中求解出：\mu=0.687、\sigma=0.239。

至此，我们便得到了两个参数的估计值！上面的变量y一般被称为标准正态变量或标准正态离差（standardnormaldeviate）；以前为了计算方便，研究人员通常会在变量y上加上一个常数5，以避免y出现负值。

这其实相当于从参数为(5,1)的正态分布的累积函数图像上读取和概率p相对应的横坐标的值——布利斯把这个横坐标的值命名为ProbabilityUnit（即概率p所对应的单元，简称Probit）——Probit这个名字就是这么来的！图中横坐标即为probit——概率单元用Φ(⋅)表示标准正态分布的累积概率密度函数，p表示研究者感兴趣的现象的发生概率，将概率p转换为相应的概率单元(probit)这一过程可以表示为：probit(p)=Φ^{-1}(p)+5 \;\; (3)\\总结一下上面的分析过程。

为了估计阈值这一变量的分布参数，我们需要：对药剂量取对数处理，记为x将观测到的结果从频数转化成频率p利用(3)式将概率p转换成概率单元probit（这一步也成为probit转换）利用最小二乘法对x和probit进行回归分析根据回归结果求解参数值随着时代的发展、计算能力的逐渐增强，先是上面的5不用再加了，后来连probit转换也都免了，直接以非线性回归进行分析。

尽管现在已经少有人使用probit转换，但是probitanalysis这个词已经根深蒂固、一直沿用至今。

最后，悼念一下为科学献身的小强同志…未完待续…专栏文章列表（动态更新中...）入门篇离散选择模型（DiscreteChoiceModel）简介线性模型vs.Logistic模型Logit究竟是个啥？probit模型中的probit究竟是指什么？正确打开/解读Logit模型系数的方式二项Logit模型拟合实战案例（SAS）二项Logit模型拟合实战案例（Python）Odds和OddsRatio的区别二项Logit/Probit理论篇：效用最大化准则：离散选择模型的核心（Probit模型上篇）效用最大化准则：离散选择模型的核心（Probit模型下篇）效用最大化准则：离散选择模型的核心（二项Logit模型）从Gumbel分布到Logistic分布多项Logit（MNL）理论与实战：：Multi-NominalLogit中的“Nominal”究竟是什么含义?效用最大化准则：多项Logit模型（MultinomialLogit,MNL）多项Logit模型（MNL）拟合实战案例（SAS篇）MNL的IIA特性与“红公交/蓝公交悖论”（上篇）MNL的IIA特性与“红公交/蓝公交悖论”（下篇）如何将决策者的属性和方案属性同时放到MNL模型中？Logit模型中的个人属性、方案属性数据处理案例为什么条件Logit模型中没有常数项，以及，你的女神会不会不喜欢你？Logit模型中的ASC（Alternative-SpecificConstant）是指什么？嵌套Logit（NL）：NestedLogit模型NestedLogit模型拟合实战案例（SAS篇）Biogeme：Biogeme入门教程（中文版）Biogeme安装教程Logit模型拟合实战案例（Biogeme）其它：最大似然估计（上）最大似然估计（下）模型中存在共线性问题，该怎么破？多因素回归分析模型中的变量筛选方法Logistic回归的起源（上）Logistic回归的起源（中）probit模型中的probit究竟是指什么？Logistic回归的起源（下）如果您觉得本篇干货满满，请您动动手指，点赞、留言、分享三连，谢谢！-END-关注微信【DCM笔记】同名公众号，私信作者获取相关文章中的练习数据和代码：编辑于2021-11-2409:38机器学习计量经济学行为经济学赞同32816条评论分享喜欢收藏申请转载文章被以下专栏收录DCM笔记系统介绍离散选择模型的基础理论和软件实现方法