probit模型中的probit究竟是指什么? - 知乎专栏

文章推薦指數: 80 %
投票人數:10人

嵌套Logit(NL):. Nested Logit模型 · Nested Logit模型拟合实战案例(SAS篇). Biogeme:. Biogeme入门教程(中文 ... 首发于DCM笔记无障碍写文章登录/注册原创文章,如需转载请联系作者!前两篇聊了Logistic函数相关的历史;今天我们说一说Probit模型。

如果你去查一下probit这个单词含义,你会发现字典上给出的probit的含义是“概率单位”。

——咦,这概率单位是个什么鬼?probit单词释义在说Probit模型之前,我们先讲一个关于小强的故事。

对小强来说,这个故事有点悲伤,因为这是杀虫剂和小强的故事…在生物鉴定领域,经常需要研究某些生物对于外部刺激的反应。

比如,对某种昆虫应用不同剂量的杀虫剂,然后观察杀虫剂的剂量(X)与观察昆虫是否死亡(Y)之间的关系;再比如,对某类疾病的患者使用药物,然后观察药量(X)与患者是否治愈(Y)之间的关系,等等。

在这类研究中,自变量一般是某种药物(刺激)的剂量,而因变量则是一个二分类变量——存活或者死亡,治愈或者未治愈,等等。

今天我们的研究课题是:需要多少蟑螂药才能把小强药翻…首先要声明的是,小强也分青铜、王者——青铜级别的小强耐药性差,少量的蟑螂药就可以让他们一命呜呼;而王者级别的小强要生猛得多,他们可以抗住更多的药量。

同样的药量(刺激),不同的反应(结果)——也就是说,每个小强有着不同的抗药阈值。

我们可以把这个阈值看作是一个随机变量,且服从正态分布(如果不是正态分布的话,可以利用对数转换等方法令其近似服从正态分布)。

下面开始做实验:每次抓50只左右的小强,洒入一定剂量的蟑螂药;然后数一数有多少只小强还活着、多少只已经死去。

实验结果如下表1所示。

简单说一下表中的数据,以第3行为例:洒入浓度为5.1mg/L的蟑螂药,46只小强中不幸有24只与世长辞,死亡率为52%——这说明,52%的小强的抗药阈值低于5.1mg/L。

表1:实验结果数据本例中,我们对药量阈值取对数处理,记为x;处理后的数据如表2所示:表2:处理后的数据按照上面的讨论,假设x服从参数为\mu、\sigma的正态分布。

下面要解决的问题是:如何根据上面观测的x-p数据确定出参数\mu、\sigma的值?我们把表2中的5个数据点绘在平面坐标系中,如下图中的橙色圆点;我们的目标是:找到合适的参数\mu、\sigma使得它所对应的累积概率密度函数(CDF,下图中的蓝色线)完美地穿过5个样本点。

在今天,我们可以有很多办法解决这个问题:最简单的,把观测到的数据输入到一个统计软件中(比如R,或者SAS等),利用计算机可以快速地得到结果这里样本量不大,也可以利用最大似然估计法手动计算出参数的估计值(有关最大似然估计法的介绍可以翻一下我之前的文章:《最大似然估计(上)——离散选择模型之十二》、《最大似然估计(下)——离散选择模型之十三》)但是在20世纪30年代之前,科学家们是怎么做的呢?要知道公认的人类历史上第一台现代电子计算机是1946年在美国宾夕法尼亚大学诞生的电子数值积分计算机(简称ENIAC);Probit模型的最大似然估计法是美国生物学家、统计学家布利斯(ChesterIttnerBliss,1899-1979)在1934年正式提出来的。

在那个年代,你手上可能只有一张正态分布函数值表…好吧,那就从正态分布函数值表开始。

先复习一下统计学中的一个小知识:若随机变量x服从参数为\mu、\sigma的正态分布,定义一个新的随机变量:y=\frac{x-\mu}{\sigma}\\则y服从参数为(0,1)的标准正态分布。

相应的累积概率密度函数可以表示为:Φ(y)=\frac{1}{√2π}∫_{-∞}^{y}exp⁡\left(\frac{-1}{2u^2}\right)du \;\; (1)\\本例中,我们已经观测到p的值为:0.88、0.86、0.52、0.33、0.12;通过查询正态分布函数值表可以得到相应的y值为:1.17、1.08、0.05、-0.44、-1.175。

由于x和y之间存在线性关系:y=\frac{x-\mu}{\sigma}\;\; (2)\\利用最小二乘法可以估计得到:y=-2.87+4.18x\\即:\frac{1}{\sigma}=4.18\\\frac{\mu}{\sigma}=2.87\\从中求解出:\mu=0.687、\sigma=0.239。

至此,我们便得到了两个参数的估计值!上面的变量y一般被称为标准正态变量或标准正态离差(standardnormaldeviate);以前为了计算方便,研究人员通常会在变量y上加上一个常数5,以避免y出现负值。

这其实相当于从参数为(5,1)的正态分布的累积函数图像上读取和概率p相对应的横坐标的值——布利斯把这个横坐标的值命名为ProbabilityUnit(即概率p所对应的单元,简称Probit)——Probit这个名字就是这么来的!图中横坐标即为probit——概率单元用Φ(⋅)表示标准正态分布的累积概率密度函数,p表示研究者感兴趣的现象的发生概率,将概率p转换为相应的概率单元(probit)这一过程可以表示为:probit(p)=Φ^{-1}(p)+5 \;\; (3)\\总结一下上面的分析过程。

为了估计阈值这一变量的分布参数,我们需要:对药剂量取对数处理,记为x将观测到的结果从频数转化成频率p利用(3)式将概率p转换成概率单元probit(这一步也成为probit转换)利用最小二乘法对x和probit进行回归分析根据回归结果求解参数值随着时代的发展、计算能力的逐渐增强,先是上面的5不用再加了,后来连probit转换也都免了,直接以非线性回归进行分析。

尽管现在已经少有人使用probit转换,但是probitanalysis这个词已经根深蒂固、一直沿用至今。

最后,悼念一下为科学献身的小强同志…未完待续…专栏文章列表(动态更新中...)入门篇离散选择模型(DiscreteChoiceModel)简介线性模型vs.Logistic模型Logit究竟是个啥?probit模型中的probit究竟是指什么?正确打开/解读Logit模型系数的方式二项Logit模型拟合实战案例(SAS)二项Logit模型拟合实战案例(Python)Odds和OddsRatio的区别二项Logit/Probit理论篇:效用最大化准则:离散选择模型的核心(Probit模型上篇)效用最大化准则:离散选择模型的核心(Probit模型下篇)效用最大化准则:离散选择模型的核心(二项Logit模型)从Gumbel分布到Logistic分布多项Logit(MNL)理论与实战::Multi-NominalLogit中的“Nominal”究竟是什么含义?效用最大化准则:多项Logit模型(MultinomialLogit,MNL)多项Logit模型(MNL)拟合实战案例(SAS篇)MNL的IIA特性与“红公交/蓝公交悖论”(上篇)MNL的IIA特性与“红公交/蓝公交悖论”(下篇)如何将决策者的属性和方案属性同时放到MNL模型中?Logit模型中的个人属性、方案属性数据处理案例为什么条件Logit模型中没有常数项,以及,你的女神会不会不喜欢你?Logit模型中的ASC(Alternative-SpecificConstant)是指什么?嵌套Logit(NL):NestedLogit模型NestedLogit模型拟合实战案例(SAS篇)Biogeme:Biogeme入门教程(中文版)Biogeme安装教程Logit模型拟合实战案例(Biogeme)其它:最大似然估计(上)最大似然估计(下)模型中存在共线性问题,该怎么破?多因素回归分析模型中的变量筛选方法Logistic回归的起源(上)Logistic回归的起源(中)probit模型中的probit究竟是指什么?Logistic回归的起源(下)如果您觉得本篇干货满满,请您动动手指,点赞、留言、分享三连,谢谢!-END-关注微信【DCM笔记】同名公众号,私信作者获取相关文章中的练习数据和代码:编辑于2021-11-2409:38机器学习计量经济学行为经济学​赞同328​​16条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录DCM笔记系统介绍离散选择模型的基础理论和软件实现方法



請為這篇文章評分?