probit模型中的probit究竟是指什么? - 知乎专栏
文章推薦指數: 80 %
嵌套Logit(NL):. Nested Logit模型 · Nested Logit模型拟合实战案例(SAS篇). Biogeme:. Biogeme入门教程(中文 ...
首发于DCM笔记无障碍写文章登录/注册原创文章,如需转载请联系作者!前两篇聊了Logistic函数相关的历史;今天我们说一说Probit模型。
如果你去查一下probit这个单词含义,你会发现字典上给出的probit的含义是“概率单位”。
——咦,这概率单位是个什么鬼?probit单词释义在说Probit模型之前,我们先讲一个关于小强的故事。
对小强来说,这个故事有点悲伤,因为这是杀虫剂和小强的故事…在生物鉴定领域,经常需要研究某些生物对于外部刺激的反应。
比如,对某种昆虫应用不同剂量的杀虫剂,然后观察杀虫剂的剂量(X)与观察昆虫是否死亡(Y)之间的关系;再比如,对某类疾病的患者使用药物,然后观察药量(X)与患者是否治愈(Y)之间的关系,等等。
在这类研究中,自变量一般是某种药物(刺激)的剂量,而因变量则是一个二分类变量——存活或者死亡,治愈或者未治愈,等等。
今天我们的研究课题是:需要多少蟑螂药才能把小强药翻…首先要声明的是,小强也分青铜、王者——青铜级别的小强耐药性差,少量的蟑螂药就可以让他们一命呜呼;而王者级别的小强要生猛得多,他们可以抗住更多的药量。
同样的药量(刺激),不同的反应(结果)——也就是说,每个小强有着不同的抗药阈值。
我们可以把这个阈值看作是一个随机变量,且服从正态分布(如果不是正态分布的话,可以利用对数转换等方法令其近似服从正态分布)。
下面开始做实验:每次抓50只左右的小强,洒入一定剂量的蟑螂药;然后数一数有多少只小强还活着、多少只已经死去。
实验结果如下表1所示。
简单说一下表中的数据,以第3行为例:洒入浓度为5.1mg/L的蟑螂药,46只小强中不幸有24只与世长辞,死亡率为52%——这说明,52%的小强的抗药阈值低于5.1mg/L。
表1:实验结果数据本例中,我们对药量阈值取对数处理,记为x;处理后的数据如表2所示:表2:处理后的数据按照上面的讨论,假设x服从参数为\mu、\sigma的正态分布。
下面要解决的问题是:如何根据上面观测的x-p数据确定出参数\mu、\sigma的值?我们把表2中的5个数据点绘在平面坐标系中,如下图中的橙色圆点;我们的目标是:找到合适的参数\mu、\sigma使得它所对应的累积概率密度函数(CDF,下图中的蓝色线)完美地穿过5个样本点。
在今天,我们可以有很多办法解决这个问题:最简单的,把观测到的数据输入到一个统计软件中(比如R,或者SAS等),利用计算机可以快速地得到结果这里样本量不大,也可以利用最大似然估计法手动计算出参数的估计值(有关最大似然估计法的介绍可以翻一下我之前的文章:《最大似然估计(上)——离散选择模型之十二》、《最大似然估计(下)——离散选择模型之十三》)但是在20世纪30年代之前,科学家们是怎么做的呢?要知道公认的人类历史上第一台现代电子计算机是1946年在美国宾夕法尼亚大学诞生的电子数值积分计算机(简称ENIAC);Probit模型的最大似然估计法是美国生物学家、统计学家布利斯(ChesterIttnerBliss,1899-1979)在1934年正式提出来的。
在那个年代,你手上可能只有一张正态分布函数值表…好吧,那就从正态分布函数值表开始。
先复习一下统计学中的一个小知识:若随机变量x服从参数为\mu、\sigma的正态分布,定义一个新的随机变量:y=\frac{x-\mu}{\sigma}\\则y服从参数为(0,1)的标准正态分布。
相应的累积概率密度函数可以表示为:Φ(y)=\frac{1}{√2π}∫_{-∞}^{y}exp\left(\frac{-1}{2u^2}\right)du \;\; (1)\\本例中,我们已经观测到p的值为:0.88、0.86、0.52、0.33、0.12;通过查询正态分布函数值表可以得到相应的y值为:1.17、1.08、0.05、-0.44、-1.175。
由于x和y之间存在线性关系:y=\frac{x-\mu}{\sigma}\;\; (2)\\利用最小二乘法可以估计得到:y=-2.87+4.18x\\即:\frac{1}{\sigma}=4.18\\\frac{\mu}{\sigma}=2.87\\从中求解出:\mu=0.687、\sigma=0.239。
至此,我们便得到了两个参数的估计值!上面的变量y一般被称为标准正态变量或标准正态离差(standardnormaldeviate);以前为了计算方便,研究人员通常会在变量y上加上一个常数5,以避免y出现负值。
这其实相当于从参数为(5,1)的正态分布的累积函数图像上读取和概率p相对应的横坐标的值——布利斯把这个横坐标的值命名为ProbabilityUnit(即概率p所对应的单元,简称Probit)——Probit这个名字就是这么来的!图中横坐标即为probit——概率单元用Φ(⋅)表示标准正态分布的累积概率密度函数,p表示研究者感兴趣的现象的发生概率,将概率p转换为相应的概率单元(probit)这一过程可以表示为:probit(p)=Φ^{-1}(p)+5 \;\; (3)\\总结一下上面的分析过程。
为了估计阈值这一变量的分布参数,我们需要:对药剂量取对数处理,记为x将观测到的结果从频数转化成频率p利用(3)式将概率p转换成概率单元probit(这一步也成为probit转换)利用最小二乘法对x和probit进行回归分析根据回归结果求解参数值随着时代的发展、计算能力的逐渐增强,先是上面的5不用再加了,后来连probit转换也都免了,直接以非线性回归进行分析。
尽管现在已经少有人使用probit转换,但是probitanalysis这个词已经根深蒂固、一直沿用至今。
最后,悼念一下为科学献身的小强同志…未完待续…专栏文章列表(动态更新中...)入门篇离散选择模型(DiscreteChoiceModel)简介线性模型vs.Logistic模型Logit究竟是个啥?probit模型中的probit究竟是指什么?正确打开/解读Logit模型系数的方式二项Logit模型拟合实战案例(SAS)二项Logit模型拟合实战案例(Python)Odds和OddsRatio的区别二项Logit/Probit理论篇:效用最大化准则:离散选择模型的核心(Probit模型上篇)效用最大化准则:离散选择模型的核心(Probit模型下篇)效用最大化准则:离散选择模型的核心(二项Logit模型)从Gumbel分布到Logistic分布多项Logit(MNL)理论与实战::Multi-NominalLogit中的“Nominal”究竟是什么含义?效用最大化准则:多项Logit模型(MultinomialLogit,MNL)多项Logit模型(MNL)拟合实战案例(SAS篇)MNL的IIA特性与“红公交/蓝公交悖论”(上篇)MNL的IIA特性与“红公交/蓝公交悖论”(下篇)如何将决策者的属性和方案属性同时放到MNL模型中?Logit模型中的个人属性、方案属性数据处理案例为什么条件Logit模型中没有常数项,以及,你的女神会不会不喜欢你?Logit模型中的ASC(Alternative-SpecificConstant)是指什么?嵌套Logit(NL):NestedLogit模型NestedLogit模型拟合实战案例(SAS篇)Biogeme:Biogeme入门教程(中文版)Biogeme安装教程Logit模型拟合实战案例(Biogeme)其它:最大似然估计(上)最大似然估计(下)模型中存在共线性问题,该怎么破?多因素回归分析模型中的变量筛选方法Logistic回归的起源(上)Logistic回归的起源(中)probit模型中的probit究竟是指什么?Logistic回归的起源(下)如果您觉得本篇干货满满,请您动动手指,点赞、留言、分享三连,谢谢!-END-关注微信【DCM笔记】同名公众号,私信作者获取相关文章中的练习数据和代码:编辑于2021-11-2409:38机器学习计量经济学行为经济学赞同32816条评论分享喜欢收藏申请转载文章被以下专栏收录DCM笔记系统介绍离散选择模型的基础理论和软件实现方法
延伸文章資訊
- 1第四章、 實證模型
一) PROBIT MODEL. (1)概念簡介. 在許多的情形下,我們尋求的模型建立並不是連續的,而是離散的。例如:. 考慮勞動力的參與與否或是在一次的總統大選中人們會選擇投票 ...
- 2Logit/Probit Model - RPubs
3 Logit 模型的基本原理. 4 最大概似法(MLE)原理. 4.1 最大概似法求解. 4.1.1 常態分佈. 4.2 二元 ...
- 3機率單位迴歸 - IBM
如果未套用轉換,而且有控制組別,則該控制組別就會包含在分析中。 選取機率值 或Logit 模型。 機率單位值模型(Probit Model): 將機率單位值 ...
- 4probit model - 機率單位模型 - 國家教育研究院雙語詞彙
- 5probit模型中的probit究竟是指什么? - 知乎专栏
嵌套Logit(NL):. Nested Logit模型 · Nested Logit模型拟合实战案例(SAS篇). Biogeme:. Biogeme入门教程(中文 ...