第9 章Binary choice model | 數量方法(一) - Bookdown
文章推薦指數: 80 %
若樣本數有500個,其中y=0 y = 0 的有30個,請問在Probit和Logit模型下, L0 L 0 為多少? 9.5 邊際效果. 迴歸模型: ...
教師基本資訊
課程大綱
電子書
線上討論室
課前應完成項目
討論室/書籤
評分方式
主題內容
參考書籍
Cheatsheets
上課步驟
作業
IPartI:OLS
1OLS
1.1因果關連
1.2效應評估
1.3選擇偏誤
1.4條件式獨立
1.5複迴歸模型
2RinOLS
2.1參考資料
2.2setup
2.3dataframe物件
2.4資料處理:產生新變數dplyr::mutate
2.5因果問句
2.6效應評估
2.7進階關連分析
2.8複迴歸模型
2.9broom
2.10模型比較
IIPartII:Instrumentalvariables
3IV
3.1效應評估模型
3.2最小平方法估計式
3.3選擇性偏誤
3.4複迴歸模型
邏輯推論潛在「選擇性偏誤」
變數訊息拆解
3.5工具變數
變數訊息拆解
3.5.1相關性條件(Relevancecondition)
3.5.2排除條件(Exclusioncondition)
3.5.3兩階段最小平方法
工具變數:香煙稅
3.6兩階段最小平方法
3.7認定條件
3.8幾個範例
EndogeneityBias
Neutralityofmoney
Laborsupplyandlabordemand
3.9最小平方法的幾何意義
正交投射
範例1:最小平方法
範例2:一個工具變數下的TSLS
範例3:二個工具變數下的TSLS
3.10三個檢定
Q1:排除條件檢定
Q2:工具變數關聯性檢定
Q3:遺漏變數偏誤(OVB)檢定
3.11幾個觀念
4RforIV
4.1setup
4.2資料結構觀察
4.3產生新變數
4.4迴歸模型
設定formulae
4.5OLS估計
OLS結果比較
4.6TSLS估計
假設檢定
IIIPartIII:PanelData
5Panel
5.1效應評估模型
5.2遺漏變數偏誤
5.3訊息拆解
5.4固定效果模型
5.5差分最小平方法
5.6組內差異最小平方法
5.7常見的固定效果模型
5.8認定問題
效應變數變動面向
LSDV虛擬變數個數
5.9廣義的固定效果模型
5.10異質變異
5.11隨機效果模型
5.12Hausman檢定
6Rforpaneldata
6.1引入資料
6.2載入Panel套件:plm
6.3初步資料觀察
6.4組內差異
6.5使用Dummies
OLS
Randomeffect
Fixedeffect
模型比較
6.6Hausman檢定
6.7固定效果
IVPartIV:DifferenceinDifferences
7Difference-in-Differences(DiD)Estimation
7.1效應評估模型
7.2個體資料對上總體變數
7.3訊息拆解
7.4複迴歸模型
7.5固定效果
組固定效果
時間固定效果
資料追踪/不追踪
7.6時間效果固定/不固定
7.7差中差(Difference-in-differences,DD)估計法
7.8DD迴歸模型設計
7.9誤差項自我相關與異質變質
7.10聚類標準誤(clusterstandarderror)
參考資料
8Rfordifference-in-differences
8.1DataImport
8.2資料屬性檢查
8.3不同州,政策前後的改變
8.4繪圖
整理資料格式:tidyr::gather()
繪圖
8.5Difference-in-differences
8.6聚類標準誤:library(clubSandwich)
8.7Panel:Fixedeffect
VPartV:DiscreteChoice
9Binarychoicemodel
9.1隨機效用模型(RandomUtilityModel)
9.2最大概似估計法(MaximumLikelihoodEstimation,MLE)
事件發生機率與參數
概似函數
最大概似估計法
9.3ProbitandLogit
Probitmodel
Logitmodel
9.4配適度
9.5邊際效果
9.6漸近分配
10RforBinaryChoiceModels
10.1二元選擇模型
10.2初步資料觀察
次數分配
條件機率
10.3模型估計
Logit模型
Probit模型
10.4配適度
(McFadden)Pseudo-R2
計算預測準確率
10.5邊際效果
代表性個人
全體邊際效果平均
11Multinomialchoicemodel
11.1Orderedchoice(可排序選擇)
Goodness-of-Fit
概似函數
MarginalEffect
11.2Unorderedchoice(不可排序選擇)
11.2.1RandomUtility
11.2.2MultinomialLogitModel
11.2.3Identification
11.2.4MultinomialProbit
12RforMultinomialChoice
12.1多元可排序選擇模型(ordered)
12.2多元不可排序
12.2.1兩種常見資料格式
12.2.2Formula
12.2.3Multinomiallogit
12.2.4MultinomialProbit
Appendix
AppendixA:線上討論
Hypothes.is
Gitterchatroom
AppendixB:GitHub
數量方法(一)
第9章Binarychoicemodel
9.1隨機效用模型(RandomUtilityModel)
一個人投票給候選人A受什麼因素影響?
隨機抽出第i位選民,若他投給A,則\(Y_{i}=1\);反之為0。
令
\(U_{i(1)}\):他投給A的效用。
\(U_{i(0)}\):他「不」投給A的效用。
根據效用理論,\(Y_{i}\)的觀察值反應了以下的事實:
\[
\begin{cases}
U_{i(1)}\geqU_{i(0)}&\RightarrowY_{i}=1\\
U_{i(1)}
在這裡我們的觀察資料只會包含\((Y_i,X_i)\)但不會有潛在變數\(Y^*_i\),因此最小平方估計法無法用在(9.1)。
事件發生機率與參數
隨機抽出的一組樣本是一個實現的事件(event),每個event有其發生的機率(密度)。
某台機器只有會A,B,C三個出象(outcome),每按一次鈕會出現其中一個結果。
假設只有以下兩種機器,它們的差異只有在每個出象出現機率如下:
type
Pr_A
Pr_B
Pr_C
機器一
0.1
0.5
0.4
機器二
0.3
0.4
0.3
若按一次鈕得到A,請問樣本事件為什麼?此事件發生機率為多少?
你如果要猜機器型號,你會猜是什麼?
若按二次鈕得到AC,請問樣本事件為什麼?此事件發生機率為多少?
你如果要猜機器型號,你會猜是什麼?
參數(使用符號\(\Theta\))廣義來說是機率(密度)函數的區別標示。
上題的\(\Theta\)是什麼?
若得到AC,則此樣本事件發生機率與參數的關係為何?
概似函數
概似函數(likelihoodfunction)是某個樣本事件下的機率(密度)值與參數間的關係:
\[L(\Theta)=\Pr(\text{"agiven"sampleevent}|\Theta)\]
由於是給定一組樣本下的樣本事件(“agiven”sampleevent),有時我們會寫成
\[L(\Theta|\text{somesampleevent})\]
最大概似估計法
若對參數的猜測是以極大化\(L(\Theta)\)為目標,則我們在進行最大概似估計(maximumlikelihoodestimation)。
給定一組樣本\(\{y_i,x_i\}_{i=1,\dots,N}\),(9.1)式的概似函數如何表示?
很多時候我們會極大化取對數後的\(L(\Theta)\),即\(\lnL(\Theta)\)。
9.3ProbitandLogit
迴歸模型:
\[\begin{align}
Y^*_i&=X_i'\beta+\epsilon_i\tag{9.1}
\\
Y_i&=\mathbb{I}(Y_i^*>0)
\end{align}\]
為了定義概似函數,我們必假設\(\epsilon_i\)的分配,常見有以下兩種假設,都是以0為中心對稱的分配。
Probitmodel
假設
\[\epsilon_i\simN(0,1)\]
我們習慣用\(\phi(.)\)及\(\Phi(.)\)分別代表\(N(0,1)\)的機率密度函數(pdf)及累積機率分配函數(CDF).
寫下\(\lnL(\beta)\)。
Logitmodel
假設\(\epsilon_i\)的CDF為\(F()\),其中
\[F(w)=\frac{e^w}{1+e^w}\]
令\(f()\)代表其pdf,請問\(f()\)與\(F()\)有什麼關係?
寫下\(\lnL(\beta)\)。
9.4配適度
傳統衡量迴歸模型配適度的\(R^2\)在這裡並不適用。
為什麼\(R^2\)不適用?
常見以下兩種衡量方式:
\(Pseudo-R^{2}\):
\[Pseudo-R^{2}=1-\frac{\lnL}{\lnL_{0}}\]
其中\(L_0\)為只有\(\{y_i\}\)觀察值而無\(\{x_i\}\)觀察值的最大概似函數值。
預測準確度:依據以下預測原則,
\[
\begin{aligned}\hat{Y_{i}}=1&\mbox{if}&F\left(X_{i}^{'}\hat{\beta}\right)\geqq0.5\\
\hat{Y_{i}}=0&\mbox{if}&F\left(X_{i}^{'}\hat{\beta}\right)<0.5
\end{aligned}
\]
其中\(\hat{\beta}\)為估計係數值,接著去看猜中的比率有多高。
若樣本數有500個,其中\(y=0\)的有30個,請問在Probit和Logit模型下,\(L_0\)為多少?
9.5邊際效果
迴歸模型:
\[
\begin{align}
Y^*_i&=\beta_0+\beta_1x_i+\beta_2D_i+\epsilon_i,
\\
Y_i&=\mathbb{I}(Y_i^*>0),
\end{align}
\]
其中\(x_i\)為連續型變數,而\(D_i\)為間斷型變數(包含虛擬變數)。
想了解\(x_i\)、\(D_i\)對\(\Pr(Y_i=1)\)的邊際影響,其中:
Probit:\(\Pr(Y_i=1)=\Phi(\beta_0+\beta_1x_i+\beta_2D_i)\)
Logit:\(\Pr(Y_i=1)=F(\beta_0+\beta_1x_i+\beta_2D_i)\)
\(x\)的邊際效果為:
\[\frac{\partial\Pr(Y_i=1|x_i,D_i)}{\partialx_i}\]
\(D\)的邊際效果為:
\[\Pr(Y_i=1|x_i,D_i=1)-\Pr(Y_i=1|x_i,D_i=0)\]
要注意:
兩者計算方法不同。
兩者都有起始點選擇的問題。
假設樣本觀察值如下:
i
Y
X
D
1
1
0.5
1
2
1
0.7
0
3
0
0.2
1
mean
0.47
0.67
9.6漸近分配
令\(\textbf{Y}_i\)代表第i個隨機抽出的觀察值(可以有很多特徵,如此人的身高、體重等)。
\[\hat{\theta}=\arg\max\frac{1}{n}\sum_{i}\lnf\left(\textbf{Y}\mid\theta\right)\]
一階條件:
\[\begin{eqnarray}
\frac{1}{n}\sum_i\frac{\partial}{\partial\theta}\lnf\left(\textbf{Y}\mid\hat{\theta}\right)=0\tag{9.2}
\end{eqnarray}\]
在正常情況下MLE會收斂,故:
\[\hat{\theta}\stackrel{p}{\longrightarrow}\theta_0\]
對(9.2)的左式之\(\hat{\theta}\)在\(\theta_0\)值進行一階泰勒展開:
\[\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\hat{\theta}\right)\approx\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right)+\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right).\]
故
\[\begin{align}
\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right)&\approx\left(\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\hat{\theta}\right)-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right)\right)\\
&=-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right),
\end{align}\]
所以
\[\left(\hat{\theta}-\theta_{0}\right)\approx-\{\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\}^{-1}\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right).\]
說明\(\sqrt{n}\left(\hat{\theta}-\theta_{0}\right)\)會有常態漸近分配。
由於概似函數形式中所使用的機率(密度)函數\(f()\)為假設出來的,多數狀況真實機率(密度)函數會與假設不同,此時的估計式我們通常稱為「準最大概似估計式」(Quasi-MaximumLikelihoodEstimator,Quasi-MLE)
若\(\hat{\theta}\)為quasi-MLE,則先前的漸近分配推導是否會有不同?
延伸文章資訊
- 1多元概率比回歸模型 - MBA智库百科
Probit模型和Logit模型的思路很相似,但在具體的計算方法和假設前提上又有一定的差異,主要體現在三個方面:. 一是假設前提不同,Logit不需要嚴格的假設條件,而Probit則 ...
- 2Logit vs Probit Models: Differences, Examples - Data Analytics
Logit and probit models are statistical models that are used to model binary or dichotomous depen...
- 3Logit/Probit Model - RPubs
3 Logit 模型的基本原理. 4 最大概似法(MLE)原理. 4.1 最大概似法求解. 4.1.1 常態分佈. 4.2 二元 ...
- 4第9 章Binary choice model | 數量方法(一) - Bookdown
若樣本數有500個,其中y=0 y = 0 的有30個,請問在Probit和Logit模型下, L0 L 0 為多少? 9.5 邊際效果. 迴歸模型: ...
- 511.2 Probit and Logit Regression
Probit and Logit models are harder to interpret but capture the nonlinearities better than the li...