第9 章Binary choice model | 數量方法（一） - Bookdown

2024-11-24

文章推薦指數： 80 %

投票人數：10人

若樣本數有500個，其中y=0 y = 0 的有30個，請問在Probit和Logit模型下, L0 L 0 為多少？ 9.5 邊際效果. 迴歸模型： ... 教師基本資訊課程大綱電子書線上討論室課前應完成項目討論室/書籤評分方式主題內容參考書籍 Cheatsheets 上課步驟作業 IPartI:OLS 1OLS 1.1因果關連 1.2效應評估 1.3選擇偏誤 1.4條件式獨立 1.5複迴歸模型 2RinOLS 2.1參考資料 2.2setup 2.3dataframe物件 2.4資料處理：產生新變數dplyr::mutate 2.5因果問句 2.6效應評估 2.7進階關連分析 2.8複迴歸模型 2.9broom 2.10模型比較 IIPartII:Instrumentalvariables 3IV 3.1效應評估模型 3.2最小平方法估計式 3.3選擇性偏誤 3.4複迴歸模型邏輯推論潛在「選擇性偏誤」變數訊息拆解 3.5工具變數變數訊息拆解 3.5.1相關性條件(Relevancecondition) 3.5.2排除條件(Exclusioncondition) 3.5.3兩階段最小平方法工具變數：香煙稅 3.6兩階段最小平方法 3.7認定條件 3.8幾個範例 EndogeneityBias Neutralityofmoney Laborsupplyandlabordemand 3.9最小平方法的幾何意義正交投射範例1：最小平方法範例2：一個工具變數下的TSLS 範例3：二個工具變數下的TSLS 3.10三個檢定 Q1:排除條件檢定 Q2:工具變數關聯性檢定 Q3:遺漏變數偏誤（OVB）檢定 3.11幾個觀念 4RforIV 4.1setup 4.2資料結構觀察 4.3產生新變數 4.4迴歸模型設定formulae 4.5OLS估計 OLS結果比較 4.6TSLS估計假設檢定 IIIPartIII:PanelData 5Panel 5.1效應評估模型 5.2遺漏變數偏誤 5.3訊息拆解 5.4固定效果模型 5.5差分最小平方法 5.6組內差異最小平方法 5.7常見的固定效果模型 5.8認定問題效應變數變動面向 LSDV虛擬變數個數 5.9廣義的固定效果模型 5.10異質變異 5.11隨機效果模型 5.12Hausman檢定 6Rforpaneldata 6.1引入資料 6.2載入Panel套件：plm 6.3初步資料觀察 6.4組內差異 6.5使用Dummies OLS Randomeffect Fixedeffect 模型比較 6.6Hausman檢定 6.7固定效果 IVPartIV:DifferenceinDifferences 7Difference-in-Differences(DiD)Estimation 7.1效應評估模型 7.2個體資料對上總體變數 7.3訊息拆解 7.4複迴歸模型 7.5固定效果組固定效果時間固定效果資料追踪/不追踪 7.6時間效果固定/不固定 7.7差中差(Difference-in-differences,DD)估計法 7.8DD迴歸模型設計 7.9誤差項自我相關與異質變質 7.10聚類標準誤(clusterstandarderror) 參考資料 8Rfordifference-in-differences 8.1DataImport 8.2資料屬性檢查 8.3不同州，政策前後的改變 8.4繪圖整理資料格式：tidyr::gather() 繪圖 8.5Difference-in-differences 8.6聚類標準誤：library(clubSandwich) 8.7Panel:Fixedeffect VPartV:DiscreteChoice 9Binarychoicemodel 9.1隨機效用模型（RandomUtilityModel） 9.2最大概似估計法(MaximumLikelihoodEstimation,MLE) 事件發生機率與參數概似函數最大概似估計法 9.3ProbitandLogit Probitmodel Logitmodel 9.4配適度 9.5邊際效果 9.6漸近分配 10RforBinaryChoiceModels 10.1二元選擇模型 10.2初步資料觀察次數分配條件機率 10.3模型估計 Logit模型 Probit模型 10.4配適度 (McFadden)Pseudo-R2 計算預測準確率 10.5邊際效果代表性個人全體邊際效果平均 11Multinomialchoicemodel 11.1Orderedchoice（可排序選擇） Goodness-of-Fit 概似函數 MarginalEffect 11.2Unorderedchoice（不可排序選擇） 11.2.1RandomUtility 11.2.2MultinomialLogitModel 11.2.3Identification 11.2.4MultinomialProbit 12RforMultinomialChoice 12.1多元可排序選擇模型(ordered) 12.2多元不可排序 12.2.1兩種常見資料格式 12.2.2Formula 12.2.3Multinomiallogit 12.2.4MultinomialProbit Appendix AppendixA:線上討論 Hypothes.is Gitterchatroom AppendixB:GitHub 數量方法（一）第9章Binarychoicemodel 9.1隨機效用模型（RandomUtilityModel）一個人投票給候選人A受什麼因素影響？隨機抽出第i位選民，若他投給A，則\(Y_{i}=1\)；反之為0。

令 \(U_{i(1)}\)：他投給A的效用。

\(U_{i(0)}\)：他「不」投給A的效用。

根據效用理論，\(Y_{i}\)的觀察值反應了以下的事實： \[ \begin{cases} U_{i(1)}\geqU_{i(0)}&\RightarrowY_{i}=1\\ U_{i(1)}0) \end{align}\] 其中\(\mathbb{I}(A)\)為事件判斷函數(indicatorfunction)，當事件\(A\)發生時，其值為1，反之為0。

在這裡我們的觀察資料只會包含\((Y_i,X_i)\)但不會有潛在變數\(Y^*_i\)，因此最小平方估計法無法用在(9.1)。

事件發生機率與參數隨機抽出的一組樣本是一個實現的事件（event），每個event有其發生的機率（密度）。

某台機器只有會A,B,C三個出象(outcome)，每按一次鈕會出現其中一個結果。

假設只有以下兩種機器，它們的差異只有在每個出象出現機率如下： type Pr_A Pr_B Pr_C 機器一 0.1 0.5 0.4 機器二 0.3 0.4 0.3 若按一次鈕得到A，請問樣本事件為什麼？此事件發生機率為多少？你如果要猜機器型號，你會猜是什麼？若按二次鈕得到AC，請問樣本事件為什麼？此事件發生機率為多少？你如果要猜機器型號，你會猜是什麼？參數(使用符號\(\Theta\))廣義來說是機率（密度）函數的區別標示。

上題的\(\Theta\)是什麼？若得到AC，則此樣本事件發生機率與參數的關係為何？概似函數概似函數（likelihoodfunction）是某個樣本事件下的機率（密度）值與參數間的關係： \[L(\Theta)=\Pr(\text{"agiven"sampleevent}|\Theta)\] 由於是給定一組樣本下的樣本事件（“agiven”sampleevent）,有時我們會寫成 \[L(\Theta|\text{somesampleevent})\] 最大概似估計法若對參數的猜測是以極大化\(L(\Theta)\)為目標，則我們在進行最大概似估計（maximumlikelihoodestimation）。

給定一組樣本\(\{y_i,x_i\}_{i=1,\dots,N}\)，(9.1)式的概似函數如何表示？很多時候我們會極大化取對數後的\(L(\Theta)\)，即\(\lnL(\Theta)\)。

9.3ProbitandLogit 迴歸模型： \[\begin{align} Y^*_i&=X_i'\beta+\epsilon_i\tag{9.1} \\ Y_i&=\mathbb{I}(Y_i^*>0) \end{align}\] 為了定義概似函數，我們必假設\(\epsilon_i\)的分配，常見有以下兩種假設，都是以0為中心對稱的分配。

Probitmodel 假設 \[\epsilon_i\simN(0,1)\] 我們習慣用\(\phi(.)\)及\(\Phi(.)\)分別代表\(N(0,1)\)的機率密度函數(pdf)及累積機率分配函數(CDF). 寫下\(\lnL(\beta)\)。

Logitmodel 假設\(\epsilon_i\)的CDF為\(F()\),其中 \[F(w)=\frac{e^w}{1+e^w}\] 令\(f()\)代表其pdf，請問\(f()\)與\(F()\)有什麼關係？寫下\(\lnL(\beta)\)。

9.4配適度傳統衡量迴歸模型配適度的\(R^2\)在這裡並不適用。

為什麼\(R^2\)不適用？常見以下兩種衡量方式： \(Pseudo-R^{2}\): \[Pseudo-R^{2}=1-\frac{\lnL}{\lnL_{0}}\] 其中\(L_0\)為只有\(\{y_i\}\)觀察值而無\(\{x_i\}\)觀察值的最大概似函數值。

預測準確度：依據以下預測原則， \[ \begin{aligned}\hat{Y_{i}}=1&\mbox{if}&F\left(X_{i}^{'}\hat{\beta}\right)\geqq0.5\\ \hat{Y_{i}}=0&\mbox{if}&F\left(X_{i}^{'}\hat{\beta}\right)<0.5 \end{aligned} \] 其中\(\hat{\beta}\)為估計係數值，接著去看猜中的比率有多高。

若樣本數有500個，其中\(y=0\)的有30個，請問在Probit和Logit模型下,\(L_0\)為多少？ 9.5邊際效果迴歸模型： \[ \begin{align} Y^*_i&=\beta_0+\beta_1x_i+\beta_2D_i+\epsilon_i, \\ Y_i&=\mathbb{I}(Y_i^*>0), \end{align} \] 其中\(x_i\)為連續型變數，而\(D_i\)為間斷型變數（包含虛擬變數）。

想了解\(x_i\)、\(D_i\)對\(\Pr(Y_i=1)\)的邊際影響，其中： Probit：\(\Pr(Y_i=1)=\Phi(\beta_0+\beta_1x_i+\beta_2D_i)\) Logit：\(\Pr(Y_i=1)=F(\beta_0+\beta_1x_i+\beta_2D_i)\) \(x\)的邊際效果為： \[\frac{\partial\Pr(Y_i=1|x_i,D_i)}{\partialx_i}\] \(D\)的邊際效果為： \[\Pr(Y_i=1|x_i,D_i=1)-\Pr(Y_i=1|x_i,D_i=0)\] 要注意：兩者計算方法不同。

兩者都有起始點選擇的問題。

假設樣本觀察值如下： i Y X D 1 1 0.5 1 2 1 0.7 0 3 0 0.2 1 mean 0.47 0.67 9.6漸近分配令\(\textbf{Y}_i\)代表第i個隨機抽出的觀察值（可以有很多特徵，如此人的身高、體重等）。

\[\hat{\theta}=\arg\max\frac{1}{n}\sum_{i}\lnf\left(\textbf{Y}\mid\theta\right)\] 一階條件: \[\begin{eqnarray} \frac{1}{n}\sum_i\frac{\partial}{\partial\theta}\lnf\left(\textbf{Y}\mid\hat{\theta}\right)=0\tag{9.2} \end{eqnarray}\] 在正常情況下MLE會收斂，故: \[\hat{\theta}\stackrel{p}{\longrightarrow}\theta_0\] 對(9.2)的左式之\(\hat{\theta}\)在\(\theta_0\)值進行一階泰勒展開： \[\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\hat{\theta}\right)\approx\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right)+\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right).\] 故 \[\begin{align} \frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right)&\approx\left(\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\hat{\theta}\right)-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right)\right)\\ &=-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right), \end{align}\] 所以 \[\left(\hat{\theta}-\theta_{0}\right)\approx-\{\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\}^{-1}\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right).\] 說明\(\sqrt{n}\left(\hat{\theta}-\theta_{0}\right)\)會有常態漸近分配。

由於概似函數形式中所使用的機率（密度）函數\(f()\)為假設出來的，多數狀況真實機率（密度）函數會與假設不同，此時的估計式我們通常稱為「準最大概似估計式」(Quasi-MaximumLikelihoodEstimator,Quasi-MLE) 若\(\hat{\theta}\)為quasi-MLE，則先前的漸近分配推導是否會有不同？