第9 章Binary choice model | 數量方法(一) - Bookdown

文章推薦指數: 80 %
投票人數:10人

若樣本數有500個,其中y=0 y = 0 的有30個,請問在Probit和Logit模型下, L0 L 0 為多少? 9.5 邊際效果. 迴歸模型: ... 教師基本資訊 課程大綱 電子書 線上討論室 課前應完成項目 討論室/書籤 評分方式 主題內容 參考書籍 Cheatsheets 上課步驟 作業 IPartI:OLS 1OLS 1.1因果關連 1.2效應評估 1.3選擇偏誤 1.4條件式獨立 1.5複迴歸模型 2RinOLS 2.1參考資料 2.2setup 2.3dataframe物件 2.4資料處理:產生新變數dplyr::mutate 2.5因果問句 2.6效應評估 2.7進階關連分析 2.8複迴歸模型 2.9broom 2.10模型比較 IIPartII:Instrumentalvariables 3IV 3.1效應評估模型 3.2最小平方法估計式 3.3選擇性偏誤 3.4複迴歸模型 邏輯推論潛在「選擇性偏誤」 變數訊息拆解 3.5工具變數 變數訊息拆解 3.5.1相關性條件(Relevancecondition) 3.5.2排除條件(Exclusioncondition) 3.5.3兩階段最小平方法 工具變數:香煙稅 3.6兩階段最小平方法 3.7認定條件 3.8幾個範例 EndogeneityBias Neutralityofmoney Laborsupplyandlabordemand 3.9最小平方法的幾何意義 正交投射 範例1:最小平方法 範例2:一個工具變數下的TSLS 範例3:二個工具變數下的TSLS 3.10三個檢定 Q1:排除條件檢定 Q2:工具變數關聯性檢定 Q3:遺漏變數偏誤(OVB)檢定 3.11幾個觀念 4RforIV 4.1setup 4.2資料結構觀察 4.3產生新變數 4.4迴歸模型 設定formulae 4.5OLS估計 OLS結果比較 4.6TSLS估計 假設檢定 IIIPartIII:PanelData 5Panel 5.1效應評估模型 5.2遺漏變數偏誤 5.3訊息拆解 5.4固定效果模型 5.5差分最小平方法 5.6組內差異最小平方法 5.7常見的固定效果模型 5.8認定問題 效應變數變動面向 LSDV虛擬變數個數 5.9廣義的固定效果模型 5.10異質變異 5.11隨機效果模型 5.12Hausman檢定 6Rforpaneldata 6.1引入資料 6.2載入Panel套件:plm 6.3初步資料觀察 6.4組內差異 6.5使用Dummies OLS Randomeffect Fixedeffect 模型比較 6.6Hausman檢定 6.7固定效果 IVPartIV:DifferenceinDifferences 7Difference-in-Differences(DiD)Estimation 7.1效應評估模型 7.2個體資料對上總體變數 7.3訊息拆解 7.4複迴歸模型 7.5固定效果 組固定效果 時間固定效果 資料追踪/不追踪 7.6時間效果固定/不固定 7.7差中差(Difference-in-differences,DD)估計法 7.8DD迴歸模型設計 7.9誤差項自我相關與異質變質 7.10聚類標準誤(clusterstandarderror) 參考資料 8Rfordifference-in-differences 8.1DataImport 8.2資料屬性檢查 8.3不同州,政策前後的改變 8.4繪圖 整理資料格式:tidyr::gather() 繪圖 8.5Difference-in-differences 8.6聚類標準誤:library(clubSandwich) 8.7Panel:Fixedeffect VPartV:DiscreteChoice 9Binarychoicemodel 9.1隨機效用模型(RandomUtilityModel) 9.2最大概似估計法(MaximumLikelihoodEstimation,MLE) 事件發生機率與參數 概似函數 最大概似估計法 9.3ProbitandLogit Probitmodel Logitmodel 9.4配適度 9.5邊際效果 9.6漸近分配 10RforBinaryChoiceModels 10.1二元選擇模型 10.2初步資料觀察 次數分配 條件機率 10.3模型估計 Logit模型 Probit模型 10.4配適度 (McFadden)Pseudo-R2 計算預測準確率 10.5邊際效果 代表性個人 全體邊際效果平均 11Multinomialchoicemodel 11.1Orderedchoice(可排序選擇) Goodness-of-Fit 概似函數 MarginalEffect 11.2Unorderedchoice(不可排序選擇) 11.2.1RandomUtility 11.2.2MultinomialLogitModel 11.2.3Identification 11.2.4MultinomialProbit 12RforMultinomialChoice 12.1多元可排序選擇模型(ordered) 12.2多元不可排序 12.2.1兩種常見資料格式 12.2.2Formula 12.2.3Multinomiallogit 12.2.4MultinomialProbit Appendix AppendixA:線上討論 Hypothes.is Gitterchatroom AppendixB:GitHub 數量方法(一) 第9章Binarychoicemodel 9.1隨機效用模型(RandomUtilityModel) 一個人投票給候選人A受什麼因素影響? 隨機抽出第i位選民,若他投給A,則\(Y_{i}=1\);反之為0。

令 \(U_{i(1)}\):他投給A的效用。

\(U_{i(0)}\):他「不」投給A的效用。

根據效用理論,\(Y_{i}\)的觀察值反應了以下的事實: \[ \begin{cases} U_{i(1)}\geqU_{i(0)}&\RightarrowY_{i}=1\\ U_{i(1)}0) \end{align}\] 其中\(\mathbb{I}(A)\)為事件判斷函數(indicatorfunction),當事件\(A\)發生時,其值為1,反之為0。

在這裡我們的觀察資料只會包含\((Y_i,X_i)\)但不會有潛在變數\(Y^*_i\),因此最小平方估計法無法用在(9.1)。

事件發生機率與參數 隨機抽出的一組樣本是一個實現的事件(event),每個event有其發生的機率(密度)。

某台機器只有會A,B,C三個出象(outcome),每按一次鈕會出現其中一個結果。

假設只有以下兩種機器,它們的差異只有在每個出象出現機率如下: type Pr_A Pr_B Pr_C 機器一 0.1 0.5 0.4 機器二 0.3 0.4 0.3 若按一次鈕得到A,請問樣本事件為什麼?此事件發生機率為多少? 你如果要猜機器型號,你會猜是什麼? 若按二次鈕得到AC,請問樣本事件為什麼?此事件發生機率為多少? 你如果要猜機器型號,你會猜是什麼? 參數(使用符號\(\Theta\))廣義來說是機率(密度)函數的區別標示。

上題的\(\Theta\)是什麼? 若得到AC,則此樣本事件發生機率與參數的關係為何? 概似函數 概似函數(likelihoodfunction)是某個樣本事件下的機率(密度)值與參數間的關係: \[L(\Theta)=\Pr(\text{"agiven"sampleevent}|\Theta)\] 由於是給定一組樣本下的樣本事件(“agiven”sampleevent),有時我們會寫成 \[L(\Theta|\text{somesampleevent})\] 最大概似估計法 若對參數的猜測是以極大化\(L(\Theta)\)為目標,則我們在進行最大概似估計(maximumlikelihoodestimation)。

給定一組樣本\(\{y_i,x_i\}_{i=1,\dots,N}\),(9.1)式的概似函數如何表示? 很多時候我們會極大化取對數後的\(L(\Theta)\),即\(\lnL(\Theta)\)。

9.3ProbitandLogit 迴歸模型: \[\begin{align} Y^*_i&=X_i'\beta+\epsilon_i\tag{9.1} \\ Y_i&=\mathbb{I}(Y_i^*>0) \end{align}\] 為了定義概似函數,我們必假設\(\epsilon_i\)的分配,常見有以下兩種假設,都是以0為中心對稱的分配。

Probitmodel 假設 \[\epsilon_i\simN(0,1)\] 我們習慣用\(\phi(.)\)及\(\Phi(.)\)分別代表\(N(0,1)\)的機率密度函數(pdf)及累積機率分配函數(CDF). 寫下\(\lnL(\beta)\)。

Logitmodel 假設\(\epsilon_i\)的CDF為\(F()\),其中 \[F(w)=\frac{e^w}{1+e^w}\] 令\(f()\)代表其pdf,請問\(f()\)與\(F()\)有什麼關係? 寫下\(\lnL(\beta)\)。

9.4配適度 傳統衡量迴歸模型配適度的\(R^2\)在這裡並不適用。

為什麼\(R^2\)不適用? 常見以下兩種衡量方式: \(Pseudo-R^{2}\): \[Pseudo-R^{2}=1-\frac{\lnL}{\lnL_{0}}\] 其中\(L_0\)為只有\(\{y_i\}\)觀察值而無\(\{x_i\}\)觀察值的最大概似函數值。

預測準確度:依據以下預測原則, \[ \begin{aligned}\hat{Y_{i}}=1&\mbox{if}&F\left(X_{i}^{'}\hat{\beta}\right)\geqq0.5\\ \hat{Y_{i}}=0&\mbox{if}&F\left(X_{i}^{'}\hat{\beta}\right)<0.5 \end{aligned} \] 其中\(\hat{\beta}\)為估計係數值,接著去看猜中的比率有多高。

若樣本數有500個,其中\(y=0\)的有30個,請問在Probit和Logit模型下,\(L_0\)為多少? 9.5邊際效果 迴歸模型: \[ \begin{align} Y^*_i&=\beta_0+\beta_1x_i+\beta_2D_i+\epsilon_i, \\ Y_i&=\mathbb{I}(Y_i^*>0), \end{align} \] 其中\(x_i\)為連續型變數,而\(D_i\)為間斷型變數(包含虛擬變數)。

想了解\(x_i\)、\(D_i\)對\(\Pr(Y_i=1)\)的邊際影響,其中: Probit:\(\Pr(Y_i=1)=\Phi(\beta_0+\beta_1x_i+\beta_2D_i)\) Logit:\(\Pr(Y_i=1)=F(\beta_0+\beta_1x_i+\beta_2D_i)\) \(x\)的邊際效果為: \[\frac{\partial\Pr(Y_i=1|x_i,D_i)}{\partialx_i}\] \(D\)的邊際效果為: \[\Pr(Y_i=1|x_i,D_i=1)-\Pr(Y_i=1|x_i,D_i=0)\] 要注意: 兩者計算方法不同。

兩者都有起始點選擇的問題。

假設樣本觀察值如下: i Y X D 1 1 0.5 1 2 1 0.7 0 3 0 0.2 1 mean 0.47 0.67 9.6漸近分配 令\(\textbf{Y}_i\)代表第i個隨機抽出的觀察值(可以有很多特徵,如此人的身高、體重等)。

\[\hat{\theta}=\arg\max\frac{1}{n}\sum_{i}\lnf\left(\textbf{Y}\mid\theta\right)\] 一階條件: \[\begin{eqnarray} \frac{1}{n}\sum_i\frac{\partial}{\partial\theta}\lnf\left(\textbf{Y}\mid\hat{\theta}\right)=0\tag{9.2} \end{eqnarray}\] 在正常情況下MLE會收斂,故: \[\hat{\theta}\stackrel{p}{\longrightarrow}\theta_0\] 對(9.2)的左式之\(\hat{\theta}\)在\(\theta_0\)值進行一階泰勒展開: \[\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\hat{\theta}\right)\approx\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right)+\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right).\] 故 \[\begin{align} \frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right)&\approx\left(\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\hat{\theta}\right)-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right)\right)\\ &=-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right), \end{align}\] 所以 \[\left(\hat{\theta}-\theta_{0}\right)\approx-\{\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\lnf\left(Y_{i}\mid\theta_{0}\right)\}^{-1}\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\lnf\left(Y_{i}\mid\theta_{0}\right).\] 說明\(\sqrt{n}\left(\hat{\theta}-\theta_{0}\right)\)會有常態漸近分配。

由於概似函數形式中所使用的機率(密度)函數\(f()\)為假設出來的,多數狀況真實機率(密度)函數會與假設不同,此時的估計式我們通常稱為「準最大概似估計式」(Quasi-MaximumLikelihoodEstimator,Quasi-MLE) 若\(\hat{\theta}\)為quasi-MLE,則先前的漸近分配推導是否會有不同?



請為這篇文章評分?