在统计学中为什么要对变量取对数? - 知乎

Why 取对数?

(1) 缩小数据之间的绝对差异;避免个别极端值的影响

(2) 尽可能满足经典线性模型假定(Classic Linear Model)

  • 避免共线性
  • 避免异方差,满足同方差基本假定
  • 尽可能符合正态分布

(3) 经济学意义

  • 用线性模型估计非线性关系 比如,考虑教育回报方程,相比于“每多接受一年教育,增加的工资相同”,“每多接受一年教育,工资增长的百分数相同”更合理。具体而言,相比于“每多接受一年教育,小时工资都增加 54 美分”,“每多接受一年教育,工资都增长 8%”更合理。因为后者更能刻画工资增长量随受教育程度的增加而增加的规律,即教育回报递增,受教育程度对工资水平的偏效应随着受教育程度的增加而增加(见 Wooldridge 的 Introductory Econometrics,2009,4e,pp.43)。
  • 直接估计弹性/半弹性 弹性是经济学中一个重要指标,衡量了一个变量的百分比变动会导致另一个变量百分比变动的程度。半弹性,即因变量取对数,自变量不取,表示自变量变动一个单位引起因变量多少的百分比变化。 比如产出对资本和工人劳动时间回归,变量都取对数。

产量资本劳动时间ln⁡( 产量 Y)=α0+α1ln⁡( 资本 K)+α2ln⁡( 劳动时间 L)∂ln⁡(Y)∂ln⁡(K)=∂YY∂KK=KY∂Y∂K=ϵYK\begin{gathered} \ln (\text { 产量 } Y)=\alpha_{0}+\alpha_{1} \ln (\text { 资本 } K)+\alpha_{2} \ln (\text { 劳动时间 } L) \ \frac{\partial \ln (Y)}{\partial \ln (K)}=\frac{\frac{\partial Y}{Y}}{\frac{\partial K}{K}}=\frac{K}{Y} \frac{\partial Y}{\partial K}=\epsilon_{Y K} \end{gathered} \\

因此 α1\alpha_{1} 就表示资本变化 1%1 \%, 产量变动百分之 100∗ϵYK%100 * \epsilon_{Y K} \% , 则 α1\alpha_{1} 表示弹性。

  • 取对数背后的经济理论模型 " 上述这个例子中,如果背后假设的是 CD 生产函数。
    Y=eα0Kα1Lα2Y=e^{\alpha_{0}} K^{\alpha_{1}} L^{\alpha_{2}} \ 其中, eα0e^{\alpha_{0}} 是全要素生产率,在 α0\alpha_{0} 上加一个扰动,再两端取对数即回归模型, 由此, 回归方程式里的参数都能对应到模型中的参数,此时, 回归从一个 reduced-form 变为了 structural-form 。
  • 经济理论模型中,某些变量本身就以对数形式存在,则应取对数 比如,劳动经济学中研究教育投资回报率的决定因素,通常以工资对数为被解释变量,这是从 Mincer 模型推导出来的。
  • 为更便于研究,可能会取对数。

How 取对数?

  • 当数据均为正数时,可直接取对数;当数据为非负数据,且有较多 0 时,可 ln(x+1),尽可能保留更多的样本;当数据存在负数时,可能需要再看一下数据本身是否存在问题,此时没法直接取对数。
  • Stata 中,log(·)和 ln(·)都以自然对数为底。如果要换底,比如 log10(·)表示以 10 为底。

如何解释估计系数?

取对数意味着什么?

将 log⁡(y)\log (y) 在 y0y_{0} 处 Taylor 展开,

log⁡(y)=log⁡(y0)+1y0(y−y0)⇒Δlog⁡(y)=(y−y0)y0⇒100∗Δlog⁡(y)≈%Δy\begin{gathered} \log (y)=\log \left(y_{0}\right)+\frac{1}{y_{0}}\left(y-y_{0}\right) \ \Rightarrow \Delta \log (y)=\frac{\left(y-y_{0}\right)}{y_{0}} \ \Rightarrow 100 * \Delta \log (y) \approx \% \Delta y \end{gathered} \\

可发现,取对数后的变量的变动(变量对数的变动*100)近似等于变量的百分比变动 (增长率)。

对数-水平模型:YY 取对数 β1\beta_{1} 的解释,考虑度量单位变换

(1) 简单估计

考虑工资方程

log⁡(wage)=β0+β1educ+u\log (w a g e)=\beta_{0}+\beta_{1} e d u c+u \\

估计系数 β1\beta_{1} 的解释可从下式中获知:

Δlog⁡(wage)=β1Δeduc%Δwage≈(100⋅β1)Δeduc\begin{gathered} \Delta \log (w a g e)=\beta_{1} \Delta e d u c \ \% \Delta w a g e \approx\left(100 \cdot \beta_{1}\right) \Delta e d u c \end{gathered} \\

即每多接受一年教育,工资将增加 100∗β1%100 \beta_{1} \% 。 NB 变量对数的变动 100 近似变量的百分比变动, 上式等式左侧 * 100, 根据度量单位变 换相关知识, 解释估计系数 β1\beta_{1} 时也要 * 100 。

(2) 精确估计

如果要精确估计 xx 变动一单位, yy 变动多少,则考虑

log⁡(y1)−log⁡(y0)=β1Δxlog⁡(y1y0)=β1Δxy1−y0y0=exp⁡(β1)−1%Δy=100∗[exp⁡(β1)−1]\begin{gathered} \log \left(y_{1}\right)-\log \left(y_{0}\right)=\beta_{1} \Delta x \ \log \left(\frac{y_{1}}{y_{0}}\right)=\beta_{1} \Delta x \ \frac{y_{1}-y_{0}}{y_{0}}=\exp \left(\beta_{1}\right)-1 \ \% \Delta y=100 *\left[\exp \left(\beta_{1}\right)-1\right] \end{gathered} \\

(3) 举例

log⁡( wage )^=0.584+0.083$educ$\log \widehat{(\text { wage })}=0.584+0.083 $educ$ \\

其中,0.0830.083 意味着每多受一年教育将带来小时工资增长 8.38.3%; 而精确估计下,多受一年 教育将带来小时工资增长 8.658.65%。

当 X 为哑变量 现在,我们研究这样一个问题 : 年轻的时候上私立学校到底会不会对之后的劳动回报产生影响?

最简单的思路是观察这样一个回归模型:

ln⁡Yi=α+βPi+ei\ln Y_{i}=\alpha+\beta P_{i}+e_{i} \\

其中 YiY_{i} 表示 ii 参加工作之后的工资水平, PiP_{i} 等于 1 意味着年轻的时候渎私立学校, 0 意味着读公立学校, eie_{i} 则代表了影响 工资的经济学家观测不到的其它因素, 如个人能力。

上述模型,在“其它变量保持不变的情况下",一个年轻时候读私立学校的员工工作之后的收入是:

ln⁡Yi,Pi=1=α+β+ei\ln Y_{i, P_{i}=1}=\alpha+\beta+e_{i} \\

而一个年轻时候读公立学校的员工参加工作之后的收入是:

ln⁡Yi,Pi=0=α+ei\ln Y_{i, P_{i}=0}=\alpha+e_{i} \\

模型对于系数 β\beta 的解释是读公立学校和读私立学校给员工 ii 的收入带来的潜在影响差:

ln⁡Yi,Pi=1−ln⁡Yi,Pi=0=β\ln Y_{i, P_{i}=1}-\ln Y_{i, P_{i}=0}=\beta \\

这意味着系数 β\beta 具备的意义是:

β=ln⁡Yi,Pi=1Yi,Pi=0=ln⁡(1+Yi,Pi=1−Yi,Pi=0Yi,Pi=0)=ln⁡(1+Δ%Yp)≈Δ%Yp\beta=\ln \frac{Y_{i, P_{i}=1}}{Y_{i, P_{i}=0}}=\ln \left(1+\frac{Y_{i, P_{i}=1}-Y_{i, P_{i}=0}}{Y_{i, P_{i}=0}}\right)=\ln \left(1+\Delta \% Y_{p}\right) \approx \Delta \% Y_{p} \\

也就是说 : 当找们把输出变量取对数时,所得到的模型估计的结果近似告诉我们相比读公立学校,私立学校对未来收入造成的百分比影响。

水平-对数模型:X 取对数 一个 XX 取对数, YY 为百分数的例子 研究学校规模对学生成绩的影响, 估计出如下模型 (见 Wooldridge 的 Introductory Econometrics, 2009, 4e, pp.126-128) 。

math1^0=−207.66+21.16log⁡( totcomp )+3.98log⁡(staff)−1.29log⁡( enroll )\widehat{m a t h 1} 0=-207.66+21.16 \log (\text { totcomp })+3.98 \log (s t a f f)-1.29 \log (\text { enroll }) \\

其中, math10m a t h 10 表示标准化十分制数学测验通过百分比, totcom⁡pt o t \operatorname{com} p 年均教师薪资; staffs t a f f 平均每干名学生拥有的教职工 人数; enrolle n r o l l 表示学校注册人数,用以衡量学校规模。 如何解释- 1.291.29 这一估计系数呢? NB×\mathrm{NB} \times 取对数后,要解释为 xx 的百分比变动,则意味着解释变量的度量单位乘以 100 , 则估计系数的解释要除以 100。

Δ math 10^≈−(1.29/100)(%Δ enroll )≈−0.013(%Δ enroll )\Delta \widehat{\text { math } 10} \approx-(1.29 / 100)(\% \Delta \text { enroll }) \approx-0.013(\% \Delta \text { enroll }) \\

可以解释为, 学校注册人数每增加 10%10 \%, 预计数学测验通过率将下降 0.130.13 个百分点(注意, math10math10 为百分比,取值 35.335.3 则表示 35.3%35.3 \% 的学生通过测验) 。

详细内容参见连享会推文

相关推文

Note:产生如下推文列表的 Stata 命令为:
. lianxh 系数
. songbl 系数
安装最新版 lianxh/ songbl 命令:
. ssc install lianxh, replace
. ssc install songbl, replace

原网址: 访问
创建于: 2024-03-06 17:21:14
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论