在统计学中为什么要对变量取对数？ - 知乎

安宇雨 - 随手采集
2024-03-06 17:21:14
随手采集
0000-未整理-等待研究

Why 取对数？

(1) 缩小数据之间的绝对差异；避免个别极端值的影响

(2) 尽可能满足经典线性模型假定（Classic Linear Model）

避免共线性
避免异方差，满足同方差基本假定
尽可能符合正态分布

(3) 经济学意义

用线性模型估计非线性关系比如，考虑教育回报方程，相比于“每多接受一年教育，增加的工资相同”，“每多接受一年教育，工资增长的百分数相同”更合理。具体而言，相比于“每多接受一年教育，小时工资都增加 54 美分”，“每多接受一年教育，工资都增长 8%”更合理。因为后者更能刻画工资增长量随受教育程度的增加而增加的规律，即教育回报递增，受教育程度对工资水平的偏效应随着受教育程度的增加而增加（见 Wooldridge 的 Introductory Econometrics，2009，4e，pp.43）。
直接估计弹性/半弹性弹性是经济学中一个重要指标，衡量了一个变量的百分比变动会导致另一个变量百分比变动的程度。半弹性，即因变量取对数，自变量不取，表示自变量变动一个单位引起因变量多少的百分比变化。比如产出对资本和工人劳动时间回归，变量都取对数。

产量资本劳动时间ln⁡( 产量 Y)=α0+α1ln⁡( 资本 K)+α2ln⁡( 劳动时间 L)∂ln⁡(Y)∂ln⁡(K)=∂YY∂KK=KY∂Y∂K=ϵYK\begin{gathered} \ln (\text { 产量 } Y)=\alpha_{0}+\alpha_{1} \ln (\text { 资本 } K)+\alpha_{2} \ln (\text { 劳动时间 } L) \ \frac{\partial \ln (Y)}{\partial \ln (K)}=\frac{\frac{\partial Y}{Y}}{\frac{\partial K}{K}}=\frac{K}{Y} \frac{\partial Y}{\partial K}=\epsilon_{Y K} \end{gathered} \\

因此 α1\alpha_{1} 就表示资本变化 1%1 \%, 产量变动百分之 100∗ϵYK%100 * \epsilon_{Y K} \% ，则 α1\alpha_{1} 表示弹性。

取对数背后的经济理论模型 " 上述这个例子中，如果背后假设的是 CD 生产函数。
Y=eα0Kα1Lα2Y=e^{\alpha_{0}} K^{\alpha_{1}} L^{\alpha_{2}} \ 其中， eα0e^{\alpha_{0}} 是全要素生产率，在 α0\alpha_{0} 上加一个扰动，再两端取对数即回归模型, 由此，回归方程式里的参数都能对应到模型中的参数，此时, 回归从一个 reduced-form 变为了 structural-form 。
经济理论模型中，某些变量本身就以对数形式存在，则应取对数比如，劳动经济学中研究教育投资回报率的决定因素，通常以工资对数为被解释变量，这是从 Mincer 模型推导出来的。
为更便于研究，可能会取对数。

How 取对数？

当数据均为正数时，可直接取对数；当数据为非负数据，且有较多 0 时，可 ln(x+1)，尽可能保留更多的样本；当数据存在负数时，可能需要再看一下数据本身是否存在问题，此时没法直接取对数。
Stata 中，log(·)和 ln(·)都以自然对数为底。如果要换底，比如 log10(·)表示以 10 为底。

如何解释估计系数？

取对数意味着什么？

将 log⁡(y)\log (y) 在 y0y_{0} 处 Taylor 展开,

log⁡(y)=log⁡(y0)+1y0(y−y0)⇒Δlog⁡(y)=(y−y0)y0⇒100∗Δlog⁡(y)≈%Δy\begin{gathered} \log (y)=\log \left(y_{0}\right)+\frac{1}{y_{0}}\left(y-y_{0}\right) \ \Rightarrow \Delta \log (y)=\frac{\left(y-y_{0}\right)}{y_{0}} \ \Rightarrow 100 * \Delta \log (y) \approx \% \Delta y \end{gathered} \\

可发现，取对数后的变量的变动（变量对数的变动*100）近似等于变量的百分比变动 (增长率)。

对数-水平模型：YY 取对数 β1\beta_{1} 的解释，考虑度量单位变换

(1) 简单估计

考虑工资方程

log⁡(wage)=β0+β1educ+u\log (w a g e)=\beta_{0}+\beta_{1} e d u c+u \\

估计系数 β1\beta_{1} 的解释可从下式中获知:

Δlog⁡(wage)=β1Δeduc%Δwage≈(100⋅β1)Δeduc\begin{gathered} \Delta \log (w a g e)=\beta_{1} \Delta e d u c \ \% \Delta w a g e \approx\left(100 \cdot \beta_{1}\right) \Delta e d u c \end{gathered} \\

即每多接受一年教育，工资将增加 100∗β1%100 \beta_{1} \% 。 NB 变量对数的变动 100 近似变量的百分比变动，上式等式左侧 * 100, 根据度量单位变换相关知识, 解释估计系数 β1\beta_{1} 时也要 * 100 。

(2) 精确估计

如果要精确估计 xx 变动一单位, yy 变动多少，则考虑

log⁡(y1)−log⁡(y0)=β1Δxlog⁡(y1y0)=β1Δxy1−y0y0=exp⁡(β1)−1%Δy=100∗[exp⁡(β1)−1]\begin{gathered} \log \left(y_{1}\right)-\log \left(y_{0}\right)=\beta_{1} \Delta x \ \log \left(\frac{y_{1}}{y_{0}}\right)=\beta_{1} \Delta x \ \frac{y_{1}-y_{0}}{y_{0}}=\exp \left(\beta_{1}\right)-1 \ \% \Delta y=100 *\left[\exp \left(\beta_{1}\right)-1\right] \end{gathered} \\

(3) 举例

log⁡( wage )^=0.584+0.083$educ$\log \widehat{(\text { wage })}=0.584+0.083 $educ$ \\

其中，0.0830.083 意味着每多受一年教育将带来小时工资增长 8.38.3%; 而精确估计下，多受一年教育将带来小时工资增长 8.658.65%。

当 X 为哑变量时 现在，我们研究这样一个问题 : 年轻的时候上私立学校到底会不会对之后的劳动回报产生影响？

最简单的思路是观察这样一个回归模型：

ln⁡Yi=α+βPi+ei\ln Y_{i}=\alpha+\beta P_{i}+e_{i} \\

其中 YiY_{i} 表示 ii 参加工作之后的工资水平， PiP_{i} 等于 1 意味着年轻的时候渎私立学校, 0 意味着读公立学校, eie_{i} 则代表了影响工资的经济学家观测不到的其它因素, 如个人能力。

上述模型，在“其它变量保持不变的情况下"，一个年轻时候读私立学校的员工工作之后的收入是:

ln⁡Yi,Pi=1=α+β+ei\ln Y_{i, P_{i}=1}=\alpha+\beta+e_{i} \\

而一个年轻时候读公立学校的员工参加工作之后的收入是：

ln⁡Yi,Pi=0=α+ei\ln Y_{i, P_{i}=0}=\alpha+e_{i} \\

模型对于系数 β\beta 的解释是读公立学校和读私立学校给员工 ii 的收入带来的潜在影响差:

ln⁡Yi,Pi=1−ln⁡Yi,Pi=0=β\ln Y_{i, P_{i}=1}-\ln Y_{i, P_{i}=0}=\beta \\

这意味着系数 β\beta 具备的意义是:

β=ln⁡Yi,Pi=1Yi,Pi=0=ln⁡(1+Yi,Pi=1−Yi,Pi=0Yi,Pi=0)=ln⁡(1+Δ%Yp)≈Δ%Yp\beta=\ln \frac{Y_{i, P_{i}=1}}{Y_{i, P_{i}=0}}=\ln \left(1+\frac{Y_{i, P_{i}=1}-Y_{i, P_{i}=0}}{Y_{i, P_{i}=0}}\right)=\ln \left(1+\Delta \% Y_{p}\right) \approx \Delta \% Y_{p} \\

也就是说 : 当找们把输出变量取对数时，所得到的模型估计的结果近似告诉我们相比读公立学校，私立学校对未来收入造成的百分比影响。

水平-对数模型：X 取对数 一个 XX 取对数, YY 为百分数的例子研究学校规模对学生成绩的影响, 估计出如下模型 (见 Wooldridge 的 Introductory Econometrics, 2009, 4e, pp.126-128) 。

math1^0=−207.66+21.16log⁡( totcomp )+3.98log⁡(staff)−1.29log⁡( enroll )\widehat{m a t h 1} 0=-207.66+21.16 \log (\text { totcomp })+3.98 \log (s t a f f)-1.29 \log (\text { enroll }) \\

其中, math10m a t h 10 表示标准化十分制数学测验通过百分比， totcom⁡pt o t \operatorname{com} p 年均教师薪资; staffs t a f f 平均每干名学生拥有的教职工人数; enrolle n r o l l 表示学校注册人数，用以衡量学校规模。如何解释- 1.291.29 这一估计系数呢? NB×\mathrm{NB} \times 取对数后，要解释为 xx 的百分比变动，则意味着解释变量的度量单位乘以 100 ，则估计系数的解释要除以 100。

Δ math 10^≈−(1.29/100)(%Δ enroll )≈−0.013(%Δ enroll )\Delta \widehat{\text { math } 10} \approx-(1.29 / 100)(\% \Delta \text { enroll }) \approx-0.013(\% \Delta \text { enroll }) \\

可以解释为, 学校注册人数每增加 10%10 \%, 预计数学测验通过率将下降 0.130.13 个百分点(注意, math10math10 为百分比，取值 35.335.3 则表示 35.3%35.3 \% 的学生通过测验) 。

详细内容参见连享会推文

专题：数据处理
取对数！取对数？