学生 | 教职工 | 校友 | 未来学生 | 招聘与访客
 

当前位置: 天财首页 >> 专题 >> 抗疫不停研 >> 正文


 
抗“疫”不停研,导师助研系列之一:白仲林--经验分析中的“看图说话”
2020-03-10 09:09   研究生院

编者按:同学们好!科研能力的培养是研究生教育的重要环节,疫情期间,论文写作和科学研究绝不能停歇,为此研究生院特别邀请了几位校内优秀的研究生导师,教大家如何宅在家中搞学术。今天第一期,我们有幸邀请到了统计学院的白仲林教授,跟大家聊聊经验分析方法中的看图说话。

“看图说话”是人类认识世界的基本方法之一,遍布于启蒙教育、基础教育和高等教育等各个阶段和各门学科。经验分析方法中的“看图说话”便是认识样本数据、完成数据预处理和设计(选择)经验分析方法的过程。

样本数据既是经验分析的对象、也是模型选择的依据,更是影响研究结论及其稳健性的根本因素。所以,认识样本数据是科学开展经验分析的基础。这里简单梳理认识样本数据的相关内容。

众所周知,经验分析按照目的可划分为两类。一类是揭示各随机变量的数据生成过程,即随机变量的概率分布。如上海股票市场上证指数收益率的概率分布、我国妇女工资的分布和疫情期间各地新型冠状肺炎确诊病例数的分布,并以此服务于投资者的投资决策、我国妇女的就业决策和政府的防控疫情策略选择。另一类是发现随机变量的条件分布,即揭示随机变量之间的相关性和因果性。例如,揭示宏观经济波动与经济政策选择、就业培训项目与就业、“武汉封城”对其他地区新型冠状肺炎确诊病例数的影响,并依据这些条件分布的期望、分位数和众数等数字特征反映经济政策的宏观经济调控效应、就业培训项目的有效性和“武汉封城”策略控制疫情扩散的作用。

显然,利用样本数据认识随机变量的分布是最直接的途径之一。在经验分析之前,认识样本主要包括如下几方面工作。

一、 区分变量类型

在经验分析中,变量的分类通常有两种,一种是按照变量的因果性划分,另一种是按照变量的可观测性区分。

(1)因果性

根据研究目的按照因果性将变量划分为被解释变量与解释变量、结果变量与处理变量(原因变量)、或者依赖变量与独立变量。

被解释变量(结果变量或依赖变量)是经验研究的焦点,揭示被解释变量的边缘分布或者条件发布是经验研究的最终目的。于是,认识他们的样本是“看图说话”最主要的内容。在使用描述性统计量(最小值、最大值、均值、中位数、众数或标准差等)或者统计图(直方图、核密度函数图、折线图或散点图等)对被解释变量进行“看图说话”时,研究者须关注如下四个点。

(i)被解释变量的取值类型

被解释变量的取值类型有连续型、离散型、(离散与连续)混合型之分,它们决定了计量经济学模型的选择。对连续型被解释变量一般可设定为基于LS(OLS、GLS、2LS、NLS)方法估计的回归模型;离散型被解释变量须根据离散取值的特征(频数、分类、顺序)选择使用ML方法估计的(计数、多元选择、有序选择)回归模型;对于混合型的被解释变量通常是将前两类模型进行合并,利用ML方法估计。

(ii)被解释变量的分布类型

被解释变量的分布类型不仅决定了模型随机误差项的分布,而且决定了是否对被解释变量进行函数变换(取对数),同时也影响着计量经济学模型设定。如果被解释变量样本的核密度函数或直方图近似于正态分布,则可设定随机误差项服从正态分布的回归模型开展经验研究;否则,既可以考虑对被解释变量进行(取对数等)函数变换后再分析;也可考虑增加二阶矩方程的设定,例如,增加ARCH或GARCH等方程;以及依据被解释变量样本的核密度函数或直方图是否对称(中位数与均值差异)选择设定均值回归模型还是分位数回归模型;等等。

(iii)被解释变量样本的抽样空间

被解释变量样本的抽样空间是否与其可能取值空间(总体分布空间)相一致、是否为总体的有偏子空间。该问题不仅决定了模型设定,也影响了模型是否存在内生性问题,即参数估计的无偏性或一致性。

(iv)变量异常值

多数计量经济学模型对研究变量的异常值比较敏感,尤其被解释变量的异常值。应有理有据地处理这些异常样本值,以提高所建立模型的稳健性。

(2)可观测性

按照研究变量的可观测性将其划分为完全可观测变量、不完全可观测变量和完全不可观测变量。

(i)完全可观测变量

如果变量的样本抽样于其总体分布,特别是被解释变量,则根据其取值和分布等类型可以直接设定该变量的计量经济学模型。

(ii)不完全可观测变量

如果变量的样本并不是该变量的取值,仅仅是该变量的分类特征,或者是变量总体空间的一部分取值,在建立计量经济学模型时,应区别对待。如果被解释变量不完全可观测,这时应该引入一个隐变量;并且正确界定隐变量与被解释变量观测信息的对应关系,以隐变量为被解释变量设定计量经济学模型;最后根据上述对应关系确定可观测特征的似然函数,用ML方法估计模型。但是,当解释变量观测值是其分类特征时,只需依次设置若干个虚拟(Dummy)变量,它不影响设定模型种类和估计方法;当解释变量的样本值存在较严重缺失时,就需要进行样本插补。

(iv)完全不可观测变量

如果存在完全不可观测的解释变量时,通常应考虑两种情形。一种是完全不可观测的解释变量与其他可观测的解释变量不相关,这时可将前者归并于模型的随机误差项,在估计模型时只须考虑误差项的异方差和序列自相关问题即可。另一种是完全不可观测的解释变量与其他可观测的解释变量存在较显著的相关性,即模型存在遗漏变量问题。此时,或者为完全不可观测的解释变量选择工具变量,利用IV方法或GMM方法估计模型;或者基于面板数据设定包含共同因子的模型,以共同因子变量作为完全不可观测的解释变量的代理变量。

二、观测样本数据特征

在经济学经验研究中,经济变量的样本数据不仅包含感兴趣的经济属性,也含有一些不感兴趣的特征。例如,在研究短期经济波动问题时,季度GDP增长率样本数据中包含季节性、长周期性和趋势性等不感兴趣的成分。一般从样本数据的散点图或折线图中容易识别出这些不感兴趣的特征。在建立经验分析模型之前,通常需要从样本数据中剔除这些不感兴趣的成分。常用方法有对样本数据的季节调整、HP滤波或退势回归等方法。

三、样本数据缺失

样本数据缺失是在经验分析中的一个常见问题,对研究者富有挑战性。如果被解释变量存在系统性缺失,可以通过设定受限因变量模型(Censored、Truncated、Tobit等模型)得以解决。但是,当解释变量的样本值存在较严重缺失时,就需要进行样本插补,或者利用EM算法等最大化不含该解释变量的边缘似然函数。

四、 STATA数据分析

在STATA软件中,常用的样本数据分析命令有:

(1)绘制统计图

变量直方图(histogram)命令:histogram y

折线图(Line charts)命令:line y x

条形图(Bar charts)命令:graph bar

散点图(Two-way scatterplots )命令:scatter y x

(2)描述性统计分析

描述性统计分析命令:summarize y

(3)缺失数据插补

缺失数据插补命令:mi impute

(4)季节调整

下载x12a.exe或者sax12.exe并放入stata文件夹下的PLUS文件夹,使用命令“.db sax12”调用后进行菜单操作。

对于时间序列分析,更建议使用EViews软件。

白仲林教授简介

白仲林,澳门威尼斯官网统计学院教授、博士生导师,天津数量经济学会理事长,天津市有突出贡献专家。研究领域:数量经济理论及其应用、宏观经济政策分析。在《Chinese Science Bulletin》、《数量经济技术经济研究》、《经济学动态》和《统计研究》等重要核心期刊等发表80余篇学术论文。主持完成两项国家自然科学基金面上项目、主持一项国家社科基金项目和国家教育部项目等项目。三次获得天津市哲学社会科学优秀成果一等奖和三等奖,出版《现代贝叶斯计量经济分析》和《面板数据计量经济学》等5部学术著作。天津市优秀教学团队(计量经济学课程团队)负责人担任《统计研究》编委、《世界经济》和《数量经济技术研究》等多家期刊的匿名审稿专家。


想阅读更多精彩文章也请持续关注研究生院网站。

关闭窗口

推荐新闻


聚焦两会 决胜之年
(2020-05-22)

鸢尾花开 欢迎回家
2020-05-22

栀子花开 为梦想而战
2020-05-18

共抗疫情 同舟共济
2020-02-01

学习贯彻十九届四中全会精神
2019-11-05

培育和践行社会主义核心价值观
2020-02-01

“闪耀青春 天财骄傲”五四青年表彰
2020-05-04

Copyright ©版权所有:澳门威尼斯官网 有   津ICP备05003050号   津教备0017号

      

XML 地图 | Sitemap 地图