第一讲 面板数据
因家庭调查得到的面板数据越来越多,面板数据的计量分析可以说是过去三十年社会应用研究领域所取得的最重要的进展。
-Fitzgerald, Gottschalk和Moffitt(1998, P252)
第一讲 内容
面板数据
面板数据的优点与缺陷 扩展的面板数据
面板数据线性回归模型体系 面板数据单因素误差模型 面板数据双因素误差模型
第一节 面板数据
1.1 面板数据
“面板数据”一词指的是一部分家庭、国家或企业等在一段时期内的观测值所构成的集合。这样的数据可以通过在一段时期内对一些家庭或个体进行跟踪调查来获得。
从横截面看,面板数据是由若干个体在某一时点构成的截面观测值,并且,从纵剖面看每个个体都是一个时间序列。
1978-2005中国各省级地区消费性支出占可支配收入比例走势图(张晓峒老师绘制)
面板数据计量分析 白仲林
面板数据通常分为两类:
由个体调查数据得到的面板数据通常被称为微观面板(micro panels)。
,而时期数T较短(最少微观面板数据的特点是个体数N较大(通常是几百或几千个)是2年,最长不超过10年或20年)。
由一段时期内不同国家的数据得到的面板数据通常被称为宏观面板(macro panels)。 这类数据一般具有适度规模的个体N(从7到100或200不等,如七国集团,OECD,欧盟,发达国家或发展中国家),时期数T一般在20年到60年之间。
因数据结构上的区别,微观面板和宏观面板要求使用不同的计量方法。 样本容量的区别
微观面板必须研究T固定而N较大时的渐近特性,而宏观面板的渐近特性则是指T和N都较大时的情况。
平稳性
对于宏观面板,当时间序列较长时需要考虑数据的非平稳问题,如单位根、结构突变以及协整等;而微观面板不需要处理非平稳问题,特别是每个家庭或个体的时期数T较短时。
个体相关性
在处理宏观面板时必须考虑国家之间的相关性,而在微观面板中,如果个体是随机抽样产生,则个体之间不大可能存在相关性,因此不需要考虑此问题。
1.2 为什么使用面板数据?它们的优点和局限性
1 面板数据的优点
使用面板数据具有下列一些好处: (1)可以控制个体异质性
面板数据能反映个体、企业、州或国家之间存在的异质性,即时间上和空间上的异质效应。而时间序列数据和横截面分析没有控制这种异质性,因而其结果很可能是有偏的。
例如,Baltagi和Levin(1992)研究1963-88年美国46个州的香烟需求问题时,设定需求模型
Dit=f(Di,t−1
pitIitreliiedui
advt\")
则模型中解释变量包括两大类可观测的和不可观测的,可分为如下四种:
z 第一类是可观测的时变异质因素,即,随个体(州)和时间的变化而变化的可观测
变量,如香烟消费量的滞后项、价格和收入等可观测的变量;
z 第二类是随个体(州)变化而不随时间变化的可观测变量,如宗教(religion)和教
育等变量,即可观测的非时变异质因素;
z 第三类是不随个体(州)变化而随时间变化的可观测变量,如电视和广播中的广告
等变量,即可观测的时变同质因素; z 最后一类是一些不可观测变量,它们包括三种
非时变异质性不可观测因素(ξi)——个体效应 时变同质性不可观测因素(λt)——时间效应
面板数据计量分析 白仲林
时变异质性不可观测因素(uit)——剩余效应
这样,模型可设定为
Dit=f(Di,t−1
pitIitreliiedui
advt)+ξi+λt+uit
事实上,对于宗教变量,人们不可能得到每年每个州某一宗教人数占总人口的百分比,所以一般认为不同年份的百分比也不会有太大变化。同样,完成高中或大学学业的人数占总人口的百分比也是如此。电视和广播中的广告是全国性的,它对需求的影响不会随着州的不同而变化。
显然,遗漏第四类中任何一种不可观测因素就会导致估计结果的偏倚,面板数据模型能够基于这四类中的所有变量建模,而纯时间序列和横截面分析就无法做到。
另外,Hajivassiliou(1987)给出了一个宏观经济的例子,他使用1970-82年79个发展中国家的面板数据研究了外债偿付问题。这些发展中国家在殖民历史、金融机构、宗教信仰和政治体制等方面存在差异,所有这些反映国家特征的特定变量都会影响它们在借债或拖欠方面的态度,同时也会影响债权国对待它们的方式。如果不考虑这些国家之间的异质性就会出现严重的设定错误。
(2)面板数据模型容易避免多重共线性问题 z 面板数据具有更多的信息; z 面板数据具有更大的变异; z 面板数据的变量间更弱的共线性;
z 面板数据模型具有更大的自由度以及更高的效率。
时间序列研究中令人烦恼的问题之一是多重共线性;比如在上述香烟需求的研究中,如果从总量的角度看价格和收入就具有很强的共线性,而使用美国各州的面板数据,存在共线性的可能就很小了,因为增加截面个体维度的同时也增加了数据的变异,也增加了更多有关价格和收入的信息。
事实上,数据中的变异可以分为两个部分,一是州与州之间由于规模和经济特征的不同所表现出的变异性;二是各州内部不同时间上表现出的变异性,前者的变异程度往往更大。使用更多、更有信息的数据就可以得到更可靠的参数估计值。当然,这要求不同州的变量间应具有相同的关系式,换句话说,这要求数据是可混合的(poolable)。
(3)面板数据更适合于研究动态调整过程
面板数据适用于研究失业、贫困等经济状态的持续性问题的研究。如果这些面板数据的时期数足够长,它们就能够清楚地反映对经济政策变化的调整速度。
比如,在衡量失业问题时,横截面数据可以估计出人口中多大一部分比例在给定的时间处于失业状态,多个截面可以表明这一比例如何随时间而变化。但是,只有面板数据才能估计出在某个时期失业人中有多大一部分在另一个时期仍处于失业状态。
Deaton(1995)指出,与横截面调查不同,面板调查可以获得家庭或个体变化的数据。它可以使我们观测到个体生活标准在社会发展过程中如何变化;可以使我们确定谁从社会发展中受益;而且还可以使我们观测到 “在收入动态变化中,贫困到底是暂时性的还是长期的状态。”
面板数据计量分析 白仲林
由于面板数据可以将个体在某个时点的经历和行为与另一个时点的其他经历和行为联系起来,因此,面板数据在估计短期关系、生命周期模型和代际模型时也是必需的。
(4)面板数据还可以识别、测量单纯使用横截面或时间序列数据无法估计的影响。 对于由妇女组成的横截面样本,其中年平均就业率是50%. 这可能是由于下面两种原因导致的:(a)每个妇女在任一给定年份有50%的概率就业;(b)样本中有50%的人一直有工作,50%的人根本不工作。情况(a)中的工作转换频率很高,而情况(b)中没有工作转换,只有使用面板数据才能区分这两种情况。
(5)与纯横截面数据或时间序列数据相比,面板数据模型允许构建并检验更复杂的行为模型。
比如,对技术效率问题使用面板数据建模研究效果更好(Baltagi和Griffin,1988;Baltagi,Griffin和Rich,1995;Koop和Steel,2001)。另外,在分布滞后模型中使用面板数据比使用纯时间序列数据需要的约束条件更少(Hsiao,2003),因为通常使用GMM估计。
(6)基于个体、企业或家庭所搜集的微观面板数据与在宏观层次上所搜集的类似变量相比更加准确,而且还可能消除企业或个体数据汇总所导致的偏倚。
(7)例如,与时间序列分析中进行单位根检验遇到的非标准分布问题不同,面板单位根检验通常具有标准的渐近分布。
2 面板数据的局限性
面板数据的局限性包括: (1)微观调查面板数据极少
Kasprzyk等(1989)详细讨论了有关设计面板调查、数据收集和数据管理的问题。这些问题包括:覆盖面问题(样本没覆盖研究总体)、不响应问题(由于回答者不合作或提问者的失误)、回忆问题(回答者的记忆不准确)、采访的频率问题、采访的时间间隔问题、询问的时间问题和样本期内偏倚问题。
(2)测量误差的扭曲(distortions)严重
在面板数据调查中,问题不清晰,记忆错误,故意歪曲回答(例如威望偏倚),不合适的被调查者,错误记录回答者的应答以及采访者的影响等导致出现严重的测量误差。
(3)面板数据调查的样本选择问题 z 自选择
例如,由于个人保留工资高于工作工资,人们通常选择不去工作。在这种情况下,观测到的只是这些人的特征,而观测不到他们的保留工资。由于他们的工资数据缺失,产生删失样本。但是,如果这些人的所有数据都不可观测,这就成为一个截断样本。因此,面板数据调查容易产生样本的选择有偏性。 z 未回答
面板数据调查容易产生单项(或部分)未回答或完全未回答。这时,除了由于数据缺失导致的效率损失之外,面板数据调查中的未回答还可以导致严重的总体参数识别问题。
z 非随机样本流失
在面板数据的随后调查,由于调查对象的非随机流动(如,低收入区域向高收入区
面板数据计量分析 白仲林
域的流动)或发现回答的成本过高等原因,会产生调查对象的严重流失。Fitzgerald等(1998)指出,面板数据使用价值的最大潜在威胁是有偏性流失。Lillard和Panis(1998)研究发现,PSID的样本流失有很强的选择性。
例如,受教育程度较低的个体以及年龄较大的个体最容易从样本中剔除,而已婚的人继续留在样本内的可能性较大。被调查者在样本内的时期越长,继续参与调查的倾向就越小。在欧洲,(第一次和第二次调查之间的)样本流失率从意大利的6%到英国的40%不等。平均的样本流失率大约是10%. 为了解决样本非随机流失的影响,人们逐渐使用轮换面板(rotating panel)和伪面板(pseudo-panel)。 (4)时间维度短
微观面板通常是年度数据,每个个体的时期数较短。因此,主要依赖个体数趋于无穷进行渐近统计分析。
(5)截面相关性
国家或地区的宏观面板数据,如果时间序列较长而且没有考虑到国家之间的相关性就会导致错误的推断结论。事实上,考虑截面相关非常重要,而且会影响到统计推断的结论。为此,人们也提出了考虑这种相关性的面板单位根检验方法。
1.3 扩展的面板数据
1 伪面板数据
1985年,Deaton(1985)指出“由于统计调查的样本轮换和样本非随机流失问题,绝大多数国家并不存在较长时间跨度的真正面板数据,或者这样的真正面板数据是难以获得的,对于发展中国家的微观经济变量尤其如此。”
并且,Deaton发现“虽然某变量的统计抽样不能连续调查到各个体的观测数据,但是,如果按照某种属性(例如,年龄、职业和身份等)将各期调查对象分成不同的群(Cohort);对于各个观测期,选择各群内观测数据的均值(中位数或分位数),即可构造以群为‘个体’单位的面板数据”。于是,对于截面时间序列的统计调查数据,基于某种属性分群,称以群为个体而构造的人工面板数据为伪面板数据(Pseudo Panel Data)。
众所周知,面板数据的本质是在观测期内的每期都能观测到相同个体的相关数据,然而,伪面板显然并非如此。在观测期内,它允许每期观测的个体不同,并且重点关注的是个体群的统计特征,即通过群均值和群方差的发展变化,来揭示相关变量的总体分布特征。
例如,为了基于城市住户抽样调查数据研究城市居民收入的动态行为,常见的分群标准是户主年龄段、户主出生年的区间和户主职业类别。
户主按出生年的区间分群,在各观测期,同群中的不同家庭都是户主在同一出生年区间的家庭,不同群的家庭是户主在不同出生年区间的家庭。
如,对于1963-1967年出生的群,在1988年调查时,该群内的家庭是户主为21-25岁的家庭;1989年调查时,该群内的家庭是户主为22-26岁的家庭;依此类推,2008年调查时,该群内的家庭是户主为41-45岁的家庭。然后,在各调查年,对该群群内的家庭人均收入求均值。这样,对于1963-1967年出生的群,可得到该群的人均收入时间序列。于是,对于不同的群就可构造一个关于家庭人均收入的面板数据,称之为按出生年分群的家庭人均收入伪
面板数据计量分析 白仲林
面板数据。
类似地,也可以构造按年龄段分群的人均收入伪面板数据。
应用群体分析方法得到的伪面板数据还具有以下优点。一是伪面板数据是由各群群内个体属性的总体统计量组成,与一般面板中的个体数据相比,前者消除了个体的测量误差,且避免了样本流失。二是由于不需要在每期中追踪固定的个体,这样可得到更长时间跨度的数据。但是,也产生了新的问题,例如,无意义的个体效应、滞后数据的不可观测。
2 轮换面板
因为同一个家庭可能不愿被一次又一次的被回访,为了保持调查中家庭数目相同,在第二期调查中退出的部分家庭,被相同数目的新的家庭所替代,这在获得调查面板数据时是必要的。Biorn(1981)研究了这种轮换面板的情况。在Biorn和Jansen(1983)的研究中,他们基于挪威家庭预算调查的数据,其中一半的样本在每次调查中被轮换掉。换句话说,就是每一期调查的样本中将有一半家庭退出调查,并被新的家庭替代。
假设T=2,并且每期调查中有一半的样本被轮换,在这种情况下,不失一般性,在第2期,家庭1,2,\",N/2被家庭N+1,N+2,\",N+N/2所替代,很明显,只有家庭
N/2+1,N/2+2,\",N被观测了两期。这个例子中有3N/2个不同的家庭,只有N/2个
家庭被观测了两期。最初和最后的N/2个家庭只被观测了一期。
轮换面板允许研究者检验 “抽样时间(time-in-sample)”偏倚效应的存在性。“抽样时间”偏倚是指初次采访和随后的采访之间的回答有显著的改变。对于轮换面板,每批加到面板的新个体组提供了检验抽样时间偏倚效应的方法。
例如,Solon(1986)等研究发现第一次轮换所报告的失业率比基于全样本的失业率高出10个百分点。这些发现表明在面板数据调查中普遍存在着轮换组偏倚效应,而实践中调查条件并没有保持不变,因而很难把抽样时间偏倚效应同其他效应区分开。
3 空间面板数据
在个体水平的随机抽样样本中,人们很少担心截面之间的相关性。然而,当考虑国家,地区,州,县等相关截面数据时,这些总量个体可能表现出必须处理的截面相关性。现在有大量运用空间数据的文献处理这种相关性。这种空间相依模型在区域科学和城市经济学中比较普遍。具体来说,这些模型使用经济距离测度设定了面板数据的空间自相关性和空间结构(空间异质性),这方面文献的详尽介绍可以参见Anselin(1988, 2001)。近年来,在经济学的实证研究中,空间面板模型变得越来越有吸引力。
在包含空间误差自相关和空间滞后被解释变量的情形下,Elhorst(2003)讨论了固定效应和随机效应面板数据模型的ML估计。他们也对随机系数模型作了相应的扩展。在包含空间误差自相关,或者空间滞后被解释变量的情形下,Elhorst(2005)研究了固定效应动态面板数据模型的估计。
4 计数面板数据
被解释变量是计数面板数据的例子很多。例如,一段时间内一家公司的竟标次数、一个
面板数据计量分析 白仲林
人去看医生的次数、每天吸烟者的数量及一个研发机构登记专利的数目。虽然可以运用传统面板回归模型对计数面板数据建模,但鉴于被解释变量具有0及非负离散取值的特征,运用泊松面板回归模型建模更为合适。
在计数面板数据的文献中,尽管泊松模型设定非常流行,但由于其均值与方差相等的性质而备受批评。在实证分析中更常见的是过度离差的情形。为了对过度离差建模,经常设定数据服从负二项分布,Hausman et al.(1984)研究了负二项分布面板数据模型。而且,负二项分布面板数据模型也能够在Stata软件xtpoisson,fe and re软件包中实现。
然而,面板数据不是灵丹妙药,它并不能解决时间序列或横截面研究中解决不了的所有问题。例如,面板单位根检验比单一时间序列的单位根检验功效更高,这应该能更好地推断购买力平价(PPP)和增长收敛问题。事实上,在导致大量经验应用研究的同时,也引来了一些批评,Maddala(1999)和Banerjee等(2004,2005)认为面板数据也不能解决PPP以及增长收敛的问题。
面板数据计量分析的主要参考书 Cheng Hsiao
萧政教授早年就读于台湾大学和英国牛津大学,随后在美国斯坦福大学先后获得统计学硕士、经济学博士学位,毕业后,曾先后在美国加州柏克利大学、加拿大多伦多大学、美国南加州大学经济系任教。萧政教授现为美国南加州大学经济系教授,任国际权威经济学期刊《计量经济学》(Journal of Econometrics)主编,是世界经济计量学会院士(Fellow of Econometrics Society),台湾“中央研究院”院士。萧政教授长期从事计量经济学研究与教学,为世界面板数据研究领域的权威学者,其专著《面板数据分析》深受学术界好评。萧政教授还在亚洲、美洲、欧洲等众多国家和地区的著名大学或研究机构担任客座教授等重要职务。
Badi. Baltagi
面板数据计量分析 白仲林
自1979年在宾夕法西亚大学获得经济学博士学位以来,巴蒂.H.巴尔塔基先后在美国休斯
顿大学和德克萨斯A&M大学任教。曾出版了《面板数据计量分析》和《计量经济学》等学术专著,编辑出版了《理论计量经济精粹》、《面板数据计量经济学新进展》(卷I和卷II)、《非平稳面板数据、面板协整和动态面板》和《面板数据计量经济学:理论贡献和经验应用》等100多部著作以及权威经济学和统计学杂志的主编或副主编。巴尔塔基教授是Texas A&M大学人文学科George Summey Jr.教授主席团负责人,并获得学术研究特别成就奖。他是《经验经济学》(Empirical Economics)的主编、《计量经济学杂志》(Journal of Econometrics) 编委、《计量经济评论》(Econometric Reviews)编委和《应用计量经济学杂志》复制编辑(replication editor)。巴尔塔基教授也是《对经济分析的贡献》丛书的主编,曾获得《计量经济学杂志》特别会员(fellow)和经济计量理论的Multa & Plura Scripsit奖。
面板数据计量分析 白仲林
第二节 面板数据回归模型
2.1面板数据回归模型的一般形式
面板数据模型的一般形式如下:
yit=∑βkitxkit+uit (2.1)
k=1
K
其中,i=1,2,3,\",N,表示N个个体;t=1,2,3,\",T,表示已知的T个时点。yit是被解释变量对个体i在t时的观测值;xkit是第k个非随机解释变量对于个体i在t时的观测值;βkit是待估计的参数;uit是随机误差项。
特别,当回归系数只与个体有关,不随时间变化时,即,βkit=阵表示为
βki时,模型(2.1)可用矩
Yi=Xiβi+Ui (i=1,2,3,\",N) (2.1’)
⎡yi1⎤⎡x1i1
⎢y⎥⎢xi21i2
其中,Yi=⎢⎥,Xi=⎢
⎢#⎥⎢#⎢⎥⎢y⎣iT⎦T×1⎣x1iT
x2i1\"x2i2#
x2iT
xKi1⎤⎡ui1⎤⎡β1i⎤
⎢u⎥⎢β⎥\"xKi2⎥⎥, β=⎢2i⎥,U=⎢i2⎥.
ii
⎢#⎥\"#⎥⎢#⎥
⎥⎢⎥⎢⎥
\"xKiT⎦T×Kβ⎣Ki⎦K×1⎣uiT⎦T×1
2.2 面板数据回归模型的分类
通常,对模型(2.1)将做许多限制性假设,使其成为不同类型的面板数据回归模型。一般来说,常用的面板数据回归模型有如下九种模型,下面分别介绍它们。
1混合回归模型
从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起,用普通最小二乘法(OLS)估计参数。即估计模型
yit=β1+∑βkxkit+uit ,uit~i.i.d(0σ2) (2.2)
k=2
K
Y=Xβ+U (2.2’)
面板数据计量分析 白仲林
⎡Y1⎤⎡X1⎤⎡U1⎤⎡β1⎤
⎢U⎥⎢Y⎥⎢X⎥⎢β⎥
2222⎥⎥其中,Y=⎢⎥,X=⎢,β=⎢⎥,U=⎢.
⎢⎥⎢#⎥⎢#⎥#⎢#⎥
⎢⎥⎢⎥⎢⎥⎢⎥
YXβ⎣K⎦K×1⎣UN⎦NT×1⎣N⎦NT×1⎣N⎦NT×K
例如:如果劳动力市场、资本市场和商品市场是有效的,那么,在全球技术进步非时变和各地区(个体)技术效率相同的假设下,根据各地区的面板数据利用Cobb-Dauglas生产函数估计劳动和资本对产出的贡献时,可以将模型设定为混合回归模型。
实际上,混合回归模型(Pooled Regression Models)假设了解释变量对被解释变量的影响与个体无关。模型中的解释变量部分表示可观测同质时变效应、截距项反映了不可观测的非时变同质效应的平均水平,而且独立同分布的误差项(不可观测的时变异质性)也未包含不可观测的非时变异质性和同质的时变效应。因此,混合模型不仅不能体现模型数据的信息优势,而且对实际问题进行了严格的约束(如, Cobb-Dauglas生产函数中技术不变的假设)。
尽管混合回归模型在早期被广泛应用,但是,在许多问题的研究中,混合回归模型并不适用(Mairesse & Griliches,1990)。
2 单因素效应模型
所谓单因素效应模型,就是在模型中考虑了不可观测非时变(个体)异质效应,或者,考虑了不可观测时变(个体)同质效应的模型,因此,单因素效应模型分为个体单因素效应模型和时间单因素效应模型两类。
(1)个体单因素效应模型
在面板数据线性回归模型中,如果在混合模型中添加了反映不可观测非时变的(个体)异质效应项,即称模型
yit=α+∑βkxkit+ξi+uit, uit~i.i.d(0σ2) (2.3)
k=2
K
为个体单因素效应模型,矩阵形式为
Y=αιNT+Xβ+(IN⊗ιT)ξ+U (2.3’)
其中,IN⊗ιT是N阶单位矩阵IN和T阶列向量ιT=(1,\",1)的克罗内克积,
'
⎡x2i1⎡ξ1⎤
⎢x⎢ξ⎥
2
ξ=⎢⎥,Xi=⎢2i2
⎢#⎢#⎥
⎢⎢⎥
⎣x2iT⎣ξN⎦N×1
x3i1
x3i2#x3iT
\"xKi1⎤⎡X1⎤⎡β2⎤
⎢X⎥⎢β⎥\"xKi2⎥23⎥⎥,X=⎢,β=⎢⎥.
⎢⎥⎥⎢⎥\"###
⎥⎢⎥⎢⎥
\"xKiT⎦T×(K−1)⎣βK⎦(K−1)×1⎣XN⎦NT×(K−1)类似地,如果劳动力市场、资本市场和商品市场是有效的,那么,在全球技术进步非时变的假设下,根据各地区的面板数据利用Cobb-Dauglas生产函数估计劳动和资本对产出的贡献时,可以将模型设定为个体单因素效应模型。这时允许各地区(个体)的技术效率不同。
显然,与混合回归模型比较,个体单因素效应模型更合意,它控制了不可观测的非时变异质性对模型参数估计的影响。
面板数据计量分析 白仲林
(2)时间单因素效应模型
类似地,在面板数据线性回归模型中,如果在混合模型中添加了反映不可观测的时变(个体)同质效应项,即称模型
yit=α+∑βkxkit+λt+uit, uit~i.i.d(0σ2) (2.4)
k=2
K
为时间单因素效应模型,矩阵形式为
Y=αιNT+Xβ+(ιN⊗IT)λ+U (2.4’)
其中,ιN⊗IT是N阶列向量ιN=(1,\",1)和T阶单位矩阵IT的克罗内克积,
'
⎡x2i1⎡λ1⎤
⎢x⎢λ⎥
λ=⎢2⎥,Xi=⎢2i2
⎢#⎢#⎥
⎢⎢⎥
λ⎣x2iT⎣T⎦T×1x3i1\"xKi1⎤⎡X1⎤⎡β2⎤
⎢X⎥⎢β⎥x3i2\"xKi2⎥23⎥⎥,X=⎢,β=⎢⎥. ⎢#⎥⎢#⎥#\"#⎥
⎥⎢⎥⎢⎥
Xx3iT\"xKiT⎦T×(K−1)⎣N⎦NT×(K−1)⎣βK⎦(K−1)×1
类似地,如果劳动力市场、资本市场和商品市场是有效的,那么,在各地区(个体)技术效率相同的假设下,根据各地区的面板数据利用Cobb-Dauglas生产函数估计劳动和资本对产出的贡献时,可以将模型设定为时间单因素效应模型。这时允许全球技术进步是时变。
显然,与混合回归模型比较,时间单因素效应模型更合意,它控制了不可观测的时变同质性对模型参数估计的影响。
(3)固定效应和随机效应 固定效应模型
对于单因素效应模型,为了估计单因素效应,可以将它们设定为确定性因素,并且,对所有的i和t,假定Xit与uit是相互独立的,这时,单因素效应模型被称为固定效应模型。
实际上,只要结论被限定是所研究个体行为的时候,即我们要做出的推断是基于样本个体,那么,固定效应模型是一个合适的设定。
显然,对于个体固定效应模型(individual fixed effects regression model),为了估计个体对于时间固定效应模型(time 效应,估计时需要添加N个虚拟变量,其取值矩阵为(IT⊗ιN);fixed effects regression model),为了估计时间效应,估计时需要添加T个虚拟变量,其取值矩阵为(ιN⊗IT).
另外,Mundlak(1978)认为单因素固定效应模型允许所有的解释变量是内生的。Hausman和Taylor(1981)也指出固定效应模型允许一些解释变量和单因素效应是可以相关的。例如,在收入方程中,ξi可能代表不可观测的个人能力,它可能与方程右边的受教育变量相关。Chamberlain(1984)表明固定效应模型对所有被解释变量的超前和滞后项关于解释变量的超前和滞后项的回归系数施加了可检验的约束。因此,在采用固定效应模型之前应该检验这些约束条件的有效性,例如,Hausman检验和Chamberlain检验(见Baltagi,2008,chapter 4)。
事实上,固定效应模型和随机效应模型的问题曾经在生物计量学和统计学文献中产生了
面板数据计量分析 白仲林
热烈的争论,并且已经延伸到使用面板数据的计量经济学文献中。Mundlak(1961)和Wallace和Hussain(1969)是固定效应模型的早期拥护者,而Balestra和Nerlove(1966)则是随机单因素误差模型的支持者。
因此,使用固定效应模型存在三方面的缺陷:
① 如果不可观测的非时变异质性效应(个体单因素效应)或者不可观测的时变同质性效应(时间单因素效应)与不可观测的时变异质性效应(误差项)相关时,OLS估计量是有偏的;
② 固定效应模型的参数太多,影响估计自由度;
③ 固定效应模型的结论仅适用于样本内,不能对样本外的经济行为进行推断。 固定效应模型的估计
对于固定效应模型可以采用在模型中加虚拟变量的方法估计回归参数,并称其估计值为LSDV估计(The Least Square Dummy Variable Estimation)。也可以基于组内离差数据的最小二乘法估计固定效应模型参数,简记为组内估计。 随机效应模型
对于单因素效应模型,如果不关注单因素效应,仅关心解释变量的效应时,可假定个体单因素效应ξi(或者,时间单因素效应λt)是随机的,这样以来,在固定效应模型中存在的OLS估计量有偏、自由度损失过多和结论不能对样本外的经济行为进行推断的三个问题就可以避免。即
对于个体单因素效应模型
yit=α+∑βkxkit+ξi+uit
k=2
K
如果ξi~i.i.d0
(σξ2),uit~i.i.d(0σ2),ξi与uit相互独立;并且,对于所有的i和t,
Xit与ξi和uit也相互独立,则称该模型为个体随机效应模型。
显然,当N个样本个体是随机抽样于一个总体时,那么随机效应模型就是一个恰当的设定。例如,基于OECD国家的数据,推断普遍适用的经济理论时,就可以设定随机效应模型。
类似地,对于时间单因素效应模型
yit=α+∑βkxkit+λt+uit
k=2
K
如果λt~i.i.d0
(2
σλ),uit~i.i.d(0σ2),λt与uit相互独立;并且,对于所有的i和t,
Xit与λt和uit也相互独立,则称该模型为时间随机效应模型。
对于随机效应模型可以采用可行的广义最小二乘法(FGLS)估计模型参数。 3 双因素效应模型
所谓双因素效应模型,就是在模型中既考虑了不可观测非时变的(个体)异质效应,又考虑了不可观测时变(个体)同质效应的模型。
面板数据计量分析 白仲林
yit=α+∑βkxkit+ξi+λt+uit, uit~i.i.d(0σ2) (2.5)
k=2
K
其矩阵表示为
Y=αιNT+Xβ+(IN⊗ιT)ξ+(ιN⊗IT)λ+U (2.5’)
类似地,双因素效应模型也有固定效应和随机效应之分,如果设定个体效应ξi和时间效应λt是确定的,就是双因素固定效应模型;如果设定个体效应ξi和时间效应λt是随机的,就是双因素随机效应模型。在实际应用时,模型的正确设定必须进行相关的统计检验。
4 变系数模型 确定系数面板数据模型
在面板数据模型(2.1)中,如果解释变量对被解释变量的影响随着个体的变化是不同的确定性参数时,称模型(2.1)为确定系数面板数据模型。
确定系数面板数据模型的矩阵形式为Zellner(1962)的似不相关回归模型(Seemingly Unrelated Regressions)
Y=Xβ+U (2.10)
⎡X1⎢0
其中,X=⎢
⎢#⎢⎣0
0X2#0
0⎤⎡β1i⎤⎡β1⎤
⎢β⎥⎢β⎥\"0⎥2i2⎥,βi=⎢⎥,β=⎢⎥ ⎢#⎥⎢#⎥%#⎥
⎢⎥⎢⎥⎥
β0XN⎦NT×NK
⎣ki⎦K×1⎣βN⎦KN×1\"
5 随机系数面板数据模型
面板数据模型(2.1)揭示了不同个体的相同经济现象,于是,如果N个个体是从某个总体随机抽取的一个样本时,面板数据模型(2.1)的参数列向量βi就是随机向量。另外,如果个体间是空间相关时,面板数据模型(2.1)的N个参数列向量的集合{βi|i=1,2,\",N}可以被看成是同一个总体的N个样本。这时,称面板数据回归模型(2.1)为随机系数回归模型(Random Coefficient Regression Model),即,
βi=β+vi (i=1,2,\",N)
其中,β是固定向量,vi是零均值的随机向量。
从而,面板数据模型(2.1)可以表示为
Yi=Xi(β+vi)+Ui
Yi=Xiβ+Wi (2.11)
面板数据计量分析 白仲林
其中,Wi=Xivi+Ui。
这样,利用广义最小二乘法估计模型(2.11)得到的估计量
ˆ=(X'Ω−1X)(X'Ω−1Y) β−1
⎛W1⎞⎜W⎟2⎟的方差协方差矩阵。 比混合回归模型(2.2)的估计量更有效,其中,Ω是W=⎜⎜#⎟⎜⎟W⎝N⎠
有关面板数据静态回归模型的分类和模型设定可用图2.1概括。
面板数据计量分析 白仲林
面板线性回归模型 yit=αit +∑Kβkitxkit+uitk=2 混合回归模型 αit=β1,βkit=βk 变截距常斜率模型 βkit=βk,k≥2 变系数模型 个体单因素模型 双因素模型 个体单因素变系数模型 双因素变系数模型 αit=α+ξi βkit=βk,k≥2 αit=α+ξi+λt βkit=βk,k≥2 βkit=βk+ξki βkit=βk+ξki+λktξki,λkt随机 Hsiao 随机系数模型ξi确定 固定效应模型 ξi随机 随机效应模型 ξki确定 时间单因素模型 似无关回归(SUR)模型ξki随机 Swamy随机系数模型 αit=α+λt β,k≥2 βkit=k ξi,λt确定 个体时间固定效应模型ξi,λt随机 个体时间随机效应模型λt确定 λt随机 随机效应模型 固定效应模型 图 1 面板数据线性回归模型体系
6 平均个体回归模型
首先,对每个个体在时点上建立模型,并估计参数。然后,计算各个体的参数估计值的平均值,将此值作为面板模型的参数估计。
对于给定的个体i,估计多元回归模型
yit=∑βkixkit+uit (t=1,2,3,\",T)
k=1
K
ˆ;然后,以N个个体参数估计量的均值 的参数βki的估计量βki
面板数据计量分析 白仲林
ˆ=1βk
N
ˆ∑βi=1
N
ki
(k=1,2,3,\",K) (2.12)
作为模型参数βki的估计量。
一般来说,当面板数据的个体较少、时间序列较长,且个体差异不显著时,才会用平均个体回归方法估计模型参数。这种面板数据通常是宏观经济的面板数据。
7 平均时间回归模型
先对各变量的数据在时间上计算平均值,然后对按时间平均的截面数据回归。即估计截面数据的多元回归模型
yi.=∑βkxki.+ui (i=1,2,3,\",N) (2.13)
k=1
K
其中,yi.和xki.分别是被解释变量和解释变量在时间上的平均值。
当面板数据的个体较多、时间序列较短,且时间差异不显著时,可用平均时间回归方法估计模型参数,且Pesaran(1995)指出,即使对于动态面板数据模型,该估计也是无偏的和一致的。
因篇幅问题不能全部显示,请点此查看更多更全内容