运用Stata建模的7步骤:
1、准备工作;目录、日志、读入数据、熟悉数据、时间变量、more、……;
2、探索数据:数据变换、描述统计量、相关系数、趋势图、散点图、……;
3、建立模型:regress、经济理论检验、实际经济问题要求、统计学检验、计量经济学检验:R2,T,t,残差;
4、诊断模型:异方差、序列相关、多重共线性、随机解释变量问题、……;
5、修正模型:WLS、GLS、工具变量法(ivregress),……;
6、应用模型:置信区间、预测、结构分析、边际分析、弹性分析、常用模型回归系数的意义、……;
7、整理:关闭日志、生成do文件备用
1、准备工作
让STATA处于初始状态,清除所有使用过的痕迹 clear
指明版本号 version11
1
设定并进入工作文件夹:cd D:\\ (设定路径,将数据、程序和输出结果文件均存入该文件夹)
关闭以前的日志 capture log close
建立日志: log using , replace
设定内存: set mem 20m
关闭 more: set more off
读入数据: use .dta, clear
认识变量:describe
建立时间变量:tsset
2、用描述统计方法探索数据特征
必要的数据转换: gen、replace、……;
描述统计量:summarize, detail
相关系数矩阵:corr/pwcorr
散点图和拟合直线图:scatter y x || lfit y x
2
矩阵散点图: graph matrix y x1 x2 x3,half
线性趋势图:line y x
3、建立模型
OLS建立模型: regress y x1 x2 x3;
由方差分析表并用F和R2检验模型整体显著性;
依据p值对各系数进行t检验,一次只能剔出一个最不显著的变量,直到不包含不显著的变量;
估计参数,判别变量的相对重要性;
构造和估计约束模型,用以检验经济理论
4、诊断模型
(1)检验异方差
残差拟合值散点图:rvfplot
残差平方与某个自变量的散点图
predict e, residuals
3
gen e2=eˆ2
scatter e2 x1
Breusch-Pagan拉格朗日乘数异方差检验
estat hettest
通过信息矩阵检验执行的white异方差检验
estat imtest, white
解析检验的零假设H0:同方差
(2)检验序列相关
散点图法
predict r
gen lagr=l.r
scatter r lagr,xline(0) yline(0)
趋势图法
4
line r year, yline(0)
Breusch-Godfrey LM test for autocorrelation
estat bgodfrey,lags(1 2 3)
Durbin’s alternative test for autocorrelation
estat dubinalt,lags(1 2 3)
Durbin-Watson dw-statistic
estat dwatson
(3)多重共线性
检验多重共线性是否存在:R2和F很高,但t检验不显著
判定系数检验法:某一自变量对其余自变量回归的R>0.8,判定该自变量引起多重共线性
方差膨胀因子大于5
estat vif
5、修正模型
5
(1)异方差的修正——WLS
predict r, residuals
regress y x1 x2 x3 [w=1/abs(r)]
(2)修正同时存在异方差和序列相关之prais
选项是corc变换,循环迭代
Prais m gdp, corc
第一次迭代后停止,两步法
prais m gdp, twostep
矫正同时存在异方差和序列相关之Newey-West
假定模型存在异方差和滞后3阶的序列相关,用OLS估计Newey-West标准误
Newey m gdp, lag(3)
(3)多重共线性的修正
排除引起共线性的变量
6
差分法(短期模型)
岭回归法(有偏估计)
逐步回归法
A. 向前法(只进不出) sw reg ...,pe(0.#)
B. 向后法(只出不进) sw reg ...,pe(0.#)
C. (有进有出)向前法 sw reg ...,pe(0.#) pr(0.#) forward
pe(0.#) < pr(0.#)向前法是空模型的开始
D. (有进有出)向后法 sw reg ...,pe(0.#) pr(0.#)
pe(0.#) < pr(0.#)向后法是满模型的开始
(4)修正随机解释变量
tsset year
ivreg consp (gdpp=l.gdpp)
用滞后一期的gdpp作gdpp的工具变量
7
常数项虚拟变量自己作自己的工具变量。
ivreg y1 x1 x2 (y2 y3 = z1 z2 z3) x3
用z1 z2 z3作y2和y3的工具变量
x1 x2 x3和常数项虚拟变量自己作自己的工具变量
6、运用模型(regress postestimation)
点估计:predict yhat
残差: predict r, residuals
均值预测的标准误:predict zxbzw, stdp
个别值预测的标准误:predict rxbzw, stdf
F的临界值 invFtail(df1,df2,0.05)
F的临界概率(边际概率)Ftail(df1,df2,ftest)
t的临界值invttail(df,0.025)
t的临界概率(边际概率)ttail(df,ttest)
8
常用模型回归系数的意义
线性模型:边际效应
dydx
yi01xi^^^
1^线性-对数模型:自变量的相对变化引起因变量的绝对变化
dydxx
yi01lnxi^^^1^
对数-线性模型:自变量的绝对变化引起因变量的相对变化
dy^y^^^1lnyi01xidx
双对数模型:弹性系数
dy^y1dx^^^lnyi01lnxix
差分模型:短期边际效应
yx
yi1xi^^
1^ 9
自变量x比上期增加一个单位,平均来说因变量y比上期增加了1个单位。无常数项。
^7、整理
在results窗口审视整个估计过程,尤其注意出错的地方
关闭日志文件:log close
生成do文件:(1)记录和再现建模分析过程
(2)为分析类似项目提供借鉴
操作:(1)在回顾窗口选择命令并复制
(2)点击do-file Editor,或打开一个已存在的do文件
(3)将复制的命令粘贴在do文件中
(4)编辑已执行过的命令,包括增加注释
(5)调试do文件
(6)保存
10
因篇幅问题不能全部显示,请点此查看更多更全内容