上海市流行性腮腺炎疫情时间序列模型建立的初探(1)
摘要:【目的】探讨时间序列模型在流行性腮腺炎(流腮)预测中的应用,建立上海市流腮发病的预测模型,预测2017年上海市流腮发病趋势。
【方法】收集中国疾病监测信息报告系统中的上海市2005年1月—2016年12月流腮月报告发病资料,使用SPSS软件进行建模,考虑季节因素建立ARIMA (Autoregressive Integrated Moving Average)乘积季节预测模型,并用所建模型预测上海市2017年流腮发病趋势。
【结果】ARIMA(1,0,0)(1,1,0)12可较好地拟合流腮发病的时间序列趋势,对2005—2016年流腮发病数预测值与实际值吻合程度高,平均相对误差为879%,2017年流腮预测病例数为2656例。
【结论】ARIMA乘积季节模型可较好地拟合流腮发病的时间序列趋势;与2016年相比,预测2017年流腮报告发病数相对平稳。
关键词:时间序列分析;流行性腮腺炎;预测
中图分类号:R1818 文献标志码:ADOI:1019428/jcnkisjpm201818669
引用格式:吴琳琳,孙晓冬,胡家瑜,等.上海市流行性腮腺炎疫情时间序列模型建立的初探[J].上海预防医学,2018,30(7):557561.
流行性腮腺炎(简称“流腮”)是一种在全球范围内广泛流行的急性呼吸道传染病,其疾病谱从隐性感染至无菌性脑膜炎、睾丸炎、耳聋等,且疾病严重程度随年龄增长而增加[1]。多发于儿童和青少年,亦可见于成人, 且年长的青少年和成人的发病率有上升的趋势[24]。
时间序列预测是根据现在与过去的随机序列的样本取值,对未来某一时间段的随机变量记性估计[5]。ARIMA是时间序列分析方法中重要的预测模型之一,其综合考虑了长期趋势、周期变化和随机干扰因素,借助模型参数的变化对数据进行量化表达,可以达到较好的预测效果[67]。本研究旨在通过对流腮历史报告发病数的分析,采用时间序列分析中的ARIMA模型进行流腮报告发病数的拟合,建立流腮报告发病数的预测模型, 并对2017年上海市流腮发病趋势进行预测。
1材料与方法
11资料来源
流腮发病资料来源于中国疾病监测信息报告系统。[JP2]按发病日期收集2005年1月—2016年12月上海市流腮的分月报告发病数进行时间序列分析。[JP]
12方法
[JP2]采用SPSS 170统计软件的ARIMA分析方法,通过数据处理及模型识别、[JP3]模型检验和产生预测等步骤对上海市2005—2016年流腮月发病数进行时间序列分析,并对2017年流腮月发病数进行预测。[JP]
ARIMA模型是传统的时间序列模型,由Box和Jenkins于1970年提出,也称为BoxJenkins模型。季节乘积性ARIMA模型是将随机季节模型与ARIMA模型相结合,其结构为ARIMA(p,d,q)(P,D,Q)s,其中(p,d,q)和(P,D,Q)分别为非季节性和季节性自回归(AR)、差分(I)和移动平均(MA)的阶数,s代表季节周期。模型建立的主要步骤为[8]:① 序列平稳化检验和处理:通过对已有时间序列数据进行差分,使该序列满足零均值且方差不随时间变化,根据差分次数确定d或(和)D。② 模型识别:序列平稳后,通过观察序列的自相关系数(autocorrelation function,ACF)、偏自相关系数(partial autocorrelation function, PACF)和SPSS 拟合结果,确定备选模型。③ 参数估计和模型检验:利用非线性最小二乘法估计模型参数,ARIMA 模型筛选依据为贝叶斯信息准则(Bayesian information criterion BIC)、残差和模型检验分析。对模型的参数进行统计学检验和残差的白噪声检验。④ 模型预测:用所筛选的最优模型,对模型进行预测,得到原序列将来的趋势。根据预测值与实际值的平均预测相对误差来评价预测效果。
2结果
21流腮报告病例时间分布情况
2005年1月—2016年12月上海市流腮月报告发病数波动较大,每年均出现夏季的发病高峰月份,且发病高峰出现的时间比较一致,呈明显的周期性、季节性变化(图1)。
22建立模型
221序列的平稳化处理通过原始时间序列图发现,原始时间序列不满足平稳性的要求,且存在以12个月为一个周期的季节性波动,[JP2]同时游程检验结果显示,流腮游程数为28,检验统计量Z=-7229, P<001,表明其序列不满足序列平稳性要求,需进行平稳化处理。对原始序列进行1次季节性差分,消除季节的影响。差分后序列的均值在0上下波動(图2),认为此时序列已消除了季节影响,基本符合ARIMA模型的平稳性的要求。[JP]
222模型的建立与检验对差分后的数据序列进行ACF和PACF分析,ACF,PACF函数既不截尾也不拖尾,也不呈线性衰减趋势,判断数据序列适合于乘积季节模型(图3、图4)。根据差分情况以及序列特征,可初步判断该时间序列为符合季节模型ARIMA(p,0,q)(P,1,Q)指定“专家建模器”拟合ARIMA模型并自动检测加法离群值,自动识别模型参数为ARIMA(1,0,0)(1,1,0)12。通过拟合优度统计量比较多个模型间的拟合优劣性,BIC值较小的模型较好。分析发现最优模型为ARIMA(1,0,0)(1,1,0)12。BIC=-1913,残差LjungBox Q=16028,P=0451,差异无统计学意义,可认为残差序列为白噪声。
223预测用ARIMA(1,0,0)(1,1,0)12模型对2005—2016年流腮分月病例数进行回代拟合,结果显示,ARIMA拟合值与真实值之间基本吻合,均落入95%置信区间内,平均相对误差为879%。应用该模型预测2017年1—12月上海市流腮月发病数(表1),并绘制实际值与预测值序列图(图5),发现实际值与预测值基本吻合,进一步计算可得2017年拟合流腮病例数为2656例。, 百拇医药(吴琳琳 孙晓冬 胡家瑜 李智 杨建萍)
【方法】收集中国疾病监测信息报告系统中的上海市2005年1月—2016年12月流腮月报告发病资料,使用SPSS软件进行建模,考虑季节因素建立ARIMA (Autoregressive Integrated Moving Average)乘积季节预测模型,并用所建模型预测上海市2017年流腮发病趋势。
【结果】ARIMA(1,0,0)(1,1,0)12可较好地拟合流腮发病的时间序列趋势,对2005—2016年流腮发病数预测值与实际值吻合程度高,平均相对误差为879%,2017年流腮预测病例数为2656例。
【结论】ARIMA乘积季节模型可较好地拟合流腮发病的时间序列趋势;与2016年相比,预测2017年流腮报告发病数相对平稳。
关键词:时间序列分析;流行性腮腺炎;预测
中图分类号:R1818 文献标志码:ADOI:1019428/jcnkisjpm201818669
引用格式:吴琳琳,孙晓冬,胡家瑜,等.上海市流行性腮腺炎疫情时间序列模型建立的初探[J].上海预防医学,2018,30(7):557561.
流行性腮腺炎(简称“流腮”)是一种在全球范围内广泛流行的急性呼吸道传染病,其疾病谱从隐性感染至无菌性脑膜炎、睾丸炎、耳聋等,且疾病严重程度随年龄增长而增加[1]。多发于儿童和青少年,亦可见于成人, 且年长的青少年和成人的发病率有上升的趋势[24]。
时间序列预测是根据现在与过去的随机序列的样本取值,对未来某一时间段的随机变量记性估计[5]。ARIMA是时间序列分析方法中重要的预测模型之一,其综合考虑了长期趋势、周期变化和随机干扰因素,借助模型参数的变化对数据进行量化表达,可以达到较好的预测效果[67]。本研究旨在通过对流腮历史报告发病数的分析,采用时间序列分析中的ARIMA模型进行流腮报告发病数的拟合,建立流腮报告发病数的预测模型, 并对2017年上海市流腮发病趋势进行预测。
1材料与方法
11资料来源
流腮发病资料来源于中国疾病监测信息报告系统。[JP2]按发病日期收集2005年1月—2016年12月上海市流腮的分月报告发病数进行时间序列分析。[JP]
12方法
[JP2]采用SPSS 170统计软件的ARIMA分析方法,通过数据处理及模型识别、[JP3]模型检验和产生预测等步骤对上海市2005—2016年流腮月发病数进行时间序列分析,并对2017年流腮月发病数进行预测。[JP]
ARIMA模型是传统的时间序列模型,由Box和Jenkins于1970年提出,也称为BoxJenkins模型。季节乘积性ARIMA模型是将随机季节模型与ARIMA模型相结合,其结构为ARIMA(p,d,q)(P,D,Q)s,其中(p,d,q)和(P,D,Q)分别为非季节性和季节性自回归(AR)、差分(I)和移动平均(MA)的阶数,s代表季节周期。模型建立的主要步骤为[8]:① 序列平稳化检验和处理:通过对已有时间序列数据进行差分,使该序列满足零均值且方差不随时间变化,根据差分次数确定d或(和)D。② 模型识别:序列平稳后,通过观察序列的自相关系数(autocorrelation function,ACF)、偏自相关系数(partial autocorrelation function, PACF)和SPSS 拟合结果,确定备选模型。③ 参数估计和模型检验:利用非线性最小二乘法估计模型参数,ARIMA 模型筛选依据为贝叶斯信息准则(Bayesian information criterion BIC)、残差和模型检验分析。对模型的参数进行统计学检验和残差的白噪声检验。④ 模型预测:用所筛选的最优模型,对模型进行预测,得到原序列将来的趋势。根据预测值与实际值的平均预测相对误差来评价预测效果。
2结果
21流腮报告病例时间分布情况
2005年1月—2016年12月上海市流腮月报告发病数波动较大,每年均出现夏季的发病高峰月份,且发病高峰出现的时间比较一致,呈明显的周期性、季节性变化(图1)。
22建立模型
221序列的平稳化处理通过原始时间序列图发现,原始时间序列不满足平稳性的要求,且存在以12个月为一个周期的季节性波动,[JP2]同时游程检验结果显示,流腮游程数为28,检验统计量Z=-7229, P<001,表明其序列不满足序列平稳性要求,需进行平稳化处理。对原始序列进行1次季节性差分,消除季节的影响。差分后序列的均值在0上下波動(图2),认为此时序列已消除了季节影响,基本符合ARIMA模型的平稳性的要求。[JP]
222模型的建立与检验对差分后的数据序列进行ACF和PACF分析,ACF,PACF函数既不截尾也不拖尾,也不呈线性衰减趋势,判断数据序列适合于乘积季节模型(图3、图4)。根据差分情况以及序列特征,可初步判断该时间序列为符合季节模型ARIMA(p,0,q)(P,1,Q)指定“专家建模器”拟合ARIMA模型并自动检测加法离群值,自动识别模型参数为ARIMA(1,0,0)(1,1,0)12。通过拟合优度统计量比较多个模型间的拟合优劣性,BIC值较小的模型较好。分析发现最优模型为ARIMA(1,0,0)(1,1,0)12。BIC=-1913,残差LjungBox Q=16028,P=0451,差异无统计学意义,可认为残差序列为白噪声。
223预测用ARIMA(1,0,0)(1,1,0)12模型对2005—2016年流腮分月病例数进行回代拟合,结果显示,ARIMA拟合值与真实值之间基本吻合,均落入95%置信区间内,平均相对误差为879%。应用该模型预测2017年1—12月上海市流腮月发病数(表1),并绘制实际值与预测值序列图(图5),发现实际值与预测值基本吻合,进一步计算可得2017年拟合流腮病例数为2656例。, 百拇医药(吴琳琳 孙晓冬 胡家瑜 李智 杨建萍)