当前位置: 首页 > 期刊 > 《医学信息》 > 2016年第29期
编号:12959709
利用网络痕迹信息即时预测儿童腹泻流行趋势(2)
http://www.100md.com 2016年7月23日 《医学信息》 2016年第29期
     从主成分分析的结果来看(表2及图3),前两主成分就可以比较全面的包含原百度指数的信息,达92.24。因此,本文选择前两个主成分进行建模,从而避免多重共线性的同时,降低自变量的维度,使得建模更容易。表3列出了所选取的两个主成分变量Ci(i=1,2)与原百度指数变量之间的具体计算关系,即:

    2.2.2模型的构建 从图1可以看出,儿童腹泻的历史就诊数据中不存在明显的趋势变化,但是存在比较明显的季节性现象,即每年基本有两个患病高峰期,大概为3月和10月附近,因此,本文考虑构建包含季节性周期的状态空间模型。

    3结果与分析

    利用Stata求解方程(3),拟合数据与观测的就诊数据的对比见图4,拟合曲线基本和观测曲线的趋势基本一致,能够较好的表现出实际就诊数量的变化和趋势,也说明了模型的拟合效果相对较好。

    从系数拟合的结果来看,P值均小于0.01,方程的拟合效果相对较好。接下来,我们对就诊数据的季节性和原百度指数变量进行分析。
, http://www.100md.com
    3.1就诊数据的季节性周期 通过模型求解,可以获得儿童腹泻的的季节性周期,见图5。从建模的结果来看,儿童腹泻的就诊情况具有明显的季节性周期特点,一般的,每年2月和3月腹泻疾病的高发期(春节附近),而每年的5~7月则相对发病较少。

    3.2儿童腹泻就诊量与大众网络行为的关系分析 从表4中的拟合结果可以看出大众网络搜索行为与儿童腹泻的就诊量变化具有明显的相关关系,具体地,大众网络行为与儿童腹泻就诊量的关系如图6所示。从图中可以看出,人们的网络搜索行为会在一定程度上显示人们对儿童腹泻的就诊需求状况。儿童的腹泻会导致人们在该领域的网络搜索行为,同时也会导致儿童医院的腹泻就诊量增加。从模型的结果来看,由大众网络搜索行为引致的相关就诊量大概维持在8800上下,即大众网络搜索行为(对于儿童腹泻相关话题)与儿童腹泻的就诊量具有显著的相关性。

    3.3利用大众网络搜索数据即时预未来儿童腹泻的就诊量 本文将儿童腹泻的就诊量分解为两部分,即季节性变化和由大众网络行为引致的就诊量变化。一般地,季节性变化具有周期规律,只要明确具体的月份就可以了解当月的周期性特点。而网络行为数据一般会早于医院的就诊数据可以提前获得:比如可以利用当月上半月的搜索数据(2倍)作为对当月搜索数量的预测,这样就可以利用网络搜索数据来即时预测未来一段时期的儿童疾病的就诊量。
, 百拇医药
    4 结论与总结

    利用大众网络的搜索数据(百度指数),本文提出了利用网络痕迹信息即时预测流行性疾病的思路和方法。以首都医科大学附属北京儿童医院儿童腹泻的就诊情况为例,本文首先从百度指数获得与儿童腹泻相关的话题和关键词的搜索量随时间变化的趋势数据,然后分析其相关性。为了防止模型的多重共线性,本文利用主成分分析提取了解释变量的主成分,进而利用包含有季节性周期的状态空间模型进行建模并获得拟合结果。模型拟合结果较好,通过建模和求解,可以获得结论如下。

    网络痕迹数据蕴含了大量有价值的潜在信息,人们可以通过一定的技术手段获得其中的潜在信息。由于网络痕迹数据具有实时性,因此人们可以通过分析网络痕迹数据进行相关社会-经济指标的即时预测。同时,从网络中获得有价值的潜在信息相对于传统的统计、问卷等方法也具有一定的优越性,可以降低成本,提高效率,保证信息的客观性。

    从具体的建模结果来看,儿童腹泻的发病具有明显的周期性特征,同时大众的网络搜索行为与相关就诊量具有明显的相关性,人们可以利用网络痕迹数据即时预测儿童疾病的未来就诊量,而本文的建模思路和方法为其提供了一种行之有效的方案。
, 百拇医药
    5讨论

    本文以儿童腹泻为例,通过建模求解得出结论,进一步可选取几种其他常见疾病,获取数据,对结论进行验证。同时,可选取不同区域(华北、华中、华南),分别对结论进行验证。另一方面,在大众网络搜索行为与相关就诊量具有明显相关性的基础上,可以进行更深层次的研究,最终得出大众网络搜索行为相对于相关就诊量的提前量。从而就可以确定即时的大众网络搜索行为可以预测未来哪个时间点的就诊量。

    参考文献:

    [1]Scott, S., & Varian, H.. Predicting the Present With Bayesian Structural Time Series[J].International Journal of Mathematical Modeling and Numerical Optimization, 2014, 5(1-2): 4-23.
, 百拇医药
    [2]Bello-Orgaz, G., Jung, J.J. & Camacho, D.. Social Big Data: Recent Achievements and New Challenges[J].Information Fusion, 2016, 28(C): 45-59.

    [3]Marz, N. & Warren, J.. Big Data: Principles and Best Practices of Scalable Realtime Data Systems[M]. Pearson Schweiz Ag, 2015.

    [4]Arora, D. & Malik, P.. Analytics: Key to Go from Generating Big Data to Deriving Business Value[C]. First International Conference on Big Data Computing Service & Applications. IEEE Computer Society, 2015: 446-452.

    [5]Collins, B.. Big Data and Health Economics: Strengths, Weaknesses, Opportunities and Threats[J].Pharmacoeconomics, 2015:1-6., http://www.100md.com(谢月锋 董现垒 陈卉 王燕 刘志成)
上一页1 2 3下一页