基于用户画像的患者就医影响因素研究
可视化,医生,1在线医疗网站数据采集,2数据清洗和处理,3用户画像构建,4基于机器学习的相关性分析,5总结
佟金铎,郭凤英,翟 兴,李 岩,陈晓倩(北京中医药大学管理学院,北京 100029)
随着互联网开始普及,信息技术水平不断提高,社会各行各业信息化程度也随之逐渐加深。医疗行业作为一个与健康密切相关的行业,在信息技术改革的影响下,其医疗模式、医疗形态都有了巨大的改变,在传统就医模式的基础上发展形成了“在线医疗”的新型就医模式。患者可以足不出户,通过在线医疗网站选择合适医生进行问诊,随之产生了大量的就医行为数据,如医生热度、患者满意度、患者评价等。这些数据信息通过在线医疗网站也呈现在患者面前,影响着患者的就医选择。在考虑自身经济条件和对症的同时,医生所属医院、医生职称以及患者对医生的评价等信息同样对患者的就医选择有着巨大的影响。对于在线医疗网站的发展而言,分析影响患者就医选择的因素,进而为患者提供更加符合个性化需求的在线医疗服务,具有十分重要的意义[1]。本文主要通过分析患者就医的数据信息,判断患者就医的倾向性以及影响患者就医倾向性的因素,从而完善在线医疗网站的服务机制以提高患者的就医体验,为患者提供更加优质服务。
1 在线医疗网站数据采集
1.1 网络爬虫 网络爬虫是目前常用的网络数据采集工具,通过一定的代码程序实现自动检索目标网站网页信息的功能[2]。它的广泛应用为快速便捷地采集大量网页数据提供了工具和方法,取代了手动采集网页数据,对大数据技术的发展有着巨大的推动作用。
1.2 网页数据抓取的实现 随着爬虫技术的发展和成熟,市场上出现了许多功能完善的爬虫软件。本次主要采用八爪鱼爬虫软件,这款软件有简易采集和自定义两种采集模式,将数据采集过程简易化、智能化、可视化,极大地减轻了操作者的工作负担,提高了数据采集效率。本次选用自定义模式,共采集776名医生的结构化数据信息,主要包括以下字段:医生姓名、职称、所属医院、推荐热度、主治疾病、就诊费用和患者评价。
2 数据清洗和处理
2.1 原始数据集描述 从好大夫在线网站上采集到的原始数据,存在着数据冗余、缺失值等问题,需要进行数据清理。Azure Machine Learning 具有对数据集进行可视化并从很大的数据集中抽样的能力,可用来完成数据清理。在清洗和处理原始数据集之前,一般先要了解以下几个方面:①数据集的记录数;②属性的数量;③每个属性的数据类型;④名义属性有哪些值;⑤连续属性的统计分布情况;⑥每个属性有多少缺失值;⑦每个属性有多少不同的值 ......
您现在查看是摘要页,全文长 8861 字符。