基于爬虫技术获取新型冠状病毒（2019-nCoV）贴吧数据的

基于爬虫技术获取新型冠状病毒（2019-nCoV）贴吧数据的网络舆情分析及应对策略

http://www.100md.com 2020年5月8日医学新知 2020年第2期

负面,民众,情绪,1新型冠状病毒贴吧数据分析,2Python爬取贴吧数据过程,3讨论,1加强民众医学知识普及工作,2加强民众的心理疏导及人文关怀工作,3重要信息专业化,公开化

     耿辉，马茂，张勇，尹小妹，徐安定，吕军

    1.暨南大学附属第一医院临床研究部(广州 510630)

    2.西安交通大学第一附属医院体检部(西安 710061)

    3.西安交通大学第一附属医院国资科(西安 710061)

    4.西安交通大学第一附属医院儿科(西安 710061)

    5.暨南大学附属第一医院神经内科(广州 510630)

    随着移动互联网技术的迅猛发展，智能手机持续普及，人们已习惯于手机快速查询各类资讯，在这个信息爆炸的时代，媒体形态比以往任何时候都要丰富，数据规模、类型呈几何式增长，但是数据价值普遍较低，信息越多，人们的思维越混乱，越难以辨别真伪，因此为了从海量的信息数据里获取有价值的数据，衍生了网络爬虫，研究人员通过设定获取信息源的规则获取到有价值的网络数据，再进行数据清洗、加工，构建信息调查的信息数据基础，本文就从当前热点新型冠状病毒贴吧获取到帖子以及回帖信息，掌握当前人们对新型冠状病毒的心理状态，并对其进行分析，尝试从积极的角度做出应对策略。

    1 新型冠状病毒贴吧数据分析

    截止2020年2月3日新型冠状病毒吧共有主题数17 340个，贴子数 581 104篇，平均每分钟增加1.2个主题，65篇回帖，是目前最火热的几个热议贴吧之一，该吧作为关注病毒的百度网友了解实时信息和灌水帖的前沿阵地，回帖最真实，具有典型的代表性。

    2 Python爬取贴吧数据过程

    首先分析贴吧网站分析网站结构 ......

百拇医药网 http://www.100md.com/html/paper/1004-5511/2020/02/005.htm

您现在查看是摘要页，全文长 5830 字符。