当前位置: 首页 > 期刊 > 《老年博览·上半月》 > 2018年第11期
编号:1387074
大数据究竟是什么
http://www.100md.com 2018年10月21日 老年博览·上半月 2018年第11期
数据量,饮食习惯,维度
     汪晖

    机器智能离不开数据,那么大量的数据和现在大家所说的大数据是不是一回事呢?如果不是,它们之间又有什么联系和区别呢?

    毫无疑问,大数据的数据量自然是非常大的,但是光是量大还不是我们所说的大数据。比如过去国家统计局的数据量也很大,但那并不是真正意义上的大数据。这两者的差别我们可以从三个方面来看。

    第一,大数据具有多维度性质,而不同维度之间有着天然的(而非人为的)联系。为了说明这一点,我们不妨看一个实际的例子。

    2013年9月,百度发布了一个颇有意思的统计结果:中国十大“吃货”省市排行榜。百度没有做任何民意调查和对各地饮食习惯的研究,只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些结论:在有关“××能吃吗”的问题中,福建、浙江、广东、四川等地的网友最常问的是“××虫能吃吗”,江苏、上海、北京等地的网友最常问“××的皮能不能吃”,内蒙古、新疆、西藏的网友最关心的是“蘑菇能吃吗”,而宁夏网友最关心的竟然是“螃蟹能吃吗”!宁夏网友的问题一定会让福建的网友大跌眼镜。

    百度做的这件事其实就是大数据的一个典型应用。它有这样一些特点:首先,它的数据量非常大 ......

您现在查看是摘要页,全文长 4634 字符