大数据究竟是什么
数据量,饮食习惯,维度
汪晖机器智能离不开数据,那么大量的数据和现在大家所说的大数据是不是一回事呢?如果不是,它们之间又有什么联系和区别呢?
毫无疑问,大数据的数据量自然是非常大的,但是光是量大还不是我们所说的大数据。比如过去国家统计局的数据量也很大,但那并不是真正意义上的大数据。这两者的差别我们可以从三个方面来看。
第一,大数据具有多维度性质,而不同维度之间有着天然的(而非人为的)联系。为了说明这一点,我们不妨看一个实际的例子。
2013年9月,百度发布了一个颇有意思的统计结果:中国十大“吃货”省市排行榜。百度没有做任何民意调查和对各地饮食习惯的研究,只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些结论:在有关“××能吃吗”的问题中,福建、浙江、广东、四川等地的网友最常问的是“××虫能吃吗”,江苏、上海、北京等地的网友最常问“××的皮能不能吃”,内蒙古、新疆、西藏的网友最关心的是“蘑菇能吃吗”,而宁夏网友最关心的竟然是“螃蟹能吃吗”!宁夏网友的问题一定会让福建的网友大跌眼镜。
百度做的这件事其实就是大数据的一个典型应用。它有这样一些特点:首先,它的数据量非常大 ......
您现在查看是摘要页,全文长 4634 字符。