用好大数据须强调统计思维.蹭飞
浏阳历史网 2021-03-06 05:33:46
用好大数据须强调统计思维
大数据从2011年起变成了炙手可热的话题。大数据一词虽然内涵重心是数据,但其中更为重要的统计思维却往往被忽视。而缺乏统计思维的大数据则有可能带来大偏差
。
谷歌流行病趋势模型,曾经被当做推销大数据概念的金牌案例。其作用是预测流感和登革热的流行病趋势,但实践表明,这一模型并没有经得住时间的考验。从2011年8月21日到2013年9月1日期间,谷歌流行病模型在108个星期里有100个星期高估了流行病数据。2013年1月,谷歌流行病趋势模型的估计值是实际数据的2倍。如此大的误差显然是无法接受的。
但以O2O模式到底能打开多大的市场空间尚有待观察。本报 王丽新大数据作为二手数据,缺乏行政监督,很多时候也没有办法控制大数据的样本,大数据的样本往往是有噪音的和冗余的,这些问题给大数据分析带来了一定的障碍。谷歌流行病预测模型的目的是预测全美流感发病率,用的数据是搜索引擎用户的搜索记录。但是,全美国民和搜索引擎用户并不是同一个概念。有流感症状的人并不都会使用搜索引擎查询,而使用搜索引擎查流感症状的人也不见得都得了流感。谷歌流行病模型的基础是流行病发病和各种关键词搜索之间的相关关系,但是这种相关关系不是一成不变的,当媒体大量报道和普及流行病常识时,公众在一定程度上产生恐慌,会带来搜索量的突增,这种突增并不意味着流行病的爆发。这也是谷歌流行病预测模型失败的主要原因之一。
在统计学视角里,样本并不是越大越有价值,统计学强调的是样本的代表性,这一代表性一般是通过抽样调查来满足的。如国家统计局为了更好进行抽样调查,建立了基本单位名录库,名录库就是统计调查中的抽样框,抽样样本均来自于抽样框。抽样框既是选择样本单位的依据,也是推断总体的依据。在分析问题时,弄清楚自己的研究总体是非常重要的,如果大数据样本不是研究总体,也不是研究总体的抽样样本,这个时候用大数据做结论就需要非常小心,不然很容易由大数据带来大偏差。
统计与信息技术联姻,是大数据发展的必由之路。直视当下大数据分析中存在的问题,在利用机器学习算法的同时结合统计学的思维,才能更好地利用大数据这个工具,让大数据时代变得更美。
吴忠哪里的白癜风医院好长春治疗牛皮癣哪好
昆明白癜风医院哪里较好
- 上一页:在怀孕的不同阶段源泉
- 下一页:电信业竞争激烈中国移动布局物联网.鼓励
- 这些“二胎”高校,发展不比“双一流”差
- 54岁郑钧好可怕,与小16岁娇妻在机场热吻,剪齐刘海刻意扮嫩
- 科英布拉该大学历史知多少 | 葡萄牙高校通
- 一位“民俗外交使者”的30年
- 山水重逢,愈见人为 ——KOLON SPORT 可隆举办ODUMAK露营活动
- 传说中的“天选之子”?一考生选择题全选B,最高分出来后傻眼了
- 青春里,总有谈天不完的曾经
- 瑞典 贵丰/Gryphon Ethos(思潮) 新款旗舰CD机
- 证监会:通过视频会议等形式 确保发审委会议、重组委会议、上市委会议正常推进
- 兴齐眼药(300573.SZ)连续大跌超30% 对近视“神药”阿托品滴眼液的命运 母公司只回应“生产
- 如今门面,地面铺设很少选择铺设瓷砖,而是直接水泥自流平
- 中颖电子(300327.SZ)发在预盈,预计半年度净利润达2.52亿元-2.6亿元,同比增65%-7