- 2017/5/10 9:32:08
- 类型:原创
- 来源:电脑报
- 报纸编辑:电脑报
- 作者:
来自大数据的挑战
随着互联网、移动互联网、物联网的发展,天罗地网般遍布世界每个角落的信息设备如电脑、手机、传感器、照相机、摄像头、麦克风、射频识别(RFID)读取器、汽车电子设备等等,每时每刻都在产生几乎是无穷无尽的数据,到 2012年,全球每天会产生2.5EB(B,Byte,即字节)数据。
EB是多少?这先要先温习和扩展一下数据计量单位的知识。我们熟悉的M、G甚至T,已远远不能描述数据的爆炸性增长,更大的计量单位开始使用。数据计量单位代表的数量,从Byte(字节)开始,从小到大依次增加大约1000倍:Byte、KB(103)、MB(106)、GB(109)、TB(1012)、PB(1015)、EB(1018)、ZB(1021)、YB(1024)。YB之后还有DB、NB、CB。
2016年全球数据总量为10ZB,能想象10ZB数据有多大吗?100亿块1TB硬盘!现在,全球数据仍然在以每年40%、两年翻一番的速度增长,预计到2025年,全球数据超过160 ZB,之后,就要向YB迈进了。
数据浩如烟海,只是大数据的特征之一,全面的特征要用 4V来描述——Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据是人类社会无尽的财富,同时又对数据科学提出无穷的挑战。
从各种数据采集器汹涌而来的数据,首先要经过预处理,将非结构化数据转化为机器能处理的结构化数据,为数据建模作最重要的准备。所谓数据的结构化,就是要对数据标注出特征属性。比如对语音,需要将声音波形转化为说话内容、说话人性别、年龄、情绪、周围噪声环境等属性信息。对图像,需要转化为人脸五官位置、年龄、情绪等属性信息。对文本,需要将文字做自然语言理解处理,标注出名词、主语、分词等属性信息。这样对数据进行结构化预处理、标注出信息属性的工作,叫数据标注,是数据处理的一项重要的基础性工作。
数据标注是一项繁重的工作,以前完全靠人工进行,现在开始用机器辅助人工进行。像国外的“亚马逊土耳其机器人”和国内的“魔方众标乐”,便是能够帮助人工进行数据结构化处理的高效众包处理平台。前者长于图像数据标注,后者长于语音数据标注。
大数据技术有一个重要的思路与目标,那就是不进行数据抽样,而是进行全数据处理。这样,对数据结构化工作提出了更高的要求,自动化数据预处理将是打开数据处理效率瓶颈的钥匙,使数据质量的提升和数据处理的速度最终能够跟上AI发展的步伐。而一旦数据标注效率的瓶颈打开,手握优质结构化数据的数据科学家,就会用各种各样精巧的模型和算法,进行数据挖掘和分析,创造出奇迹。
异军突起的数据可视化
数据可视化,是数据科学创造的神奇之一,近些年来,数据可视化异军突起,受到高度关注。
数据可视化(Data Visualization)使人们不再面对枯燥的数据,而是以直观的、交互式的甚至有美感的方式,从不同的维度看到数据及其结构关系,这样,极大的提升了数据应用的价值。电子地图,是数据可视化的一个典型例子。数据库里的地理信息数据,通过可视化技术,在我们面前呈现出一幅直观生动的地图。而且,随着数据不断增多和更新,电子地图的功能也不断丰富,成为我们重要的生活助手。
数据可视化正在高速发展。城市数据可视化、科学可视化、可视化人机交互、可视化分析、高维数据可视化、数据叙事等应用领域不断开拓。数据可视化还与AR/VR结合,增强数据的表现力和影响力。
《卫报》发布的伊拉克战争中伤亡人数图
数据可视化,常常能达到出人意料的效果。2010年10月,英国《卫报》发布了《维基百科伊拉克战争日志:每一次死亡地图》的可视化数据新闻。用来自维基解密的数据和谷歌地图的免费软件Googlefushion,制作出一幅点图,将伊拉克战争中所有人员伤亡情况标注于地图之上。地图上的每一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。学者评价是,“新闻工作者富于人性的思索,通过精准的数据和适当的技术传播出来”。这一地图上遍布血淋林红点的可视化数据新闻,不仅让《卫报》一鸣惊人,也因为直观和交互性地揭示出战争的残酷与血腥,极大震撼和影响了英国公众,一定程度上推动了英国最终作出从伊拉克撤军的决定。
数据的魔力正在重塑世界,但硬币的另一面也显露出来。数据安全事件频发,数据泄露往往造成严重恶果,已经成为社会一大公害。解决这一难题,掌握数据的政府、企业等机构要负起责任,从法律和管理上发力。我们公众,则要提高数据安全意识。数据科学家和数据工程师,则要从技术上贡献智慧。全社会一起努力,才能构筑起坚强的数据安全保护屏障。
数据魔方在高速转动,数据洪流滚滚而来,数据弄潮儿应站立潮头。
报纸客服电话:4006677866 报纸客服信箱:pcw-advice@vip.sin*.c*m 友情链接与合作:987349267(QQ) 广告与活动:675009(QQ) 网站联系信箱:cpcw@cpcw*.c*m
Copyright © 2006-2011 电脑报官方网站 版权所有 渝ICP备10009040号