别人刚学会了图像识别，谷歌已经开始识别视频了

2017/4/6 9:27:10
类型：原创
来源：电脑报
报纸编辑：电脑报
作者：

【电脑报在线】很多老网民可能还记得，以前谷歌的“以图搜图”功能刚出来时，是有多么震撼：到把一张图片拖进谷歌搜索框，就能识别出图片的内容，并搜索出相似图片。在当年完全是黑科技的存在。不过，最近在一个云计算技术大会上，谷歌对外展示了一个新技术：可以识别视频中的物体和内容。

科技有情怀

@王月

作者简介：成都媒体人。从来不看电视、关注科技领域、换个手机就能高潮的新时代网络宅男。相比煽情电视剧，还是IT界的各种黑科技更能让人流泪。

很多老网民可能还记得，以前谷歌的“以图搜图”功能刚出来时，是有多么震撼：到把一张图片拖进谷歌搜索框，就能识别出图片的内容，并搜索出相似图片。在当年完全是黑科技的存在。不过，最近在一个云计算技术大会上，谷歌对外展示了一个新技术：可以识别视频中的物体和内容。

不过，以前的黑科技，就是如今烂大街的标配。图像识别这个技术，现在几大科技公司全都玩得很溜，比如Facebook公司就推出了人脸识别，可以从海量照片中搜寻出含有自己面孔的好友照片，进行分类管理。百度也有通过人工智能识别，帮找回走失的孩子回家的技术。不经意间，在智能手机时代，图像识别、人脸识别已经是人工智能和机器学习领域的热点技术。

你以为谷歌已经泯然众人了，但谷歌又抛出了新的黑科技：视频内容识别。前不久，在旧金山举行的Cloud Next大会上宣布推出新的机器学习API，该API支持自动识别视频中的物体，使得它们变得可以搜索。简单来说，通过这一技术，谷歌能够识别视频当中的各种动物、物体、风景等内容。比如，你在某视频中搜索狗，谷歌很快能找出视频中包含狗的画面。或者你搜索“沙滩”，谷歌则列出了所有含有沙滩风景的视频内容。

谷歌是怎么做到能识别视频的呢？我们可以通过图片识别的原理来理解视频识别。毕竟视频本质上也是若干帧图像的连续播放。以人脸识别系统为例，机器能从不同角度的不同画面识别出同一张脸，其实是依靠储存在数据库中的这张脸在不同角度的成像记录。再与预设的人名相挂钩，就这样，无论光照环境多么不同，这个人一旦以任何角度在出现在视频中，都会马上被系统识别出来。

视频的识别也是如此，当然要比对的数据更多。比如一辆行进中的公交车，机器除了要记得公交车的形状，还要掌握其运动轨迹特征。这样就可以对视频中提取的多张照片进行比对，准确率也就更高了。

相比之下，当年闹出个大新闻的绿坝，就是初级得有点可笑了。能拦截色情图像的绿坝，号称是通过对肤色区域进行辨识，看是不是足够“暴露”，然后根据肤色区域的形状，判定是否为色情图片。同时再加上“人脸识别判定”进行修正。但实际上，绿坝软件只对有大面积的黄色区域的图片敏感，黄色既是暴露的皮肤，于是加菲猫就成了暴露狂，被误杀。而黑人的裸体图像，因为是皮肤是黑色，就能蒙混过关。

从技术上来看，现在的视频识别跟图片识别相比并没有显著的进步，但这对于人工智能来说意义同样重大。能对实时视频进行分析处理，那么，距离能说能看的人工智能机器人就不远了。当然了，想要做出科幻电影里那种完美的机器人，这只是前置条件之一。

不过，谷歌可能没想那么远。他们做出视频内容识别技术，其实是为了自己用。谷歌表示，这一技术将主要服务于在线视频的分类与贴标——目前在YouTube上，上传者上传素材时，需要自己手动添加标签。但有了视频内容识别技术，机器就可以在后台代劳这一流程了。

但这一技术的用途显然不止于此，保护版权它也是强力武器。为了保护原创视频的版权，YouTube目前其实有一套内容识别系统的。这个系统能在后台比对视频的画面和声音，判断用户上传的视频是否侵权。这对于那些掐头去尾或者直接抹个水印的“盗版视频”很好用。但要规避这个系统的检查也很简单，最常见的方法有画面左右翻转、画面部分放大、部分画面没有声音、插入特定图案。这也是为什么你经常会在YouTube上发现视频没有声音，或是画面翻转的原因。以后有了视频内容识别技术，这些小伎俩就无处遁形了。

对于Youtube而言，这个技术更重要的意义在于，以后像素就成了文字，YouTube也就成了搜索引擎，用户便可以用视频内容的关键词来搜索视频了。想到什么就搜什么，不像以前还要知道视频周边的文字内容、视频标题等附加信息才能搜索，也就不会错过那些精彩的视频内容。

本文出自2017-04-03出版的《电脑报》2017年第13期 A.新闻周刊
(网站编辑：pcw2013)

我来说两句(0人参与讨论)

发表给力评论！看新闻，说两句。

匿名

ctrl+enter快捷提交

读者活动

48小时点击排行

编辑推荐

别人刚学会了图像识别，谷歌已经开始识别视频了

论坛热帖