MIT人工智能算法披露：我们如何用 200 万张图片预_服务器

MIT人工智能算法披露：我们如何用200万张图片预

每个人每天都生活在物理世界里，但通常不会深入思考这样一个难题:如何快速了解附近的事物？

人们可以对情况的变化和事物之间的关系做出非常自然的反应。而且这种反思也不会消耗大家的专注力，解决起来也很妥当。

但是，人的这种宝贵的工作能力，对于设备来说并不简单。改变一个事物的潜在发展趋势有无数种可能的方式，这使得计算机很难学会如何正确地做出预测和分析。

近日，麻省理工学院(MIT)计算科学与人工智能技术(CSAIL)实验室科研人员的一项科研成果，再次推动了深度学习的发展趋势。深度神经网络算法可以基于一张图片，让计算机生成一个短视频来模拟模拟图片上的场景，并对下一个场景进行预测和分析。

整个训练过程中，使用了200万个无标记的摄像镜头，总视频时间达到一年。与标准模型算法相比，该算法生成的视频更加真实。在整个检测过程中，深度神经网络算法生成的视频和比标准模型算法多20%的真实性。

根据科学精英团队的说法，这项技术可以用于许多行业，例如改善安全检查措施，增强无人驾驶的安全系数。据该实验室博士生、第一作者介绍，这种算法可以完成人体活动的设备识别，解决人体识别昂贵的成本。“这种视频呈现的是你认为可能在电脑上发生的场景，”Vondrick 说。“如果你能预测未来，你一定能理解现阶段正在发生的事情。”Vondrick和麻省理工学院的专家教授AntonioTorralba也有这种效果，由专家教授 HamedPirsiavash发布。Pirsiavash教授是CSAIL 的博士生，现在是马里兰大学的专家教授。这项工作将于下周在巴塞罗那举行的神经学数据分析系统交流大会(NIPS)上展出。

麻省理工学院人工智能技术实验室应用深度神经网络算法生成预测视频。图为海边、健身运动、公交车站、医院门诊的预测分析结果。

这个新项目近年来一直在让算法“学习和训练”200万个未标记的视频。

动态性视觉效果

人工智能算法行业的很多科学研究都做过类似的研究，包括麻省理工学院专家BillFreeman教授。Freeman 教授最近对“动态视觉效果”的研究与科学研究在接下来的几帧中主动生成一个场景的图像是一样的，但他的显式拼图模型侧重于对未来视频的推断。这在以往的科研成果中是前所未有的。

以前逐帧重建系统软件模型时，边缘总是有较大偏差。相反，这项科研突破了“创建所有场景”的难度，算法一开始就可以创建32帧的视频。

“一帧一帧地创造场景就像玩电话游戏(什么是电话游戏？发送器:http://icebreakerideas.com/telephone-game/)，在屋里转了一圈，信息内容早已完全不同。”冯德里克说，“一次性解决一整个场景，就像你可以给这个游戏里的任何人发送信息一样。”

自然，除此之外制造所有场景时会有一些测量，而对于长视频，计算机模型更复杂，但这个结果越来越准确。这种精准的预测分析，相对于推广的复杂程度，是非常非常值得的。为了更好地创建多帧场景，科研人员训练电子计算机区分市场前景和情况。然后把获得的目标放回视频进行训练，哪一部分是静止的，哪一部分是运动的。

科学精英团队应用了一种叫做“对抗性学习”的深度神经网络算法，该算法训练了两个市场竞争的神经网络。其中一个神经网络生成视频，另一个作为检测器，发现生成的视频与原始视频不同。

根据训练，视频生成的结果可以欺骗检测器。此时，该模型可以生成海滩、公交车站、医院诊所、高尔夫练习场等场景。比如沙滩模型可以生成大海，高尔夫练习场模型可以生成在草地上行走的群体。

精英团队应用了两个相互竞争的神经网络。高斯白噪声输入系统软件G造成假视频，可以有选择地发送到系统软件D，输出后获得真实视频。

在其中一个互联网工作中，整个过程实际上如图所示。将100dB白噪声分别输入市场前景流和背景流，经过采样和Sigmoidmask求解，得到主要参数，根据公式计算出空的图像引流矩阵，引出视频。

虽然有人怀疑视频真假，但已经有了很大的进步。

这个系统软件将认真研究世界，如市场前景的细分。图为算法的图像分割技术，可以获得市场前景和背景。

场景检测

科学精英团队会将这种方法生成的视频与标准模型方法的结果进行核对，并在知道检查者的哪些结果更真实的基础上做出决定。从150个考官呈现的13000个结果来看，感觉前者的真实结果总数比后者高20%。

Vondrick注意到，在现阶段，这个模型仍然缺乏一些简化的常识性规则。比如有时候算法无法知道整体目标移动后所占的面积是否会发生变化，比如界面周围有一列火车。另外，算法生成的人和事的规格看起来会比具体的大很多。

另一个限制因素是时间。这种算法生成的视频只有1.5秒。在中后期的科研工作中，他们的精英团队希望提高时间。但是，这是一个很大的挑战，因为这个规定的算法衡量的是遥远时间点的相关性，然后有意义的是确保风景仍然在更长的时期内。处理这个问题的一种方法是应用无监督学习。

"很难在一个长时间范围的视频中收集准确的信息内容."冯德里克认为，“如果一个视频同时包含烹饪和用餐的主题活动，那么让两种姿势相互关联就很重要，从而让视频看起来更准确。”

这种模型并不拘泥于预测未来。生成的视频还可以用来清理静态图片，赋予动画效果。它就像《哈利·波特》电影中的报纸一样充满活力。这种模型还可以帮助人们在持续安全的摄像机镜头下检查异常。此外，该模型还可以帮助压缩长视频文件存储和推送中的数据包。

“在未来，这项技术可能会扩展每个人的视觉识别系统，只是训练一些视频来识别物体和风景，而无需无监督学习。”冯德里克说。

注:阅读相关网站基本建设方法的文章，请移至网站建设教程频道栏目。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/zz/769456.html

MIT人工智能算法披露：我们如何用 200 万张图片预

发表评论

评论列表（0条）