您是否担心您正在拍摄的视频的震颤?还是您对为什么在同一张手机上拍摄视频的人比您更稳定,专业人士感兴趣?最近,苹果研究小组在2024年发表了一项创新研究,揭示了如何在常规手机上在电影级创建稳定视频的秘密。 Apple Machine学习研究部完成的研究工作将发表在高级计算机视觉会议上,有兴趣的读者可以通过相关的学术数据库找到此创新文档。传统的视频稳定技术就像在平衡的船上安装减震器一样。它可以减少震颤,但在许多情况下,它会使油漆自然而扭曲。但是苹果的研究团队改变了他们的想法。我不简单地教会计算机了解三维空间中物体的真实位置和运动的定律,并加入将眼睛注视着可以理解空间深度的计算机。这项调查的核心是采用一种称为“几何感知的视频稳定性的新方法。他们还需要了解每个物体在真实三维世界的照片中每个对象的位置关系。考虑,他们试图使用两个维度图的图片来对待一系列平面图像和相机的相比,他们试图使用两个维度的图表来处理两个维度的图像,以相比,这些方法是在相比的一系列范围内进行访问。案例,当苹果研究团队面对复杂的情况时,它们变得很明显使用两种维度方法分析X 3D运动,以及使用平面镜来观察3D雕塑,不可避免地会丢失大量重要信息。研究团队提出了一种解决方案,以允许计算机了解场景的三维结构。这个过程就像一个考古学家,他在开挖地点建立了三维坐标系统。计算机必须为视频中的每个像素点分配一个精确的深度值,以构建完整的3D场景模型。使用此3D模型,计算机可以准确地了解相机真实运动的实际轨迹,而不是推断表面像素的变化。这种方法的优点是,它允许您区分由相机激动引起的图形变化,并由场景中对象的真实运动引起的。例如,通过拍摄行人,传统方法已经错误地使用了摇动零件f摄像机的运动,从而产生稳定的效果。几何感知方法可以用确定人的真实运动,而只能纠正摄像机。 2。深度估计:找到每个像素以实现几何识别的视频稳定性的“家”,您必须首先解决重要的问题。一种可以准确估计视频中每个像素点的深度信息的方法。这个过程与现实世界绘画距离的每种颜色的标记点一样复杂和重要。研究人员使用了一种称为“单眼深度估计”的技术。这个名字听起来很专业,但是这个原则确实很容易理解。单眼意味着只使用一台相机。但是,一个人有可能用一只眼睛确定物体之间的距离。计算机分析照片中的几个信号以推断深度。对象大小,清晰度,阻塞关系,透视效果等。这一过程的一部分是保持时间的一致性。由于视频是一系列连续的照片,因此相邻帧之间的深度信息必须一致。研究人员开发了一种特殊的算法,以避免“深闪烁”问题,因为估计的深度信息随着时间的推移仍然稳定。与确保演员相同的电影相同。深度估计精度直接影响最终稳定效果。为了提高精度,研究人员还引入了一种多尺度分析方法,该方法同时分析了不同分辨率水平的照片。这就像使用望远镜和放大镜同时观察相同的对象,这使您可以获取更完整,更精确的信息。 3。3D运动建模:打破了用深度信息摇动相机的密码后,下一步是建立相机运动的数学模型。这个过程就像布雷亚国王一个复杂的密码。这需要从明显凌乱的图像变化中找到真正的运动轨迹。相机运动可以分为六个基本的自由度。三个翻译动作(额和后,左右,上下,上下)和三个旋转视频(音调,眨眼,滚动)。研究人员开发了一个精确的数学框架,使他们能够同时估计每个表中这六个运动参数的值。这与监视飞机在空中中所有动作的状态一样复杂和精确。最有趣的是,研究人员发现不同类型的相机奶昔具有不同的功能模式。便携式摄影期间的相位波动似乎是促进的,因为在高频下,较小的振荡,而步行期间的相位波动显示出较大的低频摆动。在分析这些模式时,算法可以更明智地区分应该消除哪些运动以及应保留哪些运动。为了解决复杂的运动情况,研究人员还介绍了“运动分层”的概念。这意味着该算法将相机的复杂运动分解为多个简单的组件,然后单独处理,然后重新综合。此方法是如何在不同部分中打破复杂的机器,一个一个一个修理,然后重新组装它们。 4。智能稳定性算法:在找到稳定性与自然之间的平衡并主导相机真实运动的轨迹之后,最重要的步骤是设计稳定性算法。这款Proceso就像是一位经验丰富的编辑,他编辑了电影,稳定图像并保持自然运动。您需要与完美的平衡。传统的稳定方法通常使用“所有使用”策略,以消除相机的整个运动。失去坚硬而自然的动态。苹果’S研究团队采用了更智能的方法,其算法可以分析每个运动的特征,从而确定应完全消除哪些运动的特征。该算法的核心是“稳定的力适应系统”。该系统就像智能减震器,可以根据道路条件自动调节减震力。一旦检测到明显的波动,系统将提高稳定性。当检测到相机的故意运动(例如监视或翻译)时,系统会降低干预程度和曼尼特的自然性。研究人员还特别注意稳定过程中极限治疗问题。如果相机缺少很多,稳定的屏幕将具有黑色边缘或缺少内容。为了解决这个问题,他们开发了一系列智能图像重建技术,可以通过分析信息来完成缺失的图像内容相邻的框架,确保稳定视频保持完整的视觉效果。 5。实验验证:为了验证该方法的有效性,研究小组对数字语音科学证据进行了大规模的实验测试。他们收集了不同类型的抖动视频,包括手街的场景,步行自拍照和汽车室记录,就像他们准备了一个包含几个“困难和复杂问题”的测试长凳一样。实验结果令人印象深刻。在客观的度量测试中,新方法为维持摄影的自然性提供了巨大的优势,与传统方法相比,稳定性得分的提高约为40%。更重要的是,在主观评估测试中,超过85%的观众认为,以新方式处理的视频看起来更专业和舒适。还值得一提的是,研究团队已经证明了VAR中算法的性能场景。结果表明,新方法可以保持稳定且出色的性能,无论是在室内还是室外,白天和黑夜,静态或动态场景。这种鲁棒性就像是一位整体运动员,在所有比赛中都能表现良好。该实验还揭示了有趣的发现。几何感知方法具有最明显的优势,因为它含有众多深度变化的场景。例如,在拍摄建筑物,景观或人群时,传统方法通常会产生“明胶效应”(照片似乎是畸变为明胶),但是新方法可以很好地围绕此问题奏效。 6。技术挑战和创新的进步。在研究和开发过程中,研究团队面临许多技术挑战,解决每个主题代表了重要的技术进步。最大的挑战之一是计算效率的问题。三维几何分析需要大量计算ER资源。如果处理率太慢,则无法实时满足应用程序的需求。为了解决这个问题,研究团队开发了有效的并行计算机体系结构。该体系结构就像一个装配线效率的工厂门,将复杂的计算任务划分为可以同时执行的多个简单步骤。这样,处理速度几次成功提高,从而使算法可以在常规移动设备上实时运行。另一个重要的挑战是解决运动的歧义。当摄像机剧烈搅动时,屏幕通常会带有模具,这使得很难准确地进行深度估计和运动分析。研究人员开发了一种“弥漫识别”处理方法,该方法可以在运动模糊的情况下保持高处理精度。研究人员还创新了“时空一致性限制”的概念。这个概念允许稳定的视频将保持在时间和空间中,避免了突然的跳跃和不连续性。可以保证,动画电影的角色具有柔和的自然动作,而没有突变违反物理定律的突变。 7.应用程序的实际观点:实验室对日常生活的研究价值不仅反映在学术层面上,而且更重要的是,为视频技术的实际应用打开了新的可能性。最直接的应用程序是提高手机和相机的视频拍摄质量。这项具有成熟的技术,未来的智能手机可以录制更专业和稳定的视频,使普通用户只能享受仅适用于专业摄影师的拍摄效果。在内容创建领域,该技术大大降低了视频生产阈值。过去要实现的必要效果是通过软件算法实现的。这意味着更多的个人UAL的创建者和小型生产设备可以生产高质量的视频内容,并促进整个内容创建生态系统的繁荣和开发。机器人的自主驾驶领域和愿景也将从这项研究中受益。自动驾驶汽车必须使用摄像头感觉到周围环境,而车辆中的坑洼会影响图像质量。几何感知稳定技术的应用提高了环境意识的精度和可靠性,为自主促进的系统提供了更稳定和清晰的视觉信息。在医学领域,技术还提供了广泛的应用观点。医疗手术的内窥镜检查通常会受到轻微搅动的影响。高级稳定技术的应用提供了更清晰的医学图像,并帮助医生做出更精确的诊断。安全监视系统也可以从中受益。户外监视摄像机通常受到影响By因风和振动等因素,导致不稳定的情况。几何识别稳定性技术可以显着提高监视图像的质量并提高安全系统的有效性。 8.技术影响和未来发展这项研究不仅是解决当前的技术问题,而且最重要的是,在整个计算机视觉领域提供了新的想法和方法。几何感知的概念应用于越来越多的视觉处理任务,从图像的增加到视频版,从虚拟现实到增强现实。研究人员特别指出,几何识别方法和人工智能技术的这种结合创造了更大的可能性。通过自动学习技术,算法可以通过大量视频数据学习更好,更稳定的策略,并不断改善处理结果。我就像一个不断学习和进步的学生。作为莫尔E和更多视频正在处理,结果将变得越来越好。随着云计算技术的发展,该技术已实施。还创建了诺科传播的条件。由于稳定的几何感知需要强大的计算机功能,因此云处理使更多的设备可以享受这种先进技术的好处。用户只需将视频加载到云中即可获得稳定处理效果的专业水平。 。研究团队还调查了将该技术与其他先进技术相结合的可能性。例如,Emplo,超级分辨率技术的组合不仅可以帮助稳定视频,还可以同时提高视频的清晰度。结合颜色改进技术,您可以以稳定的水平优化视频颜色性能。 9。对技术细节的详细分析在技术实施层面加深了,这是搜索在许多重要链接中具有精美的设计。在深度估计模块中,研究人员采用了一个神经元网络体系结构卷积,以进行多个规模。该体系结构就像一个具有多个视野的观察系统,它使您可以同时捕获摄影细节和一般的结构信息。网络培训过程也非常创新。研究人员构建了包含真实深度注释的大量数据,还使用了一种称为“学识渊博的Nanding”的技术。该技术允许算法从非标记视频数据中独立学习深度估计规则,从而显着提高了培训数据的规模和多样性。在估计运动的过程中,研究人员介绍了“鲁棒性估计技术”。该技术有效地管理了非典型值和噪声干扰,确保了复杂环境中相机的精确估计。显着提高了计算机效率。 10。与现有视频稳定技术相比,行业比较和技术优势,苹果的研究表明,在多个维度上的优势明显。传统的光流方法主要基于像素的运动分析,这些运动分析容易受到光变化和纹理的损失。几何感知方法通过引入深度信息可以显着提高运动估计的鲁棒性。与基于陀螺仪的硬件的稳定方法相比,纯软件几何学感知方法更加灵活。尽管硬件方法在拍摄过程中可以稳定,但软件方法可以执行拍摄视频的稳定性处理。这意味着用户可以重新处理他们过去拍摄的抖动视频,以获得更好的可视化结果。几何识别方法在处理复杂方案方面具有独特的优势。虽然传统方法经常c当照片中包含多个对象时,Ause混乱允许在每个对象的运动模式之间进行精确区分,这允许更精确,更稳定的处理。从有利可图的角度来看,这项技术具有重要的优势。与需要昂贵且专业设备的传统稳定解决方案相比,软件算法的边际成本几乎为零,开发后可以无限使用。毕竟,苹果对几何识别视频的稳定性的研究代表了视频处理技术中的重要里程碑。通过在传统的两个维度图像处理过程中引入几何理解,研究人员成功地解决了对该行业多年来影响的技术问题。该技术不仅允许普通用户发送更多专业的视频,而且更重要的是,它在整个计算机上提供了新的想法和方法ER视觉领域。从技术发展的角度来看,这项研究是从传统图像处理到智能视觉理解的过渡趋势。有理由相信,人工智能技术的持续发展将使未来的视频处理技术更加聪明,更高效,并改善用户的视觉体验。对于常规消费者而言,技术的普及意味着进一步降低视频创建门槛。使任何人都可以轻松地创建专业的视频内容,促进整个数字媒体行业的增长和创新。网络和5GCON云计算技术的开发,此高级视频处理功能变得更加流行和方便。这项研究还提醒我们,技术创新通常来自对问题本质的深刻理解。 Apple R没有实现现有框架中的次要改进研究团队重新审查了问题的性质,并从三维几何学角度重新定义了视频稳定性的概念。值得学习并指代这种创新的思想并指代所有工程师。有兴趣获取有关技术细节信息的读者可以咨询Apple发表的完整研究工作。这包括更多的数学公式,实验数据和技术实现细节。这项研究无疑对计算机视野和视频处理有重大影响,并将鼓励更多相关技术的发展。 Q AQ1:几何视频稳定技术与传统视频稳定方法有什么区别?答:传统方法仅分析图像表面上的像素,并使用平面镜观察3D对象。几何感知方法首先包括场景的三维结构,并为每个场景分配一个精确的深度值像素。连接您的眼睛以了解空间的深度,以在物体的真实运动和摇动相机之间以更高的精度区分。 P2:该技术什么时候可以在常规手机上使用?答:作为手机制造商,苹果可以是第一个在Futuros产品中用于iPhone的人。由于这项技术通常从研究到营销已有1 – 2年,因此这种先进的视频稳定效果有望在不久的将来具有消费程度的设备。 P3:几何检测视频稳定性技术对手机有高性能要求吗?答:研究团队特别开发了一个有效的并行计算体系结构,该体系结构将复杂的计算分为简单的步骤,使其可以同时执行,作为有效的工厂装配线。这种优化允许该算法在普通的移动设备上实时执行,而无需超载手机P超凡的。
特殊声明:先前的内容(包括照片和视频(如果有))受到自我传播者的约束,并由Ratform“ NetEase”的用户发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由Neteteshao的用户(社交媒体平台)的用户收取和发布,仅提供信息。障碍服务。