全球首个“能让玩家穿越”的AI诞生了!MirageLSD“实时魔改”直播画面

【GameLook专稿,禁止转载!】

GameLook报道/一键将现实世界转换为动画王国,实时让沙漠变成雪山,40毫秒内完成任何视频风格的转换——这些曾经只存在于科幻电影中的场景,如今正通过AI技术变为现实。

近日,AI公司Decart发布的全球首个直播扩散AI模型MirageLSD,不仅突破了传统AI视频生成模型在时间和延迟方面的根本限制,更重要的是,它为AI技术真正走向消费级应用市场开辟了一条全新道路。

要理解MirageLSD的革命性意义,首先需要认识传统AI视频生成技术面临的根本困境。据行业数据显示,目前市场上的主流AI视频生成模型,比如快手的可灵,OpenAI的Sora等,虽然能够产生令人惊艳的视频内容,但它们都面临着两个致命的技术瓶颈:时间长度限制和响应延迟问题。

目前AI视频该局打多难以生成30秒以上的内容

传统模型生成数十秒视频通常需要数分钟的处理时间,即使是最快的实时系统也存在至少数秒的延迟,这使得真正的实时交互应用变得不可能。更严重的是,这些模型由于自回归特性导致的误差累积,在生成长视频时质量会急剧下降。

MirageLSD的核心突破在于其独创的“实时流扩散”(LiveStream Diffusion, LSD)架构。这一技术的工作原理可以用一个简单但精妙的比喻来理解:传统AI视频生成就像是制作一部完整的电影,需要拍摄完所有镜头后再进行后期制作;而MirageLSD则像是现场直播,每一帧画面都是基于前一帧和用户指令实时生成的。

从技术层面分析,根据官方公开的技术文档,LSD模型采用因果自回归结构,在每个时间步接收过去生成的帧窗口、当前输入帧以及用户定义的提示词,然后预测下一个输出帧,并立即将其传递到下一轮生成中。这种设计的革命性在于,它彻底改变了扩散模型的工作方式——从“批量生成固定长度视频片段”转向“逐帧连续生成无限长度视频流”。

为实现真正的24帧/秒实时生成,MirageLSD团队采用了三大关键技术优化:首先是基于英伟达Hopper架构优化的CUDA Mega Kernels,通过减少每层的启动和通信开销,将计算效率提升了100倍以上;其次是结合架构剪枝技术,充分利用GPU特性减少计算量;最后是Shortcut Distillation技术,用精简模型复刻大模型的去噪路径,从而将推理步骤大幅减少。

这些优化的综合效果是惊人的,根据官方数据,MirageLSD相较于以往模型在响应速度上提升了16倍,实现了每帧生成时间控制在40毫秒以内,达到了人眼无法察觉延迟的水平。

项目官网:https://mirage.decart.ai/(可无限次数试玩,单次试玩限时5分钟)

从”换皮”到”二次元传送门”

基于MirageLSD的技术特性,GameLook认为首先是消费级娱乐应用,包括抖音、换脸、直播等,将迎来最大的加成。

毕竟这项技术可以相当于一个“平行世界的传送门”。通过手机摄像头,用户可以实时将周围环境转换为任何想象的场景——从日常的客厅瞬间变成哈利波特的霍格沃茨城堡,或者将自己的形象实时转换为动漫角色。

这种应用的技术可行性建立在MirageLSD的核心能力之上:无限时长生成、零延迟交互和通用输入支持。与现有的AR滤镜技术相比,MirageLSD提供的是完整的场景重构,而非简单的表面效果叠加。

游戏一键换皮

当然在专业应用领域,MirageLSD的潜力更加广阔。对于影视制作行业,这项技术可以实现实时的场景预览和风格调整,大幅降低前期制作成本。据与光同尘创始人陈发灵的观察,AI技术已经将某些商业视频的制作成本降至原来的十分之一,制作时间从两三个月缩短至一周。MirageLSD的实时能力或将进一步压缩这一时间成本。

当然更具想象空间的是在AR/MR设备上的应用。

苹果Vision Pro等设备已经展现了空间计算的可能性,但受限于内容生态的建设速度。MirageLSD的实时转换能力可以将任何现实场景即时转化为AR内容,大大丰富了这些设备的应用场景。

用户戴上MR设备后,可以将周围的世界实时转换为科幻场景、历史重现或者艺术空间,实现真正的“混合现实”体验。

风格秒切换(涉及人脸等生成结果还不算完美,但动作识别已经不错了)

此前GameLook曾将2025年视作AI技术落地的关键之年,而从产业发展的角度分析,MirageLSD代表的不仅仅是AI视频技术突破,更是相关向C端市场渗透的重要节点。

历史上,每一次重大技术革命都经历了从B端专业应用到C端大众普及的过程。个人计算机、互联网、智能手机都遵循了这一规律。

AI视频生成技术目前正处于这一转换的关键时期。传统的AI视频生成工具主要面向专业用户,需要复杂的提示词工程和后期处理。而MirageLSD的实时交互能力将这一门槛大幅降低,普通用户只需要通过简单的文本指令或手势就可以实现专业级的视频效果。

这种技术民主化的影响是深远的。目前中国的AI应用如DeepSeek、豆包、快手可灵等已经在全球市场上展现出强劲竞争力。MirageLSD作为一项具有明显技术优势的创新,自然也有望在这一竞争中占据重要位置。

实时捕捉延迟确实很低

从商业模式的角度来看,实时AI视频技术将催生全新的商业生态。目前在直播电商领域,这种影响已经开始显现。AI主播24小时在线、智能选品精准匹配、大模型实时生成营销话术等应用正在改变传统的电商运营模式。

MirageLSD等类似技术的加入将进一步提升直播间的视觉冲击力和用户体验,可能引发新一轮的直播电商技术军备竞赛。

而如此具有冲击力的技术,自然在技术社区中,MirageLSD的发布引发了广泛关注和深入讨论。

Andrej Karpathy作为OpenAI创始团队成员,同时也是MirageLSD的投资者,对这一技术给予了高度评价。他表示:“Veo等视频扩散模型很神奇,但它们需要花费数秒/数分钟才能生成,MirageLSD是实时的魔法。”同时,他强调这将是一项“通用和强大的技术,有望改变游戏、直播、视频通话、影视、会议、AR/VR等多种领域”。

也有网友测试了用该AI为Mincraft换皮肤,并表示:“在 Minecraft 中测试了 MirageLSD,对于小型游戏开发者来说,专注于核心游戏玩法可能会很酷,然后使用它在演示中获得更好的图形。”

不过尽管MirageLSD取得了显著的技术突破,但仍面临一些需要持续改进的挑战。就比如精细控制能力的不足。虽然MirageLSD支持基于文本的风格变换,但对于特定物体、空间区域或动作的精确控制仍然有限。这在专业应用场景中可能成为制约因素。

第三是语义一致性和几何稳定性的问题。在面对极端风格变换时,模型可能出现物体结构或布局被扭曲的情况。这也是当前AI技术在理解和保持视觉逻辑一致性方面普遍的局限性。

Decart公司也表示,将持续发布模型升级和新功能,包括面部一致性、语音控制和精确物体操控等特性。同时,平台还将上线流媒体支持、游戏集成、视频通话等功能,逐步构建完整的实时视频AI生态系统。

或许在不久的将来,给游戏换皮的工作就轮不到游戏公司来做了,玩家只需一键就能实现类似的效果

如若转载,请注明出处:http://www.gamelook.com.cn/2025/07/575183/

关注微信