Karpathy的AI实时视频生成模型:直播,直接传播,无限的时间和零延迟

2025-07-21 00:36:04 | 作者: 匿名

伟大的Karpathy大师不禁投资于AI初创公司,这是第一个实时扩散视频的一代!

使用扫帚作为麦克风和盒子作为混合站,以启动无需昂贵设备的身临其境的直播。

喜欢游戏类型,但不喜欢游戏的图片?简单,实时更改样式难道不舒服吗?

以上是Miragelsd的演示效应,Miragelsd是AI启动曲线的最新视频模型,该模型是第一个实现无限实时视频生成的AI模型。

只要您有想象力,幻影就可以实时生成视频流,为您创建一个独家的魔法世界

输入支持实时广播,游戏,视频通话,相机拍摄,按需广播和其他形式,可以说可以一直转移。

主要是,幻影与其他等待时间较长但只能产生5-10秒视频的模型不同。它没有时间限制,延迟下降到不到40毫秒。说这是零延迟并不夸张。

响应速度比以前的型号快16倍,可实时视频每秒24帧,并且还允许在视频生成过程中进行连续的提示,转换和编辑。

我已经实现了“您随时考虑一下,我会随时转动它”!

因此,AI大师Kapasi也出来支持:实时!

同时,他还透露他还是前时候的天使投资人(非常小)。

Karpathy的AI实时视频生成模型:直播,直接传播,无限的时间和零延迟

接下来,让我们看看Mirage如何做到这一点。

攻克了传统自回归视频模型中“误差累积”的核心难题

Miragelsd采用了pestart的自定义实时流扩散模型实时流扩散(LSD),该模型可以在逐帧生成内容框架时保持时间连贯性。

在视频生成过程中,由于自回归模型的每个帧都取决于上一个帧,因此位置偏移阴影或纹理错误细节会随着时间的推移而积累,并且此错误积累将导致模型逐渐偏离训练。

当当前的视频模型在20-30秒内生成内容时,由于错误的积累,它将导致质量大幅下降,因此某些模型只能生成固定长度的简短视频。

Miragelsd实现无限生成的能力的核心是解决传统自回旋视频模型中“错误积累”的关键瓶颈。

它使用逐帧的因果自动估计结构来处理数据,每个帧生成仅依赖于先前生成的帧和用户提示,而不是完整的视频序列。这种模式为连续生成无限视频的基础奠定了基础。

同时,依靠扩散强迫技术,该模型可以在训练期间独立地降低单一帧,而无需依靠完整的视频环境,从而确保了逐帧的一致性。

为了应对传统自回旋模型中由于随时间而导致的微小错误引起的图像失真问题,MiragelsD通过历史增强策略解决了屏幕扭曲的问题:积极地添加模拟模型可能在训练过程中添加模拟模型产生的伪像(例如噪声,失真),以便在训练过程中进行预测和纠正这些缺陷。

此外,在推理阶段明确告知“历史框架可能不正确”的模型可以保持对错误的警惕,并不断呼吁在训练过程中学习的校正能力。

此外,以前的模型花了几分钟的处理时间来生成几秒钟的内容。以大块方式生成视频也引入了不可避免的延迟,这阻止了实时互动。

Karpathy的AI实时视频生成模型:直播,直接传播,无限的时间和零延迟

MiragelsD使用改进的变压器模型体系结构,并与专门设计的视觉编码器配对,改进的位置编码以及针对长期交互式序列进行了优化的结构,以快速处理输入并生成输出。

同时,将高级蒸馏策略应用于生成部分的扩散模型部分,该部分有效地提高了运行速度,同时确保了发电质量。借助KV缓存技术支持的长上下文窗口,该模型可以记住以前的状态信息,并避免频繁处理大量历史数据引起的延迟。

在核心集成帧级的提示文字处理机制中,可以立即解析玩家的键盘说明和自然语言提示,并迅速转换为相应的操作。

动态输入系统可以使用超低延迟处理播放器输入,无论是生成新元素还是更改环境,都可以快速响应。

此外,视觉更新通过完整的双工通信通道流回流,并且输入和输出并行处理,从而消除了数据传输和处理的延迟; “垂直训练”过程用于允许模型深入学习相关的规则和模式,从而减少了生成过程中的计算开销和错误尝试,并进一步间接改善了实时性能。

它意识到操作,例如“您可以通过摇动衣服换衣服”和“将棍棒变成发光武器”。

Miragelsd是由位于加利福尼亚的一家创业公司destart建造的,成立于2023年。

2024年,沿杜松子推出了首个实时生成AI开放世界模型OASIS OASIS。

OASIS支持实时交互,并且可以达到每秒20帧的零延迟产生效率。

从这个角度来看,Miragelsd的效率也以每秒24帧的速度提高。

该团队还表示,它将定期发布Miragelsd的升级模型和新功能,包括面部一致性,语音控制和精确的对象控制,以逐步改善用户体验。

用户评论

鹿先森,教魔方

哇,Karpathy的AI实时视频生成模型听起来太酷了!直播的时候直接传播,感觉未来已经来了。

    有11位网友表示赞同!

非想

这模型听起来很厉害,无限的时间和零延迟,对于直播行业来说是个大福音啊!

    有17位网友表示赞同!

反正是我

Karpathy的AI模型真的能实现零延迟吗?如果能,那直播效果肯定会大大提升。

    有12位网友表示赞同!

怅惘

一直觉得AI技术发展得太快了,Karpathy的实时视频生成模型让我对直播行业有了新的期待。

    有12位网友表示赞同!

昂贵的背影

无限时间和零延迟,这听起来像是科幻电影里的场景,Karpathy这次做到了吗?

    有10位网友表示赞同!

心已麻木i

如果Karpathy的AI模型真的可以实现直播零延迟,那对于我们这些观众来说,观看体验绝对会大大提升。

    有6位网友表示赞同!

ー半忧伤

Karpathy的AI实时视频生成模型,听起来很高级,不知道具体实现原理是怎样的。

    有17位网友表示赞同!

巷口酒肆

直播界的变革可能就要来了,Karpathy的AI模型如果能普及,那我们看直播的日子会更好过。

    有20位网友表示赞同!

野兽之美

Karpathy的AI实时视频生成模型,这名字听起来就很高大上,期待看到实际效果。

    有6位网友表示赞同!

哥帅但不是蟋蟀

无限时间和零延迟,这对于直播行业来说,意味着什么?是革命性的改变吗?

    有16位网友表示赞同!

我就是这样一个人

Karpathy的AI模型,如果真的可以实现直播零延迟,那对于网络速度的要求会不会很高呢?

    有12位网友表示赞同!

南宫沐风

直播界的新技术,Karpathy的AI实时视频生成模型,感觉未来直播会变得更好看。

    有11位网友表示赞同!

娇眉恨

零延迟的直播,听起来就很吸引人,Karpathy的AI模型能否让直播变得更加真实呢?

    有9位网友表示赞同!

淡抹丶悲伤

无限时间和零延迟,这模型听起来像是为直播量身定做的,期待它的实际应用。

    有7位网友表示赞同!

不忘初心

Karpathy的AI模型,如果能普及到每个直播平台,那直播行业将会发生翻天覆地的变化。

    有16位网友表示赞同!

清原

直播零延迟,听起来很诱人,不知道Karpathy的AI模型在实际应用中会不会出现什么问题。

    有10位网友表示赞同!

单身i

无限时间和零延迟,这样的技术如果应用到直播中,那对于观众来说,观看体验将会有质的飞跃。

    有16位网友表示赞同!

惦着脚尖摘太阳

Karpathy的AI实时视频生成模型,这是否意味着直播行业将迎来新的发展机遇呢?

    有8位网友表示赞同!

闷骚闷出味道了

对于Karpathy的AI模型,我充满了期待,希望它能够为直播行业带来更多的可能性。

    有14位网友表示赞同!

声明:本文由入驻作者编辑撰写,除官方账号外,观点仅代表作者本人,不代表本平台立场,如有侵犯您的知识产权的作品和其它问题,请与我们取得联系,我们会即时修改或删除。

标签

相关新闻

  • 2019扣篮大赛nba,2019扣篮大赛全场回放

    2019扣篮大赛nba,2019扣篮大赛全场回放

    一、背景介绍2019年扣篮大赛于2月17日在夏威夷檀香山举行,吸引了各国精英球员前来参赛。本次比赛包括个人赛、全明星对抗赛和三分球大赛三个项目。二、个人赛1. 历史最佳花絮当晚最令人印象深刻的是波特-詹宁斯一跃而起从背板......

    2023-09-04 5300
  • 精灵之从加入火箭队开始逆袭番茄,神奇宝贝之火箭队逆袭

    精灵之从加入火箭队开始逆袭番茄,神奇宝贝之火箭队逆袭

    1. 比赛背景  本场比赛是NBA季后赛的一场焦点战役,两支强队之间的对决备受关注。未能在前六场中一举拿下胜利的火箭队,在主场迎战已经拿到四场胜利的快船队。 2. 火箭的关键人物  硬实力派的詹姆斯·哈登成为本场比赛的绝......

    2023-09-04 25245