MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Karpathy 预言 AI 输出终极形态:扩散模型直接生成「交互式神经视频」

OpenAI 创始成员 Andrej Karpathy 近日发文力挺 HTML 取代 Markdown 作为 AI 输出格式,并勾勒了一条从纯文本到交互式神经视频的演进路线图,认为这是人机带宽最优解。

References

Karpathy 预言 AI 输出终极形态:扩散模型直接生成「交互式神经视频」

OpenAI 创始成员、「Vibe Coding」概念提出者 Andrej Karpathy 日前在 X 平台发文,强烈认同 Claude Code 团队倡导的「用 HTML 取代 Markdown」做法,并进一步勾勒出 AI 输出格式的完整演进路线图。

从纯文本到 HTML:一次被迫的进步

Karpathy 指出,AI 输出格式的演变最早始于纯文本阶段——难以阅读、信息密度低。随后行业标准逐渐演变为 Markdown,其结构化特性大幅提升了可读性。如今,HTML ���成为 AI 开发场景的新标准,原因在于其排版灵活性远超前两者。

这一趋势的倡导者之一是 Claude Code 团队成员 Shihipar,其文章《Using Claude Code: The Unreasonable Effectiveness of HTML》指出,对 AI coding agent 而言,HTML 不仅是排版格式,更是能让 AI 回答更精确、结构更清晰的基础设施

终极形态:交互式神经视频

Karpathy 预测,HTML 之后,AI 输出还将经历多代中间形态(阶段 4、5、6 等),最终抵达终局 n:由扩散模型直接生成的交互式神经视频(Interactive Neural Video)。

作为这一终极形态的早期原型代表,他直接点名了前 OpenAI 研究员 Zain Shah 团队发布的 Flipbook 项目。Flipbook 彻底抛弃 HTML、CSS 和布局引擎,将整个屏幕转化为由 AI 模型实时生成的 1080p 像素流,用户点击屏幕任意位置,模型即会实时响应并生成下一帧画面。

人脑带宽:视觉输出优于文本

这一演进背后的底层逻辑,是人类大脑的物理带宽限制。Karpathy 指出,人类大脑约有三分之一专门用于处理视觉信号的并行处理器,这是向人脑输入信息的「十车道高速公路」。

因此:

  • Input(人类→AI)最优解:语音——高信息密度的沟通方式
  • Output(AI→人类)最优解:视觉画面(图像、动画或视频)——匹配大脑主要带宽

当前痛点与实操建议

Karpathy 同时指出,当前输入端仍存在明显痛点:仅靠语音或文本还不够,急需补齐类似两人并排看电脑时「指着屏幕特定区域比划」的空间指示能力

作为现阶段提升体验的捷径,他建议用户在提示词末尾直接加上:

「将回复结构化为 HTML」

这一建议在 Karpathy 社区中广泛传播,其 CLAUDE.md 模板已在 GitHub 获得超过 5800 颗星。


参考:Karpathy 原文讨论、《Using Claude Code: The Unreasonable Effectiveness of HTML》、Flipbook 官方发布(Zain Shah / 前 OpenAI)