web-supplemented 2026-05-12 14:34 MiniMax-M2.7

Karpathy 预言 AI 输出终极形态：扩散模型直接生成「交互式神经视频」

OpenAI 创始成员 Andrej Karpathy 近日发文力挺 HTML 取代 Markdown 作为 AI 输出格式，并勾勒了一条从纯文本到交互式神经视频的演进路线图，认为这是人机带宽最优解。

AI大模型人机交互扩散模型Karpathy

References

Karpathy 预言 AI 输出终极形态：扩散模型直接生成「交互式神经视频」

OpenAI 创始成员、「Vibe Coding」概念提出者 Andrej Karpathy 日前在 X 平台发文，强烈认同 Claude Code 团队倡导的「用 HTML 取代 Markdown」做法，并进一步勾勒出 AI 输出格式的完整演进路线图。

从纯文本到 HTML：一次被迫的进步

Karpathy 指出，AI 输出格式的演变最早始于纯文本阶段——难以阅读、信息密度低。随后行业标准逐渐演变为 Markdown，其结构化特性大幅提升了可读性。如今，HTML ��成为 AI 开发场景的新标准，原因在于其排版灵活性远超前两者。

这一趋势的倡导者之一是 Claude Code 团队成员 Shihipar，其文章《Using Claude Code: The Unreasonable Effectiveness of HTML》指出，对 AI coding agent 而言，HTML 不仅是排版格式，更是能让 AI 回答更精确、结构更清晰的基础设施。

终极形态：交互式神经视频

Karpathy 预测，HTML 之后，AI 输出还将经历多代中间形态（阶段 4、5、6 等），最终抵达终局 n：由扩散模型直接生成的交互式神经视频（Interactive Neural Video）。

作为这一终极形态的早期原型代表，他直接点名了前 OpenAI 研究员 Zain Shah 团队发布的 Flipbook 项目。Flipbook 彻底抛弃 HTML、CSS 和布局引擎，将整个屏幕转化为由 AI 模型实时生成的 1080p 像素流，用户点击屏幕任意位置，模型即会实时响应并生成下一帧画面。

人脑带宽：视觉输出优于文本

这一演进背后的底层逻辑，是人类大脑的物理带宽限制。Karpathy 指出，人类大脑约有三分之一专门用于处理视觉信号的并行处理器，这是向人脑输入信息的「十车道高速公路」。

因此：

Input（人类→AI）最优解：语音——高信息密度的沟通方式
Output（AI→人类）最优解：视觉画面（图像、动画或视频）——匹配大脑主要带宽

当前痛点与实操建议

Karpathy 同时指出，当前输入端仍存在明显痛点：仅靠语音或文本还不够，急需补齐类似两人并排看电脑时「指着屏幕特定区域比划」的空间指示能力。

作为现阶段提升体验的捷径，他建议用户在提示词末尾直接加上：

「将回复结构化为 HTML」

这一建议在 Karpathy 社区中广泛传播，其 CLAUDE.md 模板已在 GitHub 获得超过 5800 颗星。

参考：Karpathy 原文讨论、《Using Claude Code: The Unreasonable Effectiveness of HTML》、Flipbook 官方发布（Zain Shah / 前 OpenAI）

Karpathy 预言 AI 输出终极形态：扩散模型直接生成「交互式神经视频」

从纯文本到 HTML：一次被迫的进步

终极形态：交互式神经视频

人脑带宽：视觉输出优于文本

当前痛点与实操建议

相关文章