Karpathy：AI 不该停在 Markdown！HTML 是未来，终局是可探索的互动式场景

2026-05-12 04:05:39

安德烈·卡爾帕西近日在 X 平台回应 Anthropic Claude Code 團队工程師 Thariq Shihipar 的觀点，指出在向大语言模型提问时，只要在提示詞最后加上一句「请將回答以 HTML 結構呈现」，再把生成的檔案放进瀏覽器中觀看，效果往往非常好。他甚至表示，自己也曾嘗試要求 LLM 將回答做成投影片形式，同樣取得不错成果。

（Anthropic 工程師：HTML 才是 Claude Code 最佳输出格式、不是 Markdown）

从純文字到 HTML：AI 输出正在从「可读」走向「可視化」

这段发言延续了近日 AI 开发者社群对「HTML 是否比 Markdown 更适合作为 AI 输出格式」的討論。Shihipar 此前在文章〈Using Claude Code: The Unreasonable Effectiveness of HTML〉中主張，对 Claude Code 这類 AI coding agent 来说，HTML 不只是排版格式，而是能让 AI 回答从線性文字升級为互动文件的输出介面。

卡爾帕西則进一步將此议題拉高到人類与 AI 的输入、输出介面演进。卡爾帕西认为，目前多數 LLM 的预设输出仍停留在 Markdown 階段。相较於原始文字，Markdown 已经透过標題、粗體、斜體、表格等方式改善阅读體验，但它本质上仍是以文字为核心的線性呈现。

在他的分類中，AI 输出格式大致可以被看成一條演进路徑：第一階段是原始文字，阅读成本最高；第二階段是 Markdown，也就是当前多數 AI 产品的预设格式；第三階段則是 HTML。HTML 雖然仍然是程式化产物，底層需要標籤与結構，但它能提供更彈性的圖形、版面、樣式，甚至能加入互动元素。

Markdown 让 AI 回答「比较好读」，但 HTML 則可能让 AI 回答變成「可以瀏覽、可以操作、可以視覺理解」的文件。

这也是 Shihipar 先前主張 HTML 勝过 Markdown 的核心理由：HTML 可以承載 SVG 圖表、顏色編碼、CSS 樣式、警告区塊、頁內錨点、互动元件与並排比较表。对於技術文件、漏洞分析、资料視覺化、教学解釋等场景，HTML 能將原本需要读者慢慢消化的文字资訊，转化成一眼就能辨识層級、风险与关係的視覺文件。

卡爾帕西：人類偏好用语音输入，但更偏好 AI 用視覺输出

卡爾帕西的新觀点不只是在談 HTML，而是在談 AI 介面的未来。

他指出，从输入端来看，人類可能更偏好用语音与 AI 互动，因为说話是自然、低成本的表达方式。但从输出端来看，人類更偏好的其实是視覺资訊，包括圖片、动畫与影片。

他的理由是，人類大腦约有三分之一用於處理視覺资訊。因此，随著 AI 能力提升，AI 不应只把答案包裝成文字，而应該逐步走向更高密度、更直覺的視覺输出。

这让 HTML 的重要性變得更明確。HTML 不是終点，而可能是 AI 从文字输出邁向視覺化输出的过渡階段。它比 Markdown 更能表达圖像、版面与互动，但又比完全由神经網路生成的影片或模擬更穩定、更可控。

卡爾帕西进一步推測，雖然相关技術目前还不存在，但长期来看，AI 输出的終点可能会是某種由擴散模型直接生成的互动式影片或模擬內容。

也就是说，未来 AI 可能不只是「回答你一段文字」，也不是「幫你做一份 HTML 文件」，而是直接生成可互动、可探索、可动態變化的視覺场景。使用者可以在其中操作、觀看變化、理解因果关係，就像把教学影片、互动模擬与即时生成介面結合在一起。

不过，卡爾帕西也承认，这裡仍有許多开放问題。尤其是如何把傳统软體工程中精確、可验证、可程序化的「Software 1.0」产物，例如互动模擬、前端元件、數学模型，与擴散模型生成的神经網路影像、动畫或影片結合起来，仍然沒有成熟答案。

这篇文章卡爾帕西：AI 不該停在 Markdown！HTML 是未来，終局是可探索的互动式场景最早出现於链新聞 ABMedia。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。