Andrej Karpathy baru-baru ini di platform X menanggapi pandangan tim engineer Anthropic Claude Code, Thariq Shihipar, dengan menyatakan bahwa saat mengajukan pertanyaan ke model bahasa besar, jika di akhir prompt ditambahkan kalimat “Tolong sajikan jawaban dalam struktur HTML”, lalu file hasilnya dimasukkan ke browser untuk dilihat, efeknya sering kali sangat bagus. Bahkan, ia mengatakan bahwa dirinya pun pernah mencoba meminta LLM membuat jawaban dalam format presentasi slide, dan hasilnya juga cukup memuaskan.
(Engineer Anthropic: HTML adalah format output terbaik untuk Claude Code, bukan Markdown)
Dari teks biasa ke HTML: output AI sedang bergeser dari “mudah dibaca” menuju “mudah divisualisasikan”
Pernyataan ini melanjutkan diskusi komunitas pengembang AI belakangan ini tentang apakah HTML lebih cocok dibanding Markdown sebagai format output AI. Sebelumnya, Shihipar dalam artikel berjudul〈Using Claude Code: The Unreasonable Effectiveness of HTML〉berargumen bahwa untuk coding agent AI seperti Claude Code, HTML bukan sekadar format tata letak, melainkan antarmuka output yang dapat menaikkan jawaban AI dari teks linier menjadi dokumen interaktif.
Karpathy kemudian mengangkat isu ini ke evolusi antarmuka input dan output bagi manusia dan AI. Karpathy berpendapat bahwa saat ini sebagian besar output default LLM masih berhenti pada tahap Markdown. Dibandingkan teks asli, Markdown memang telah meningkatkan pengalaman membaca lewat judul, huruf tebal, huruf miring, tabel, dan lainnya, tetapi pada dasarnya masih menyajikan secara linier dengan teks sebagai inti.
Dalam kategorinya, format output AI secara garis besar dapat dilihat sebagai jalur evolusi: tahap pertama adalah teks mentah, yang menimbulkan biaya baca paling tinggi; tahap kedua adalah Markdown, yaitu format default dari kebanyakan produk AI saat ini; tahap ketiga adalah HTML. Meski HTML tetap merupakan produk yang sifatnya terprogram, yang mendasarinya memerlukan tag dan struktur, HTML dapat menawarkan gambar, tata letak, gaya yang lebih fleksibel, bahkan dapat menambahkan elemen interaktif.
Markdown membuat jawaban AI “lebih mudah dibaca”, tetapi HTML berpotensi membuat jawaban AI menjadi dokumen yang “bisa dilihat, bisa dioperasikan, dan bisa dipahami secara visual”.
Inilah alasan inti Shihipar sebelumnya yang mengatakan HTML lebih unggul daripada Markdown: HTML dapat menampung diagram SVG, pengkodean warna, style CSS, blok peringatan, anchor di dalam halaman, elemen interaktif, serta tabel perbandingan berdampingan. Untuk skenario seperti dokumen teknis, analisis kerentanan, visualisasi data, penjelasan edukatif, dan sebagainya, HTML dapat mengubah informasi teks yang awalnya perlu dicerna pembaca pelan-pelan menjadi dokumen visual yang langsung menampilkan hierarki, tingkat risiko, dan hubungan.
Karpathy: Manusia cenderung menyukai input suara, tetapi lebih menyukai output visual untuk AI
Pandangan baru Karpathy tidak hanya membahas HTML, tetapi membahas masa depan antarmuka AI.
Ia menyoroti bahwa dari sisi input, manusia mungkin lebih menyukai interaksi dengan suara dan AI karena berbicara merupakan cara penyampaian yang alami dan berbiaya rendah. Namun dari sisi output, yang justru lebih disukai manusia adalah informasi visual, termasuk gambar, animasi, dan video.
Alasannya adalah bahwa otak manusia sekitar sepertiga digunakan untuk memproses informasi visual. Karena itu, seiring kemampuan AI meningkat, AI tidak seharusnya hanya membungkus jawaban dalam bentuk teks, melainkan secara bertahap bergerak menuju output visual yang lebih berdaya padat dan lebih intuitif.
Hal ini membuat pentingnya HTML menjadi lebih jelas. HTML bukan titik akhir, melainkan kemungkinan menjadi fase transisi ketika AI berpindah dari output teks ke output visual. HTML lebih mampu mengekspresikan gambar, tata letak, dan interaksi dibanding Markdown, tetapi juga lebih stabil dan terkontrol dibanding video atau simulasi yang sepenuhnya dihasilkan oleh jaringan saraf.
Karpathy juga berspekulasi bahwa meski teknologi terkait saat ini belum ada, dalam jangka panjang titik akhir output AI kemungkinan adalah semacam konten video atau simulasi interaktif yang dihasilkan langsung oleh model difusi.
Dengan kata lain, di masa depan AI mungkin tidak hanya “menjawabmu dengan teks”, dan bukan pula “membuatkan dokumen HTML”, melainkan langsung menghasilkan skenario visual yang dapat diinteraksikan, dieksplorasi, dan mengalami perubahan dinamis. Pengguna dapat mengoperasikan, menonton perubahan, dan memahami hubungan sebab-akibat di dalamnya—seolah menggabungkan video pembelajaran, simulasi interaktif, dan antarmuka generasi real-time.
Namun, Karpathy juga mengakui bahwa masih banyak pertanyaan terbuka di sini. Terutama bagaimana menggabungkan produk “Software 1.0” dalam rekayasa perangkat lunak tradisional—yang presisi, dapat diverifikasi, dan dapat diprogram, seperti simulasi interaktif, komponen front-end, model matematika—dengan citra jaringan saraf, animasi, atau video yang dihasilkan oleh model difusi, karena hingga kini belum ada jawaban yang matang.
Artikel ini, Karpathy: AI tidak boleh berhenti di Markdown! HTML adalah masa depan, ujung akhirnya adalah skenario interaktif yang dapat dieksplorasi, pertama kali muncul di Jaringan berita ABMedia.
Related News
Anthropic: Pelatihan teks fiksi ilmiah untuk Claude Opus 4 meningkatkan tingkat keberhasilan pemerasan sebesar 96%
OpenAI meluncurkan program keamanan siber Daybreak, arsitektur tiga lapis GPT-5.5 melawan Anthropic Mythos
Akshay menguraikan arsitektur 6 lapis Claude Code: model hanyalah satu node dalam sebuah siklus
Jim Cramer: Saham sektor pusat data AI “belum terlalu terlambat”, daftar mencakup 4 kategori mulai dari chip hingga listrik
Perselisihan Mode Kode Anthropic: MCP Vs CLI—alat mengunci Runtime, token dari 150K turun ke 2K