كارباتي: لا ينبغي للذكاء الاصطناعي أن يتوقف عند Markdown! HTML هو المستقبل، والمآل هو سيناريوهات تفاعلية قابلة للاستكشاف

ChainNewsAbmedia

أندريه كارباشي ظهر مؤخراً على منصة X للرد على آراء مهندس فريق Anthropic Claude Code ثاريق شيهيبار، مشيراً إلى أنه عند توجيه أسئلة إلى نماذج لغوية كبيرة، فإن إضافة جملة واحدة في نهاية نص التوجيه مثل «يرجى تقديم الإجابة في بنية HTML» ثم وضع الملف المُولَّد في المتصفح لمشاهدته غالباً ما يعطي نتائج ممتازة. بل إنه قال إنه حاول أيضاً طلب أن تُقدَّم إجابات LLM في شكل شرائح، وحقق كذلك نتائج جيدة.

(مهندس لدى Anthropic: HTML هو أفضل تنسيق إخراج لبرنامج Claude Code، وليس Markdown)

من النص الخالص إلى HTML: مخرجات الذكاء الاصطناعي تتجه من «قابلة للقراءة» إلى «قابلة للعرض»

تمضي هذه التصريحات في سياق النقاشات التي يدورها مطورو الذكاء الاصطناعي مؤخراً حول ما إذا كان HTML أفضل من Markdown باعتباره تنسيق إخراج للذكاء الاصطناعي. كان شيهيبار قد جادل سابقاً في مقالته «Using Claude Code: The Unreasonable Effectiveness of HTML»، بأن HTML بالنسبة لوكلاء برمجة ذكاء اصطناعي من نوع Claude Code ليس مجرد تنسيق، بل هو واجهة إخراج تسمح بترقية إجابات الذكاء الاصطناعي من نص خطي إلى مستند تفاعلي.

بدوره، رفع كارباشي هذا الموضوع إلى مستوى تطور واجهات الإدخال والإخراج لدى البشر والذكاء الاصطناعي. يرى كارباشي أن الإخراج الافتراضي لمعظم نماذج LLM ما يزال يتوقف عند مرحلة Markdown. وبالمقارنة مع النص الأصلي، حسّن Markdown تجربة القراءة بالفعل عبر العناوين والخط العريض والمائل والجداول، لكنه في جوهره يبقى عرضاً خطياً يعتمد على النص.

وفي تصنيفه، يمكن النظر إلى تنسيق إخراج الذكاء الاصطناعي على أنه مسار تطور تقريباً: المرحلة الأولى هي النص الأصلي، وتكلفة القراءة فيها الأعلى؛ والمرحلة الثانية هي Markdown، أي التنسيق الافتراضي لمعظم منتجات الذكاء الاصطناعي حالياً؛ والمرحلة الثالثة هي HTML. ورغم أن HTML تظل نتاجاً برمجياً، إذ يحتاج طبقات تحتية إلى وسوم وبنية، فإنها توفر قدراً أكبر من المرونة في الرسوم وتخطيط الصفحات والأنماط، بل وحتى إضافة عناصر تفاعلية.

يجعل Markdown إجابات الذكاء الاصطناعي «أسهل في القراءة»، لكن HTML قد يجعلها «يمكن تصفحها ويمكن تشغيلها ويمكن فهمها بصرياً» كمستندات.

وهذا هو أيضاً السبب الجوهري الذي استند إليه شيهيبار في طرح أن HTML تتفوق على Markdown: إذ يمكن لـ HTML حمل مخططات SVG وترميز الألوان وأنماط CSS وأقسام التنبيه وروابط التثبيت داخل الصفحة (anchors) وعناصر تفاعلية وجداول مقارنة جنباً إلى جنب. وفي سيناريوهات مثل الوثائق التقنية وتحليل الثغرات وتمثيل البيانات بصرياً وشرح الدروس، يمكن لـ HTML تحويل المعلومات النصية التي كان يتعين على القراء استيعابها تدريجياً إلى مستند بصري تُفهم فيه على الفور المستويات والمخاطر والعلاقات.

كارباشي: البشر يفضّلون إدخال الصوت، لكن يفضّلون أكثر إخراجاً بصرياً للذكاء الاصطناعي

لا تتمحور وجهة نظر كارباشي الجديدة حول HTML فحسب، بل حول مستقبل واجهات الذكاء الاصطناعي.

يشير إلى أنه من جانب الإدخال، قد يفضّل البشر أكثر التفاعل عبر الصوت والذكاء الاصطناعي، لأن الكلام طريقة تعبير طبيعية ومنخفضة التكلفة. لكن من جانب الإخراج، فإن ما يفضله البشر في الواقع هو المعلومات المرئية، بما في ذلك الصور والرسوم المتحركة والفيديو.

وتتمثل حجته في أن الدماغ البشري يستخدم نحو ثلثه لمعالجة المعلومات البصرية. لذلك، ومع تحسن قدرات الذكاء الاصطناعي، لا ينبغي أن يكتفي الذكاء الاصطناعي بتغليف الإجابات في نص، بل يجب أن يتجه تدريجياً نحو إخراج بصري أعلى كثافة وأكثر بديهية.

وهذا يجعل أهمية HTML أكثر وضوحاً. HTML ليست نقطة النهاية، بل قد تكون مرحلة انتقالية ينتقل فيها الذكاء الاصطناعي من إخراج النص إلى الإخراج المرئي. فهي أكثر قدرة من Markdown على التعبير عن الصور والتخطيط والتفاعل، لكنها في الوقت نفسه أكثر استقراراً وقابلية للتحكم من الفيديو أو المحاكاة التي تُنتَج بالكامل عبر الشبكات العصبية.

ثم يتوقع كارباشي كذلك أنه رغم أن التقنيات ذات الصلة غير موجودة حالياً، فقد تكون النهاية على المدى الطويل لإخراج الذكاء الاصطناعي نوعاً من الفيديو أو المحتوى التفاعلي القابل للتوليد مباشرة بواسطة نماذج الانتشار.

بمعنى آخر، قد لا يقتصر مستقبل الذكاء الاصطناعي على «الإجابة لك بنص»، ولا على «إعداد ملف HTML لك»، بل على توليد مشاهد بصرية تفاعلية وقابلة للاستكشاف ومتغيرة بشكل ديناميكي. يمكن للمستخدمين أن يتفاعلوا داخلها، وأن يراقبوا التغيرات، وأن يفهموا علاقات السبب والنتيجة، كما لو أن مقاطع الفيديو التعليمية والمحاكاة التفاعلية وواجهات التوليد الفوري تم دمجها معاً.

ومع ذلك، يعترف كارباشي بأن هناك ما يزال العديد من الأسئلة المفتوحة في هذا المجال. وبالأخص كيفية ربط مخرجات «Software 1.0» التقليدية في هندسة البرمجيات، أي المخرجات الدقيقة والقابلة للتحقق والقابلة للأتمتة، مثل المحاكاة التفاعلية ومكونات الواجهة الأمامية والنماذج الرياضية، مع صور الشبكات العصبية أو الرسوم المتحركة أو الفيديوهات الناتجة عن نماذج الانتشار، إذ لا توجد حتى الآن إجابة ناضجة.

هذه المقالة «كارباشي: لا ينبغي أن يتوقف الذكاء الاصطناعي عند Markdown! HTML هو المستقبل، والختام هو مشهد تفاعلي قابل للاستكشاف» ظهرت لأول مرة على موقع «链新闻 ABMedia».

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات