فتح فريق OpenAI المؤسّس، أندريج كارباتي Andrej Karpathy، المدير التنفيذي السابق للذكاء الاصطناعي في Tesla، نشر على X منشورًا بعنوان «LLM Knowledge Bases» يشرح فيه سير العمل: كيف يشرح مؤخرًا انتقاله بكميات كبيرة من استخدام التوكنات من «التحكم في الشيفرة» إلى «التحكم في المعرفة»—باستخدام LLM لتحويل الأوراق والمقالات والمجلدات والصور المتفرقة إلى «ويكي» شخصي يتم صيانته تلقائيًا. ويؤكد أن هذه المنظومة بأكملها تراكمت على مشروعه البحثي الخاص بحوالي ~100 مقال، و~400 ألف كلمة، وأن LLM كتبها وحدثها طوال الوقت. تجمع هذه المقالة إعداد كارباتي الكامل، وقائمة عملية قابلة للتطبيق للمطوّرين الذين يريدون نسخها.
المبدأ الأساسي: بيانات خام → ترجمة LLM → ويكي → أسئلة وأجوبة
يمكن تلخيص فلسفة تصميم كارباتي في جملة واحدة: «تدخل بيانات خام، فيقوم LLM بترجمتها إلى ويكي، ثم يتيح الويكي لـ LLM الاستعلام عنه، فتقوم نتائج الاستعلام بالعودة إلى الويكي للكتابة فيه مرة أخرى». المفتاح داخل المنظومة هو تحويل دور الإنسان من «كتابة الملاحظات» إلى «مراقبة الملاحظات التي يكتبها LLM». كما أن قاعدة المعرفة لم تعد صيانة يدوية لـ Notion أو Roam Research، بل أصبحت مجموعة ملفات markdown يتم كتابتها تلقائيًا وصيانتها بواسطة LLM.
وصف كارباتي أنه نادرًا ما يحرّر الويكي مباشرة—الكتابة والإضافة للروابط واستخراج البنية والتحقق من الاتساق كلها يقوم بها LLM. إن نمط «LLM هو من يقود المحتوى والإنسان يراقب» مختلف تمامًا عن العادة لدى أغلب الناس في الكتابة اليدوية على Obsidian/Notion، وهو التحول الجوهري في سير العمل هذا.
Step 1:Data Ingest—إلقاء جميع البيانات الخام في مجلد raw/
مدخل كارباتي بسيط جدًا: أنشئ مجلد raw/ وضع داخله كل بيانات المصادر—ملفات PDF للأبحاث، ومقالات الأخبار، ومستودعات الكود، ومجموعات البيانات، والصور، والمواد الخطابية. سيستخدم LLM هذا المجلد كمدخل، ثم «يترجم» تدريجيًا إلى ويكي.
وأشار تحديدًا إلى أداتين:
إضافة Obsidian Web Clipper—تحويل مقالات الويب مباشرة إلى ملفات .md ووضعها في raw/
اختصار لوحة مفاتيح مخصص—تنزيل الصور ذات الصلة من صفحات الويب إلى الجهاز محليًا، بحيث يستطيع LLM قراءتها مباشرة عند الاستشهاد بها لاحقًا
تصميم محوري: توجد كل البيانات الخارجية في شكل «غير متصل بالإنترنت ومحلي»، لضمان ألا يتعثر LLM لاحقًا عند إجراء الاستعلامات بسبب «عدم العثور على رابط المصدر الأصلي».
Step 2:LLM ترجمة الويكي—إنشاء تلقائي للتصنيف والمقالات والروابط العكسية
بعد تجهيز raw/، قام كارباتي باستخدام LLM بشكل «تزايدي» (incrementally) لـ«ترجمة» ويكي—أي هيكل مجلد يتكون من عدد كبير من ملفات .md. سيتولى LLM القيام بأربع مهام:
كتابة ملخصات لكل البيانات الموجودة داخل raw/
تصنيف البيانات إلى مفاهيم (concepts)
كتابة مقال لكل مفهوم
إنشاء روابط عكسية (backlinks) بين المقالات
هذه العملية «تزايدية»—البيانات الجديدة التي تتم إضافتها إلى raw/، يقوم LLM بتحديث أجزاء الويكي المتأثرة فقط، دون الحاجة لإعادة ترجمة الويكي بالكامل. وبالنسبة لموضوعات بحث تراكمت على المدى الطويل (ويكي أبحاث كارباتي نفسه يتضمن بالفعل نحو ~100 مقال وبنطاق ~400 ألف كلمة)، فإن التحديثات التزايدية تكون أكثر عملية بكثير من إعادة الترجمة مرة واحدة.
Step 3:استخدام Obsidian كواجهة أمامية IDE، وتوسيعها عبر إضافات مثل Marp
يستخدم كارباتي Obsidian كواجهة أمامية مرئية للنظام—يمكنه عرض raw/ والويكي المُترجم والمخرجات المرئية المشتقة (شرائح، مخططات). ميزة Obsidian أنه محرر markdown بحد ذاته، متوافق طبيعيًا مع ملفات .md التي ينتجها LLM، كما يدعم توسيع الإضافات (plugins).
وأشار تحديدًا إلى إضافة Marp—إذ يمكنها عرض markdown مباشرة بتنسيق الشرائح، بحيث لا يخرج LLM نصًا فقط، بل يمكنه أيضًا إخراج عروض تقديمية.
Step 4:Q&A—اعتبار الويكي كله هدفًا لاستعلامات LLM
بعد أن يصل الويكي إلى حجم «~100 مقال و~400 ألف كلمة»، تظهر أكثر قدرة إثارة للاهتمام: يمكنك طرح أسئلة معقدة على وكيل LLM agent، فيقوم بالبحث عن إجابة بنفسه ثم يستشهد بالاقتباسات ذات الصلة داخل الويكي.
كان يتوقع في البداية الحاجة إلى «RAG» متقدم (استرجاع متجهي/نماذج تضمين وإعادة ترتيب مثل re-ranking) لتشغيل هذا الحجم، لكنه وجد عمليًا أن LLM نفسه سيُحافظ على ملفات فهرس index لكل جزء وأيضًا ملخصًا قصيرًا لكل مقال. وعند الاستعلام، يستخدم LLM هذه الفهارس والملخصات للعثور على المقاطع ذات الصلة. وضمن حجم ~400 ألف كلمة، يمكن أن يعمل حتى دون RAG معقد.
يتوافق هذا الاكتشاف مع توافق صناعي منذ 2024 حول أن «قاعدة بيانات متجهية» كانت مبالغة في سخونتها، وأن كثيرًا من السيناريوهات لا تحتاجها. فطالما أن قاعدة المعرفة لديك أقل من مئات الملايين من الكلمات (وبحدود structured markdown + LLM يعتني تلقائيًا بالفهرس)، فإن ذلك يكفي.
Step 5:الإخراج—ليس نصًا خامًا، بل markdown/شرائح/مخططات
تصميم كارباتي الآخر: لا يريد أن يرد LLM بنص على الـterminal فقط، بل يريد أن ينتج LLM مخرجات منظمة—ملفات markdown، وعروض Marp، ورسوم matplotlib، وبيانات مرئية. يتم عرض هذه المخرجات داخل Obsidian.
الأهم من ذلك هو دورة العمل: غالبًا ما يقوم كارباتي «بالأرشفة» للنتائج المُنتَجة داخل الويكي، بما يعزز إمكانات الاستعلام لاحقًا. ويصف «أن استكشافه واستعلاماته تتراكم دائمًا (add up) داخل قاعدة المعرفة»—وهو نمط يحافظ على الحالة stateful، وينمو مع الوقت، ويختلف عن محادثة ChatGPT التي تبدأ من الصفر في كل مرة.
Step 6:Linting—فحص ذاتي بواسطة LLM، والعثور على مشكلات الاتساق وفرص المقالات الجديدة
يشغل كارباتي على الويكي فحصًا «لصحة» العمل باستخدام LLM، ويتعامل مع ثلاث فئات من المشكلات:
العثور على حالات عدم اتساق في البيانات (تضارب في وصف المفهوم نفسه عبر مقالات مختلفة)
استخدام بحث الويب لإضافة المعلومات الناقصة
العثور على روابط مثيرة للاهتمام عبر مفاهيم متعددة، واقتراح مقالات جديدة محتملة
تُعد عملية linting هذه مفتاحًا لجعل الويكي «أنظف» مع مرور الوقت—بدونها، سيتراكم الويكي المُترجم تلقائيًا تدريجيًا على تناقضات وضوضاء. ويؤدي LLM أداءً جيدًا في هذه المهمة، وهي واحدة من الأسباب التي يعتقد كارباتي أن سير العمل هذا يمكن أن يستمر على المدى الطويل.
Step 7:أدوات إضافية مصنوعة يدويًا—مثل محرك بحث للويكي
ذكر كارباتي أنه «رمّز على مزاجه» vibe coded محرك بحث صغيرًا يعمل على لويكيه الخاص. ولهذا الأداة استخدامان: (1) أن يستخدم هو واجهة الويب مباشرة للاستعلام؛ (2) والأكثر شيوعًا هو تمرير محرك البحث عبر واجهة CLI وجعله أداة يتعامل معها LLM، بحيث يستطيع LLM في الاستعلامات الكبيرة أن يطابق المقاطع ذات الصلة بدقة.
هذا النمط (يبني الإنسان CLI ثم يجعل LLM يستخدمه كأداة) هو تصميم جوهري في أطر الوكلاء مثل Claude Code وOpenAI Codex—حيث لا يقرأ LLM كل البيانات مباشرة، بل يحصل على مجموعة فرعية مما يحتاجه عبر أدوات (CLI، ومحرك البحث، ونظام الملفات).
Step 8:اتجاهات مستقبلية—توليد بيانات مُركّبة وتدريب نماذج بشكل مُخصّص
عندما يكبر حجم الويكي، يقترح كارباتي اتجاهين متقدمين:
استخدام الويكي لتوليد بيانات مُركّبة (synthetic data)—ليقوم LLM بإنتاج أزواج Q&A وكتابة مقالات تعليمية وأمثلة تلقائيًا لموضوعات معينة
تدريب نموذج مُخصص على البيانات المُركّبة—ليصبح لدى LLM الشخصي «معرفة مدمجة» لهذه البيانات داخل الأوزان، بدلًا من قراءتها فقط داخل نافذة الـcontext window
يدفع هذا الاتجاه قاعدة المعرفة من «ذاكرة خارجية» إلى «ذاكرة مُدمجة»، وهو خطوة تالية في الذكاء الاصطناعي الشخصي. لكنه يعترف أيضًا بأن هذا يتطلب مزيدًا من البنية التحتية، وما يزال في مرحلة الاستكشاف.
فكرة «Idea File» لدى كارباتي: مشاركة التصورات دون مشاركة الكود
بعد أن انتشر منشورُه بصورة كبيرة، طرح كارباتي في منشورات لاحقة مفهومًا جديدًا «idea file»—وفي عصر LLM agent، بدل مشاركة كود ملموس، الأفضل مشاركة «الأفكار»، بحيث يقوم وكيل الطرف الآخر بتخصيصها لك وبنائها من أجلك.
وضع كارباتي «idea file» الخاص بـ LLM Knowledge Bases في GitHub gist، وحرص على إبقائه مجردًا، وترك مساحة لإبداع كل agent. وقد تكون هذه طريقة مشاركة جديدة في مجتمع المطورين مستقبلًا—ليست مستودع GitHub ولا حزمة npm، بل «وثيقة أوامر» موجهة لـ LLM كمعيار مفتوح.
توصيات عملية: كيف يبدأ القراء في تايوان
بالنسبة للمطورين في تايوان الذين يريدون نسخ هذه المنظومة، فإن مسار الدخول العملي يكون:
Obsidian برنامج مجاني، ويمكن استخدامه على macOS/Windows/Linux، ويمكن تنزيله من الموقع الرسمي
إضافة Web Clipper يمكن تثبيتها على Chrome/Firefox/Edge
من جهة LLM يمكنك اختيار Claude Code (CLI) أو ChatGPT (API) أو Ollama محليًا (إذا كانت لديك بطاقة رسومات قوية)
توصية بوضع مجلدي raw/ وwiki/ في نفس مستوى مجلدات Obsidian vault، وإضافة التحكم بالإصدارات بالإضافة إلى .gitignore (حتى يمكن استرجاعها في حال كتب LLM بشكل خاطئ)
ابدأ بموضوع بحث تعرفه أكثر شيء—مثل «تطورات امتثال بورصات العملات المشفرة في 2026» أو «بنية استدلال LLM»، وبعد تجميع 30–50 مقالًا سيتحسن أداء Q&A بشكل ملحوظ
وفي نهاية المنشور قال كارباتي: «هناك مساحة لبناء منتج جديد رائع، وليس هذا الشكل البدائي من تجميع سكربتات الآن». بالنسبة للمبادرين builder، فإن هذه السلسلة thread هي شرح لسير العمل بحد ذاتها، وفكرة ريادة أعمال—ويكي تلقائي عبر LLM، وهو سوق لم يحسم بعد من فيه الفائز بمنتج واضح.
ظهرت هذه المقالة التي كشفها كارباتي بنفسه: «الطريقة الكاملة لبناء مستودع معرفة شخصي باستخدام LLM» لأول مرة على موقع «سلسلة أخبار ABMedia».
مقالات ذات صلة
شركة خزانة بيتكوين K Wave Media تؤمّن ما يصل إلى $485M لبناء البنية التحتية للذكاء الاصطناعي
أنتيماتر تطلق خطة مركز بيانات للذكاء الاصطناعي مع تمويل بقيمة 300 مليون يورو
وزارة التعليم «مباني المكتبات التي تضم ذكاءً اصطناعياً» مكتبات مجانية لاستخدام ChatGPT وClaude! راجع الزمان والمكان مرة واحدة
اقتصاد نماذج افتراضية مدعومة بالذكاء الاصطناعي: Aitana وEmily وتحليل أربعة أنظمة Markdown
تحقق TipTip ربحية EBITDA مع تعزيز الذكاء الاصطناعي لتذاكر الترفيه
مؤسس شركة Astro المشارك يطلق Rosie كمصدر مفتوح: يزامن المهارات عبر 10 وكلاء برمجة يعملون بالذكاء الاصطناعي