Berdasarkan cuitan resmi Ollama pada 27 April, model andalan DeepSeek V4 Pro yang dirilis pada 24 April oleh perusahaan AI asal Tiongkok, DeepSeek, resmi masuk ke direktori resmi Ollama dalam mode cloud; pengguna hanya perlu satu baris instruksi untuk memanggil model tersebut dari alat agent arus utama seperti Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode, dan lainnya. Ini adalah sinkronisasi tercepat dari Ollama mengintegrasikan model-model besar arus utama—dari rilis bobot DeepSeek hingga peluncuran Ollama Cloud, hanya berjarak tiga hari.
DeepSeek V4 Pro:1.6T parameter、1M context
V4 Pro menggunakan arsitektur Mixture-of-Experts, dengan total skala parameter 1,6 triliun (4,9 miliar parameter aktif), dan jendela konteks 1M token. Benchmark pihak ketiga Artificial Analysis menunjukkan bahwa V4 Pro berada sejajar dengan model open-source unggulan Kimi K2.6 pada benchmark penulisan program seperti SWE-bench (80,6%), LiveCodeBench (93,5%), Terminal-Bench (67,9%), dan lain-lain; secara keseluruhan Intelligence Index tertinggal satu langkah di belakang Kimi K2.6.
Pada waktu yang sama, DeepSeek juga merilis model V4 Flash yang lebih ringan; keduanya menggunakan lisensi MIT dan open source, dan bobotnya dapat diunduh dari Hugging Face.
Ollama Cloud inferensi cloud, bobot tidak diunduh ke lokal
deepseek-v4-pro:cloud adalah model Ollama Cloud—inferensi dilakukan di cloud Ollama, dan bobot tidak diunduh ke sisi pengguna. Ini adalah pendekatan standar Ollama untuk menangani model yang sangat besar; sebelumnya Kimi K2.6 juga menggunakan cara yang sama untuk dimasukkan. Bagi pengguna, keunggulan terbesar adalah tidak perlu menyiapkan puluhan GPU untuk memanggil model kelas andalan; kekurangannya adalah tetap perlu koneksi internet, serta sumber daya komputasi dialokasikan sesuai pembagian beban di cloud Ollama.
Jika ingin menjalankan sepenuhnya secara lokal, harus memperoleh bobot deepseek-ai/DeepSeek-V4-Pro dari Hugging Face, dipadukan dengan versi kuantisasi INT4 (seperti GGUF yang dirilis oleh Unsloth) dan konfigurasi GPU multi-kartu agar menjadi layak. Perangkat keras konsumen umumnya tidak cukup untuk menampung model lengkap.
Satu baris instruksi menghubungkan Claude Code, Hermes Agent, OpenClaw
Ollama juga merilis perintah launcher untuk integrasi ke alat agent arus utama:
Maknanya adalah: dulu, jika pengembang di dalam Claude Code ingin beralih menggunakan DeepSeek, mereka perlu melakukan penggabungan sendiri melalui OpenAI yang kompatibel dengan API, serta menangani endpoint dan autentikasi; sekarang cukup satu baris perintah melalui Ollama untuk menyelesaikannya. Bagi pengguna berat Claude Code, ini menyediakan jalur cepat untuk mengganti model Anthropic dengan DeepSeek (atau sepadan dapat diganti dengan Kimi) guna menurunkan biaya.
Respons dari penguji awal:kecepatan dari 30 tok/s hingga puncak 1.1 tok/s
Diskusi komunitas di bawah cuitan menunjukkan bahwa kecepatan inferensi cloud bergantung pada beban cloud Ollama. Beberapa penguji awal melaporkan bahwa saat jam puncak kecepatan cenderung lambat, turun dari kondisi normal 30 tokens/s menjadi sekitar 1,1 tokens/s; pengguna @benvargas langsung menempelkan tangkapan layar untuk mengeluh “Need More Compute”. Di balasan lain, Ollama mengakui bahwa tim resminya “juga sedang bermain dengan model ini”, yang berarti arus lalu lintas masih dalam fase eksplorasi dan belum melakukan perencanaan kapasitas penuh.
Untuk pengembang yang mengejar kecepatan produksi yang stabil, saran saat ini adalah: gunakan mode cloud sebagai pengujian prototipe dan evaluasi biaya; untuk produk resmi tetap perlu membangun fasilitas inferensi GPU sendiri atau memilih API komersial. Tutorial lengkap Ollama juga telah melengkapi bagian V4 Pro serta penjelasan tentang pertukaran antara mode cloud/ lokal.
Artikel ini DeepSeek V4 Pro di Ollama Cloud:Claude Code koneksi satu tombol pertama kali muncul di 链新闻 ABMedia.
Related News
Guo Mingchi: OpenAI ingin membuat ponsel AI Agent, MediaTek, Qualcomm, dan Luxshare Precision menjadi rantai pasokan kunci
Tencent Cloud QClaw mengintegrasikan ke dalam framework Hermes, mendukung peralihan multi-model seperti DeepSeek-V4 Pro
Suara xAI Grok mengambil alih hotline layanan pelanggan Starlink, 70% panggilan masuk otomatis ditutup
DeepRoute.ai Sistem bantuan mengemudi tingkat lanjut menerobos 300.000 unit kendaraan dideploy: target 1 juta armada kota NOA pada 2026
DeepSeek V4-Flash naik ke Ollama Cloud, server AS: Claude Code, OpenClaw sekali klik integrasi