企業 IA資料優化新工具 Blockify 5 月 9 日由 akshay_pachaar 整理推廣,宣稱在 RAG(Retrieval-Augmented Generation)流程中可压縮 40 倍企業資料庫、查詢 token 用量減 3 倍、向量搜尋準確率提升 2,3 倍。Blockify 官方 GitHub 說明:產品由 Iternal Technologies 推出,用「IdeaBlock」結構化知識單元取代傳統 chunking,並透過去重合併讓知識庫保持精簡、連貫、可治理。
核心概念:用 IdeaBlock 取代傳統 chunking
Blockify 的技術設計:
傳統做法:把長文件切成固定大小的 chunk、嵌入向量、檢索時取 top-k
Blockify 做法:把原始內容轉換為 IdeaBlock—XML 結構化知識單元
每個 IdeaBlock 內含:自帶問題、可信答案、tag、實體、關鍵字
相似 IdeaBlock 自動去重合併、知識庫不會隨內容增長膨脹
傳統 chunking 的問題是同一資訊可能在多個 chunk 中重複出現,造成檢索冗餘與 token 浪費;IdeaBlock 透過去重把資訊密度提升,同樣內容用更小的儲存空間表達。
具體效益:壓縮 40 倍、token 減 3 倍、準確率升 2,3 倍
Blockify 公布的具體效益指標:
資料壓縮:企業資料庫縮減至原大小約 2,5%(40 倍壓縮)、保留 99% 以上資訊
每查詢 token:從約 303 個(傳統 chunk)降至約 98 個(IdeaBlock)—3,09 倍效率
向量檢索準確率:提升 2,29 倍
整體準確率改善:約 78 倍(含去重與檢索改進綜合效應)
成本節省試算:1 億查詢/年,節省 token 成本約 73,8 萬美元
78 倍的整體準確率提升是綜合效應—去重減少噪音、IdeaBlock 結構化內容對向量檢索友善、單次回答 token 數下降同時減少模型出錯空間。
整合範圍:LlamaIndex、LangChain、Milvus、Cloudflare 等主流框架
Blockify 已整合的開發者工具與基礎設施:
RAG 框架:LlamaIndex、LangChain
知識管理:Obsidian
向量資料庫:Milvus、Elastic、Supabase
邊緣運算:Cloudflare
低程式碼整合:n8n(透過工作流程模板)
Blockify 的整合策略是「不取代既有 RAG 框架,而是作為前置資料優化層」。開發者可在現有 LlamaIndex 或 LangChain 流程中,用 Blockify 替換原本的 chunking 步驟,其餘流程不變。
後續可追蹤的具體事件:Blockify GitHub 星數成長與社群採用率、Iternal Technologies 是否就 IdeaBlock 結構申請或揭露技術細節(目前標榜「patented ingestion」),以及主流 RAG 框架是否將類似去重邏輯內建為預設功能。
這篇文章 Blockify 改寫企業 RAG:用 IdeaBlock 取代 chunking、壓縮 40 倍、token 減 3 倍 最早出現於 鏈新聞 ABMedia。
Related News
Conflit en mode code d’Anthropic : MCP vs CLI — les outils bloquent le runtime, les tokens passent de 150 000 à 2 000
Nvidia ouvre un partenariat de long terme en matière d’IA avec Deepinfra, qui obtient un financement de série B de 107 millions de dollars afin de créer une « usine de jetons »
Anthorpic lance un agent IA spécialisé pour la finance, et des initiés révèlent que Claude ne peut pas remplacer les analystes clés dans le secteur
Ingénieurs d’Anthropic : le HTML est le meilleur format de sortie pour Claude Code, pas Markdown
OpenAI Codex lance une extension pour Chrome : permet de tester une Web App dans le navigateur, de récupérer le contexte entre pages, et de fonctionner en parallèle