Корпоративный инструмент оптимизации данных для ИИ Blockify 9 мая собрал и продвигал akshay_pachaar. Он заявляет, что в процессе RAG (Retrieval-Augmented Generation) может сжать корпоративную базу данных в 40 раз, снизить потребление токенов при запросах в 3 раза, а точность векторного поиска повысить в 2,3 раза. В официальном описании Blockify на GitHub сказано: продукт выпустила Iternal Technologies; структура «IdeaBlock» заменяет традиционное chunking, а за счёт дедупликации и объединения пересечений база знаний остаётся компактной, связной и управляемой.
Ключевая идея: IdeaBlock вместо традиционного chunking
Технический дизайн Blockify:
Традиционный подход: длинные документы режутся на чанки фиксированного размера, создаются встраиваемые векторы, при извлечении берутся top-k
Подход Blockify: исходный контент преобразуется в IdeaBlock — XML-структурированные единицы знаний
Каждый IdeaBlock включает: встроенный вопрос, проверяемый ответ, тег(и), сущности, ключевые слова
Похожие IdeaBlock автоматически дедуплицируются и объединяются, поэтому база знаний не раздувается по мере роста контента
Проблема традиционного chunking в том, что одна и та же информация может повторяться в нескольких чанках, создавая избыточность при извлечении и трату токенов; IdeaBlock через дедупликацию повышает плотность знаний — то же самое содержание выражается в меньшем объёме хранения.
Конкретные выгоды: сжатие в 40 раз, токены в 3 раза меньше, точность повышается в 2,3 раза
Опубликованные Blockify показатели конкретной эффективности:
Сжатие данных: корпоративная база сокращается до примерно 2,5% от исходного размера (сжатие в 40 раз), при этом сохраняется более 99% информации
Токены на каждый запрос: примерно со 303 (традиционный chunk) до примерно 98 (IdeaBlock) — эффективность в 3,09 раза выше
Точность векторного извлечения: повышение в 2,29 раза
Общее улучшение точности: примерно в 78 раз (с учётом комплексного эффекта дедупликации и улучшения извлечения)
Расчёт экономии затрат: 100 млн запросов в год, экономия токен-стоимости около 738 тыс. долларов
Общее повышение точности в 78 раз — это совокупный эффект: дедупликация уменьшает шум, IdeaBlock структурированный контент удобнее для векторного поиска, а снижение числа токенов на ответ одновременно уменьшает пространство для ошибок модели.
Сфера интеграции: LlamaIndex, LangChain, Milvus, Cloudflare и другие популярные фреймворки
Уже интегрированные разработческие инструменты и инфраструктура Blockify:
RAG-фреймворки: LlamaIndex, LangChain
Управление знаниями: Obsidian
Векторная БД: Milvus, Elastic, Supabase
Edge-вычисления: Cloudflare
Интеграция low-code: n8n (через шаблоны рабочих процессов)
Стратегия интеграции Blockify — «не заменять существующие RAG-фреймворки, а выступать как слой предварительной оптимизации данных». Разработчики могут, сохраняя остальной процесс неизменным, заменить шаг chunking на Blockify в уже существующих workflow LlamaIndex или LangChain.
Дальнейшие события, за которыми можно следить: рост числа звёзд на GitHub Blockify и уровень внедрения в сообществе, подала ли Iternal Technologies заявку или раскрыла технические детали по структуре IdeaBlock (на данный момент акцент на «patented ingestion»), а также будут ли популярные RAG-фреймворки включать похожую логику дедупликации как встроенную функцию по умолчанию.
Эта статья Blockify «переписывает корпоративный RAG»: использует IdeaBlock вместо chunking, сжимает в 40 раз, уменьшает токены в 3 раза — впервые появилась на ABMedia.
Related News
Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.
NVIDIA открывает долгосрочного партнёра по ИИ Deepinfra — 107 млн долларов серии B для создания «фабрики токенов»
Anthorpic запускает финансового AI-агента для профессионалов, инсайдеры в отрасли раскрывают ключевой момент: Claude не может заменить аналитиков
Инженер Anthropic: HTML — лучший формат вывода для Claude Code, а не Markdown
OpenAI Codex запускает расширение для Chrome: можно тестировать Web App в браузере, получать Context между страницами, работать параллельно