On-premise LLM для предприятия: как развернуть языковую модель в закрытом контуре
Бекзат Маратұлы · 5 июня 2026 г. · 9 мин
On-premise LLM для предприятия: как развернуть языковую модель в закрытом контуре
Капсула ответа. On-premise LLM — это открытая языковая модель (класса Qwen/Llama), развёрнутая на GPU-серверах предприятия, чаще всего в связке с RAG-поиском по внутренней документации. Данные и запросы не покидают периметр — это обязательное требование нацкомпаний, недропользователей и банков РК. Для пилота на одном домене документации достаточно сервера с 1–2 GPU; срок — 8–12 недель. Подход подтверждён в Казахстане: ТШО построил LLM-ассистента инженеров по 300+ спецификациям, КТЖ обрабатывает ИИ-помощниками 5 000+ нормативных документов, экосистема SKAI «Самрук-Казына» работает в закрытом контуре на суперкомпьютере Al FARABIUM.
ChatGPT и Copilot не проходят согласование ИБ на промышленном предприятии — и это обоснованно: производственные данные, нормативка с грифами и коммерческая тайна не должны уходить в зарубежные облака. Альтернатива — собственная LLM в контуре. Разбираем, как это устроено технически, что это стоит и какие грабли ждут на пути.
Зачем предприятию своя языковая модель?
Кейсы с подтверждённым спросом
- Поиск по технической документации. Инженер тратит 20–30% времени на поиск по стандартам (СТ РК, ГОСТ, API, ASME), внутренним СТП, паспортам и P&ID. Цена ошибки по устаревшей ревизии — от переделки проекта до инцидента. Именно эту задачу ТШО закрыл собственным ассистентом по 300+ спецификациям.
- Ассистент диспетчера и оператора: ответы по регламентам и инструкциям в момент принятия решения.
- Автоматизация документооборота: черновики актов, протоколов, отчётов, технической документации по ГОСТ 34/19 — по шаблонам предприятия.
- Комплаенс и расследования: сбор досье по инциденту из журналов, нормативки и переписки (банковский AML-вариант той же архитектуры).
Экономика: 0,5–1 час в день на инженера × 200–500 ИТР × полная стоимость часа $15–25 = $1–4 млн в год, плюс снижение риска ошибок по устаревшим документам.
Почему не облако
| Критерий | Облачные LLM (OpenAI, Copilot) | On-premise LLM |
|---|---|---|
| Данные | Уходят в зарубежные ЦОД | Остаются в периметре |
| Согласование ИБ нацкомпании | Как правило, блокируется | Стандартная архитектура (бенчмарк — SKAI) |
| Закон РК «О персональных данных» (локализация БД) | Зона риска | Соответствует |
| Доступ к внутренним документам | Требует выгрузки наружу | RAG внутри контура |
| Стоимость при масштабе | Растёт с каждым токеном | Фиксированный CAPEX + сопровождение |
| Зависимость | Лицензионные и санкционные риски | Открытые модели, контроль у предприятия |
Какую модель выбрать в 2026 году?
Открытые модели догнали проприетарные на корпоративных задачах, где главное — работа с предоставленным контекстом, а не «энциклопедичность». Практические ориентиры:
- Класс 7–14B параметров (Qwen, Llama и аналоги) — рабочая лошадка RAG-ассистентов: помещается на 1 GPU, быстрая, для поиска с цитированием её достаточно.
- Класс 30–80B — для сложных рассуждений, длинных документов, генерации документации; требует 2–4 GPU или квантизации.
- Специализированные компоненты: отдельная embedding-модель для поиска, reranker, vision-модель для чертежей и таблиц (P&ID, сканы паспортов).
Ключевой совет: не гнаться за размером. В RAG-системе 80% качества определяют поиск и подготовка документов, а не «интеллект» генератора. Русский язык открытые модели поддерживают уверенно; для казахского нужна дополнительная настройка пайплайна и контрольные наборы.
Как устроена архитектура RAG по техдокументации?
Корпус документов (PDF, DOCX, сканы, чертежи)
│ парсинг: текст + таблицы + OCR + структура разделов
Индексация: чанкинг с сохранением иерархии (документ → раздел → пункт)
│ embedding-модель → векторная БД (в контуре)
Запрос пользователя
│ гибридный поиск (векторный + полнотекстовый) → reranker
LLM-генерация ответа СТРОГО по извлечённым фрагментам
│ обязательное цитирование: документ, ревизия, пункт
Интерфейс: веб/чат + SSO/AD + права доступа по ролям + журналирование
Критичные детали, которые отличают работающую систему от демо:
- Цитирование до пункта и ревизии. Инженер не поверит ответу без ссылки. Ответ без подтверждающего фрагмента должен явно помечаться — это главная защита от галлюцинаций.
- Версионность документов. На предприятии один стандарт живёт в пяти ревизиях; система обязана отвечать по действующей и предупреждать об устаревших.
- Права доступа. Ассистент отвечает только по документам, доступным конкретному пользователю, — иначе он превращается в канал утечки внутри компании.
- Таблицы и чертежи. До половины инженерных ответов лежит в таблицах; парсинг таблиц и vision-обработка чертежей — обязательная часть пайплайна, а не «фаза 2».
- Контрольный набор вопросов. 100–300 вопросов с эталонными ответами, согласованные с экспертами заказчика, — единственный объективный способ измерять качество и не деградировать при обновлениях.
Какое железо нужно и что это стоит?
| Сценарий | Конфигурация | Порядок затрат |
|---|---|---|
| Пилот: один домен, 300–1 000 документов, 10–50 пользователей | 1 сервер, 1–2 GPU (класс L40S/A100) | Десятки тыс. $ CAPEX на железо; пилот целиком — $50–120 тыс. |
| Промышленная эксплуатация: вся НТД, сотни пользователей | 2–4 GPU-сервера с резервированием | $0,5–1,5 млн с интеграциями (СЭД, ТОиР, SSO) и сопровождением |
GPU-серверы обычно проходят отдельной строкой сметы и остаются активом предприятия. Эксплуатационные расходы — сопровождение пайплайна, обновление индексов, дообучение и мониторинг качества (типично 15–25% стоимости системы в год).
Как пройти согласование ИБ: чек-лист
- Развёртывание в сегменте, согласованном с ИБ; без исходящего трафика из контура (обновления моделей — через контролируемый процесс).
- Журналирование всех запросов и ответов (это же — материал для улучшения системы).
- Разграничение доступа: SSO/AD, роли, наследование прав от СЭД.
- Для систем, интегрируемых с госсистемами или КВОИКИ, — готовность к испытаниям на соответствие Единым требованиям ИБ (закладывать журналирование, разграничение доступа и криптографию по СТ РК в архитектуру заранее — это сокращает цикл сделки на месяцы).
- NDA и обезличивание на этапе пилота; персональные данные — с учётом требований локализации БД на территории РК.
Поэтапный план внедрения: от демо до промышленной эксплуатации
Этап 0 — демо на открытых документах (2 недели). Прежде чем трогать внутреннюю документацию, систему можно проверить на открытых СТ РК и ГОСТ: задать инженерные вопросы уровня «минимальный радиус гиба трубы Ду150 из стали 09Г2С по такому-то СТП» и оценить качество цитирования. Это бесплатная для заказчика проверка концепции.
Этап 1 — пилот на одном домене (8–12 недель). Выбор домена с измеримой болью (например, стандарты одного технического управления, 300–1 000 документов), парсинг и индексация, настройка пайплайна, составление контрольного набора вопросов с экспертами заказчика, опытная эксплуатация с группой 10–50 пользователей. Выход: измеренное качество ответов, статистика использования, решение о тираже.
Этап 2 — тираж (4–9 месяцев). Вся НТД, интеграции (СЭД, ТОиР, SSO), права доступа по ролям, плагины в рабочие инструменты, регламент актуализации индексов, обучение пользователей, SLA.
Команда проекта со стороны заказчика: владелец продукта (обычно руководитель технического департамента), 2–3 инженера-эксперта для контрольного набора и валидации (2–4 часа в неделю), представитель ИБ, администратор инфраструктуры. Больше не нужно — основную работу делает подрядчик.
Типовые ошибки внедрения
- «Загрузим всё и сразу». Старт со всей НТД компании топит проект в парсинге. Правильно: один домен с измеримой болью (например, стандарты одного управления), затем тираж.
- Оценка качества «на глазок». Без контрольного набора вопросов спор «стало лучше или хуже» нерешаем.
- Игнорирование процесса актуализации. Документы обновляются еженедельно; без инкрементальной переиндексации система устаревает за квартал.
- Ассистент ради ассистента. Если ответ не встроен в рабочий процесс (плагин в Word, ссылка в СЭД, кнопка в АРМ) — пользователи вернутся к привычному поиску по папкам.
FAQ
Чем on-premise LLM отличается от «своего ChatGPT»?
Принципиально — контуром: модель, индексы и журналы живут на серверах предприятия. Функционально — специализацией: корпоративный ассистент отвечает по документам компании с цитированием, а не «обо всём».
Можно ли дообучить модель на наших данных?
Чаще всего это не нужно: RAG решает задачу доступа к знаниям без дообучения. Fine-tuning оправдан для стиля документов и терминологии — после того, как RAG-базис работает.
Какая точность ответов достижима?
На контрольных наборах по корпоративной документации хорошо настроенный RAG даёт корректный ответ с правильной цитатой в подавляющем большинстве случаев; ключевая метрика — доля ответов с верной ссылкой на действующую ревизию. Точные цифры фиксируются на вашем контрольном наборе в пилоте.
Сколько длится проект?
Пилот — 8–12 недель: парсинг домена, настройка пайплайна, контрольный набор, опытная эксплуатация. Тираж на всю НТД с интеграциями — 4–9 месяцев.
Нужно ли согласие на обработку персональных данных для корпоративного ассистента?
Если в корпус документов попадают персональные данные сотрудников или клиентов — да, обработка должна соответствовать Закону РК «О персональных данных»: локализация БД на территории РК (on-premise это закрывает автоматически), разграничение доступа, журналирование. На этапе проектирования корпус классифицируется, и чувствительные категории документов подключаются с отдельными политиками доступа.
Что будет с системой через год?
При наличии сопровождения — станет точнее (дообучение на журналах запросов, расширение корпуса, обновление моделей по мере выхода новых открытых релизов). Без сопровождения — деградирует: устаревшие индексы, неактуальные ревизии документов, падение доверия пользователей. Сопровождение — обязательная часть бюджета, типично 15–25% стоимости системы в год.
105 Industrial AI (ТОО «105kz», 105.kz) разворачивает LLM-ассистентов в закрытом контуре предприятий Казахстана. Демо на открытых СТ РК/ГОСТ — за 2 недели: решение Private LLM · запросить демо.