ChatGPT и облачные API — это удобно, пока вы не начинаете считать. При объёме от 10 000 запросов в день счёт за API начинает кусаться. А если данные нельзя отправлять наружу (медицина, юристы, госсектор) — облачные LLM вообще не вариант. Локальные модели решают обе проблемы. Но у них есть свои ограничения. Разбираем на реальном опыте.
Что такое локальная LLM
Локальная LLM — это большая языковая модель, которая работает на вашем оборудовании. Не на серверах OpenAI, не в облаке Google, а на вашем сервере или даже рабочем ноутбуке. Никакие данные не покидают ваш контур.
Самые популярные инструменты для запуска: Ollama, LM Studio, llama.cpp, vLLM. Модели: Llama 3 (Meta), Mistral, Qwen, DeepSeek, а также русскоязычные Saiga и YandexGPT.
- Ollama — самый простой способ запустить модель одной командой
- LM Studio — GUI-интерфейс с поиском моделей на HuggingFace
- llama.cpp — легковесный движок для слабого железа (вплоть до Raspberry Pi)
- vLLM — высокопроизводительный сервер для production
Какое железо нужно
Главное ограничение локальных моделей — видеопамять (VRAM). Чем больше параметров у модели, тем больше VRAM ей нужно. Вот примерные требования для квантизованных (сжатых) версий:
- 7B параметров (Llama 3 8B, Mistral 7B) — 6–8 ГБ VRAM, работает на RTX 3060/4060
- 13B параметров — 10–12 ГБ VRAM, RTX 3080/4080
- 34B параметров — 20–24 ГБ VRAM, RTX 3090/4090
- 70B параметров — 40+ ГБ VRAM, две карты или серверный GPU
Важный нюанс: если VRAM не хватает, модель частично выгружается в оперативную память, и скорость падает в 10–50 раз. Поэтому железо подбирается под модель, а не наоборот.
CPU-only вариант
Для задач, где время ответа не критично (пакетная обработка документов, ночная индексация), можно использовать CPU. Современный сервер с 64 ГБ RAM тянет модель 34B с приемлемой скоростью — 5–10 токенов в секунду. Для сравнения: на GPU та же модель выдаёт 50–80 токенов/с.
Где локальные LLM работают хорошо
На основе полутора лет экспериментов и внедрений — вот сценарии, в которых локальные модели дают реальную пользу уже сегодня.
1. Классификация и разбор документов
Модель 7B отлично справляется с задачей «прочитай PDF счёта и вытащи сумму, дату и контрагента». Это не требует рассуждений — только чтение и структурирование. Точность на уровне GPT-4, но бесплатно и без ограничений по объёму.
2. Внутренняя база знаний с RAG
Загружаете документы компании в векторную базу, поверх — локальная Llama 8B. Сотрудник спрашивает: «Какой порядок согласования договоров?». Модель находит релевантные куски из регламентов и формулирует ответ. Ни один документ не уходит вовне.
3. Первичная обработка обращений
Тикет приходит на почту. Модель определяет категорию, приоритет и предлагает шаблон ответа. Человек только проверяет и отправляет. Снижение времени обработки тикета — до 60%.
4. Суммаризация встреч
Транскрипт созвона → локальная модель → краткое резюме с action items. Полностью конфиденциально — запись не передаётся третьим сервисам.
Где локальные LLM пока не тянут
1. Сложная аналитика и рассуждения
Модели до 34B параметров заметно уступают GPT-4 и Claude в задачах, требующих многошаговых рассуждений: юридический анализ договора с нестандартными условиями, поиск противоречий в большом документе, сложная математика. Здесь разрыв пока существенный.
2. Творческие задачи
Написание продающего текста, генерация креативных концепций, адаптация tone-of-voice — локальные модели могут это делать, но результат часто требует больше правок, чем у GPT-4 или Claude Opus.
3. Длинный контекст
Если вам нужно, чтобы модель держала в памяти диалог на 50 сообщений или анализировала документ на 200 страниц — локальные модели быстро теряют нить. Контекстное окно у них формально большое (до 128K токенов у Llama 3), но качество внимания падает после ~30K.
Реальный кейс: лаборатория и локальная LLM
Один из наших заказчиков — испытательная лаборатория. Задача: автоматически разбирать протоколы испытаний, которые приходят от подрядчиков в разных форматах (PDF, Word, сканы). Требование: данные не должны покидать контур лаборатории (регуляторное ограничение).
Решение: сервер с RTX 4090 (24 ГБ VRAM), Llama 3 8B через vLLM, Pipeline из трёх шагов — OCR документа → локальная LLM извлекает поля → валидация и запись в WCA CRM. Результат: 500 протоколов в день обрабатывается за 3 часа вместо двух полных рабочих дней ручного ввода.
Экономика: локально vs облако
Давайте посчитаем на примере обработки 10 000 документов в месяц:
- GPT-4 API: ~2000 tokens на документ × $30/M токенов × 10 000 = $600/мес
- Сервер с RTX 4090: $3000 единоразово (амортизация $100/мес на 3 года) + $50/мес электричество = $150/мес
- Разница: $450/мес или $16 200 за 3 года — цена второго сервера или разработки новых фич
Точка окупаемости для типового сервера ($3000–5000) — 5–10 месяцев при загрузке от 5 000 запросов в день. Чем выше объём, тем быстрее железо окупается.
С чего начать: план на неделю
- День 1: поставьте Ollama и запустите llama3:8b на рабочем ноутбуке
- День 2: попробуйте 3–5 реалистичных запросов из вашего бизнеса
- День 3: сравните качество с ChatGPT на тех же запросах
- День 4: если качество устраивает — соберите сервер и разверните vLLM
- День 5: подключите к вашей системе через REST API
Весь цикл занимает неделю. Если через неделю вы понимаете, что локальная модель не даёт нужного качества — вы не потеряли ничего, кроме времени на эксперимент. Но в 7 из 10 случаев, с которыми мы работали, результат был «работает, внедряем».
Главный вывод
Локальные LLM — не замена GPT-4. Это инструмент для задач, где важны конфиденциальность, стоимость на больших объёмах и автономность. Для классификации, извлечения данных, простых ответов по базе знаний — они уже работают на уровне топовых облачных моделей. Для сложной аналитики — подождите следующего поколения железа и моделей. Но начинать экспериментировать стоит уже сейчас.