Локальные серверы для инференса LLM условно делятся на два класса: “геймерский вариант” и решения на базе специализированных платформ. Оба подхода актуальны для российского рынка, но различаются по масштабируемости, надежности и стоимости.
- “Геймерский вариант” с 1 CPU и 1-2 GPU или в Tower корпусе к которому при необходимости можно докупить rack mount kit для установки в стойку,
- Решение на базе “спец платформы” с 2СPU и расширением до 6 GPU в 19” стойку
- https://yadro.com/ru/gpu_servers/g4208p_g3
- https://www.karma-group.ru/catalog/gpu-servers-qtech/
- https://hyperpc.ru/server/artificial-intelligence
⠀Нахождение принципиальных отличий требует отдельного исследования, для примера возьмем 1 вариант.
| Характеристика | “Геймерский вариант” | “Спец платформа” (Rack) |
|---|---|---|
| CPU | 1× массовый (Ryzen/Core) | 2× серверный (EPYC/Xeon) |
| GPU | 1–2× RTX 40xx/50xx | 2–6× RTX 40xx/50xx, A100, L40, H100 |
| RAM | 64–128GB DDR5 | 256–1024GB ECC REG |
| Корпус | Tower (Rack kit опционально) | 19” Rackmount (2U/4U) |
| Масштабируемость | Ограничена | Высокая |
| Надежность | Базовая | Серверная (ECC, резервирование) |
| Стоимость | 300–600 тыс. руб. | 1,5 млн руб. и выше |
| Для кого | SMB, пилотные проекты | Корпоративные внедрения |
Основные компоненты:
- GPU: NVIDIA RTX 4070/5070 Ti Super 16GB - от 130т руб., или NVIDIA RTX 4090/5090 24GB - от 210т руб.
- CPU: AMD Ryzen 7 7700X или Intel Core i7-13700 или AMD Ryzen 9 7950X или Intel Core i9-13900K
- Материнская плата: ASUS X670 или Z790 с поддержкой DDR5
- ОЗУ: 64GB DDR5-5600 (4x16GB) - 128GB DDR5-5600 (4x32GB)
- Накопитель: 2x1TB NVMe SSD Gen4
- Блок питания: 850W - 1000W 80+ Gold
- Корпус: Full Tower с хорошей вентиляцией и возможностью rack mount kit Цена от 300тр до 600тр
С возможностью расширения на несколько GPU карт. Типовая конфигурация:
- GPU: 2–6× NVIDIA RTX 4090/5090 24GB, RTX 6000 Ada 48GB, A100, L40, H100
- CPU: 2× AMD EPYC 7003 или Intel Xeon Scalable
- ОЗУ: 256–1024GB DDR4/DDR5 ECC REG
- SSD: 2–8TB NVMe, возможно специализированные RAID
- БП: 1600–3000W с резервированием
- Корпус: 4U 19” Rackmount Цена от 1,5 м руб
На основе анализа GitHub Copilot Metrics API и требований к времени отклика, для локального LLM-сервера критичны следующие параметры:
- Задержка автодополнения: < 400ms для 95% запросов
- Стиль запросов: диалоговые запросы и автоматическое дополнение кода в среде разработки
- Пропускная способность: способность обрабатывать пиковую нагрузку без деградации
| Размер команды | Пиковая нагрузка (запросов/час) | Одновременные пользователи | Рекомендуемое решение |
|---|---|---|---|
| 3-5 разработчиков | 30-35 | 3-4 | RTX 4070 Ti Super 16GB |
| 6-15 разработчиков | 60-105 | 7-10 | RTX 4090 24GB |
| 16-30 разработчиков | 105-160 | 15-20 | 2× RTX 4090 или серверная платформа |
| 30+ разработчиков | 160+ | 25+ | Специализированная платформа |