Оборудование для локального использования LLM

Локальные серверы для инференса LLM условно делятся на два класса: “геймерский вариант” и решения на базе специализированных платформ. Оба подхода актуальны для российского рынка, но различаются по масштабируемости, надежности и стоимости.

Классификация

“Геймерский вариант” с 1 CPU и 1-2 GPU или в Tower корпусе к которому при необходимости можно докупить rack mount kit для установки в стойку,
Решение на базе “спец платформы” с 2СPU и расширением до 6 GPU в 19” стойку

Примеры российских платформ

⠀Нахождение принципиальных отличий требует отдельного исследования, для примера возьмем 1 вариант.

Принципиальные отличия классов

Характеристика	“Геймерский вариант”	“Спец платформа” (Rack)
CPU	1× массовый (Ryzen/Core)	2× серверный (EPYC/Xeon)
GPU	1–2× RTX 40xx/50xx	2–6× RTX 40xx/50xx, A100, L40, H100
RAM	64–128GB DDR5	256–1024GB ECC REG
Корпус	Tower (Rack kit опционально)	19” Rackmount (2U/4U)
Масштабируемость	Ограничена	Высокая
Надежность	Базовая	Серверная (ECC, резервирование)
Стоимость	300–600 тыс. руб.	1,5 млн руб. и выше
Для кого	SMB, пилотные проекты	Корпоративные внедрения

Геймерское решение

Основные компоненты:

GPU: NVIDIA RTX 4070/5070 Ti Super 16GB - от 130т руб., или NVIDIA RTX 4090/5090 24GB - от 210т руб.
CPU: AMD Ryzen 7 7700X или Intel Core i7-13700 или AMD Ryzen 9 7950X или Intel Core i9-13900K
Материнская плата: ASUS X670 или Z790 с поддержкой DDR5
ОЗУ: 64GB DDR5-5600 (4x16GB) - 128GB DDR5-5600 (4x32GB)
Накопитель: 2x1TB NVMe SSD Gen4
Блок питания: 850W - 1000W 80+ Gold
Корпус: Full Tower с хорошей вентиляцией и возможностью rack mount kit Цена от 300тр до 600тр

Решение на платформе Yadro

С возможностью расширения на несколько GPU карт. Типовая конфигурация:

GPU: 2–6× NVIDIA RTX 4090/5090 24GB, RTX 6000 Ada 48GB, A100, L40, H100
CPU: 2× AMD EPYC 7003 или Intel Xeon Scalable
ОЗУ: 256–1024GB DDR4/DDR5 ECC REG
SSD: 2–8TB NVMe, возможно специализированные RAID
БП: 1600–3000W с резервированием
Корпус: 4U 19” Rackmount Цена от 1,5 м руб

Оценка пользовательской нагрузки

На основе анализа GitHub Copilot Metrics API и требований к времени отклика, для локального LLM-сервера критичны следующие параметры:

Задержка автодополнения: < 400ms для 95% запросов
Стиль запросов: диалоговые запросы и автоматическое дополнение кода в среде разработки
Пропускная способность: способность обрабатывать пиковую нагрузку без деградации

Размер команды	Пиковая нагрузка (запросов/час)	Одновременные пользователи	Рекомендуемое решение
3-5 разработчиков	30-35	3-4	RTX 4070 Ti Super 16GB
6-15 разработчиков	60-105	7-10	RTX 4090 24GB
16-30 разработчиков	105-160	15-20	2× RTX 4090 или серверная платформа
30+ разработчиков	160+	25+	Специализированная платформа

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Оборудование для локального использования LLM

Классификация

Примеры российских платформ

Принципиальные отличия классов

Геймерское решение

Решение на платформе Yadro

Оценка пользовательской нагрузки

FilesExpand file tree

EnterpriseHardware.md

Latest commit

History

EnterpriseHardware.md

File metadata and controls

Оборудование для локального использования LLM

Классификация

Примеры российских платформ

Принципиальные отличия классов

Геймерское решение

Решение на платформе Yadro

Оценка пользовательской нагрузки