Skip to content

Latest commit

 

History

History
71 lines (52 loc) · 5.57 KB

File metadata and controls

71 lines (52 loc) · 5.57 KB

Оборудование для локального использования LLM

Локальные серверы для инференса LLM условно делятся на два класса: “геймерский вариант” и решения на базе специализированных платформ. Оба подхода актуальны для российского рынка, но различаются по масштабируемости, надежности и стоимости.

Классификация

  1. Геймерский вариант” с 1 CPU и 1-2 GPU или  в Tower корпусе к которому при необходимости можно докупить rack mount kit для установки в стойку,
  2. Решение на базе “спец платформы” с 2СPU и расширением до 6 GPU в 19” стойку

Примеры российских платформ

⠀Нахождение принципиальных отличий требует отдельного исследования, для примера возьмем 1 вариант.

Принципиальные отличия классов

Характеристика “Геймерский вариант” “Спец платформа” (Rack)
CPU 1× массовый (Ryzen/Core) 2× серверный (EPYC/Xeon)
GPU 1–2× RTX 40xx/50xx 2–6× RTX 40xx/50xx, A100, L40, H100
RAM 64–128GB DDR5 256–1024GB ECC REG
Корпус Tower (Rack kit опционально) 19” Rackmount (2U/4U)
Масштабируемость Ограничена Высокая
Надежность Базовая Серверная (ECC, резервирование)
Стоимость 300–600 тыс. руб. 1,5 млн руб. и выше
Для кого SMB, пилотные проекты Корпоративные внедрения

Геймерское решение

Основные компоненты:

  • GPU: NVIDIA RTX 4070/5070 Ti Super 16GB - от 130т руб., или NVIDIA RTX 4090/5090 24GB - от 210т руб.
  • CPU: AMD Ryzen 7 7700X или Intel Core i7-13700 или AMD Ryzen 9 7950X или Intel Core i9-13900K
  • Материнская плата: ASUS X670 или Z790 с поддержкой DDR5
  • ОЗУ: 64GB DDR5-5600 (4x16GB) - 128GB DDR5-5600 (4x32GB)
  • Накопитель: 2x1TB NVMe SSD Gen4
  • Блок питания: 850W - 1000W 80+ Gold
  • Корпус: Full Tower с хорошей вентиляцией и возможностью rack mount kit Цена от 300тр до 600тр

Решение на платформе Yadro

С возможностью расширения на несколько GPU карт. Типовая конфигурация:

  • GPU: 2–6× NVIDIA RTX 4090/5090 24GB, RTX 6000 Ada 48GB, A100, L40, H100
  • CPU: 2× AMD EPYC 7003 или Intel Xeon Scalable
  • ОЗУ: 256–1024GB DDR4/DDR5 ECC REG
  • SSD: 2–8TB NVMe, возможно специализированные RAID
  • БП: 1600–3000W с резервированием
  • Корпус: 4U 19” Rackmount Цена от 1,5 м руб

Оценка пользовательской нагрузки

На основе анализа GitHub Copilot Metrics API и требований к времени отклика, для локального LLM-сервера критичны следующие параметры:

  • Задержка автодополнения: < 400ms для 95% запросов
  • Стиль запросов: диалоговые запросы и автоматическое дополнение кода в среде разработки
  • Пропускная способность: способность обрабатывать пиковую нагрузку без деградации
Размер команды Пиковая нагрузка (запросов/час) Одновременные пользователи Рекомендуемое решение
3-5 разработчиков 30-35 3-4 RTX 4070 Ti Super 16GB
6-15 разработчиков 60-105 7-10 RTX 4090 24GB
16-30 разработчиков 105-160 15-20 2× RTX 4090 или серверная платформа
30+ разработчиков 160+ 25+ Специализированная платформа