llm-stack/docker-compose.yaml at main · qso-graph/llm-stack · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
# =============================================================================
# QSO-Graph AI — Local LLM + 42 Ham Radio MCP Tools in a Browser
# =============================================================================
#
#   1. cp .env.example .env && edit .env
#   2. ./scripts/download-model.sh
#   3. docker compose up -d
#   4. Open http://localhost:3000
#
# Requires: Docker, NVIDIA Container Toolkit, 16+ GB VRAM
# =============================================================================

services:
  # ---------------------------------------------------------------------------
  # LLM Engine — llama.cpp with CUDA GPU acceleration
  # ---------------------------------------------------------------------------
  llm-engine:
    image: ghcr.io/ggml-org/llama.cpp:server-cuda
    container_name: llm-engine
    restart: unless-stopped
    networks:
      - ai-net
    ports:
      - "8000:8080"
    volumes:
      - ./models:/models:ro
    environment:
      - LLAMA_ARG_MODEL=/models/${LLM_MODEL}
      - LLAMA_ARG_CTX_SIZE=${LLM_CTX_SIZE}
      - LLAMA_ARG_N_GPU_LAYERS=${LLM_GPU_LAYERS}
      - LLAMA_ARG_BATCH_SIZE=${LLM_BATCH_SIZE}
      - LLAMA_ARG_THREADS=${LLM_THREADS}
      - LLAMA_ARG_API_KEY=${LLM_API_KEY}
      - LLAMA_ARG_HOST=0.0.0.0
      - LLAMA_ARG_PORT=8080
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

  # ---------------------------------------------------------------------------
  # Open WebUI — Browser interface with tool calling
  # ---------------------------------------------------------------------------
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    networks:
      - ai-net
    ports:
      - "3000:8080"
    volumes:
      - open-webui-data:/app/backend/data
    environment:
      - OPENAI_API_BASE_URL=http://llm-engine:8080/v1
      - OPENAI_API_KEY=${LLM_API_KEY}
      - WEBUI_NAME=${WEBUI_NAME}
      - ENABLE_SIGNUP=true
    depends_on:
      - llm-engine

  # ---------------------------------------------------------------------------
  # MCP Tools — 42 ham radio tools via mcpo (MCP-to-OpenAPI proxy)
  # ---------------------------------------------------------------------------
  mcp-tools:
    build: ./mcp-tools
    container_name: mcp-tools
    restart: unless-stopped
    networks:
      ai-net:
        aliases:
          - mcp-solar
          - mcp-pota
          - mcp-wspr
          - mcp-sota
          - mcp-iota
          - mcp-ionis
    ports:
      - "8001:8001"
      - "8002:8002"
      - "8003:8003"
      - "8004:8004"
      - "8005:8005"
      - "8006:8006"
    environment:
      - IONIS_DATA_DIR=${IONIS_DATA_DIR:+/data/ionis}
    # Volume mount only needed if IONIS_DATA_DIR is set in .env
    # Without it, ionis-mcp is skipped and the other 5 servers still work

  # ---------------------------------------------------------------------------
  # Cloudflare Tunnel (optional) — expose Open WebUI publicly
  # ---------------------------------------------------------------------------
  cloudflared:
    image: cloudflare/cloudflared:latest
    container_name: cloudflared
    restart: unless-stopped
    networks:
      - ai-net
    command: tunnel run
    environment:
      - TUNNEL_TOKEN=${CLOUDFLARE_TUNNEL_TOKEN}
    profiles:
      - tunnel
    depends_on:
      - open-webui

networks:
  ai-net:
    driver: bridge

volumes:
  open-webui-data: