linux-kdevops
diff --git a/‎defconfigs/vllm-declared-hosts‎
Lines changed: 53 additions & 0 deletions b/‎defconfigs/vllm-declared-hosts‎
Lines changed: 53 additions & 0 deletions
diff --git a/‎defconfigs/vllm-production-stack-declared-hosts‎
Lines changed: 66 additions & 0 deletions b/‎defconfigs/vllm-production-stack-declared-hosts‎
Lines changed: 66 additions & 0 deletions
diff --git a/‎playbooks/roles/vllm/tasks/cleanup-bare-metal.yml‎
Lines changed: 110 additions & 0 deletions b/‎playbooks/roles/vllm/tasks/cleanup-bare-metal.yml‎
Lines changed: 110 additions & 0 deletions
diff --git a/‎playbooks/roles/vllm/tasks/deploy-bare-metal.yml‎
Lines changed: 85 additions & 31 deletions b/‎playbooks/roles/vllm/tasks/deploy-bare-metal.yml‎
Lines changed: 85 additions & 31 deletions
@@ -0,0 +1,53 @@
+#
+# vLLM with declared hosts (bare metal or pre-existing infrastructure)
+#
+# Automatically generated file; DO NOT EDIT.
+# kdevops 5.0.2 Configuration
+#
+CONFIG_WORKFLOWS=y
+CONFIG_WORKFLOWS_TESTS=y
+CONFIG_WORKFLOWS_LINUX_TESTS=y
+CONFIG_WORKFLOWS_DEDICATED_WORKFLOW=y
+CONFIG_KDEVOPS_WORKFLOW_DEDICATE_VLLM=y
+
+# Skip bringup for declared hosts
+CONFIG_SKIP_BRINGUP=y
+CONFIG_KDEVOPS_USE_DECLARED_HOSTS=y
+
+# vLLM specific configuration - Using bare metal deployment for declared hosts
+CONFIG_VLLM_BARE_METAL=y
+CONFIG_VLLM_BARE_METAL_USE_CONTAINER=y
+CONFIG_VLLM_BARE_METAL_DOCKER=y
+CONFIG_VLLM_BARE_METAL_SERVICE_NAME="vllm"
+CONFIG_VLLM_BARE_METAL_DATA_DIR="/var/lib/vllm"
+CONFIG_VLLM_BARE_METAL_LOG_DIR="/var/log/vllm"
+
+# GPU configuration for declared hosts
+CONFIG_VLLM_BARE_METAL_DECLARE_HOST_GPU_TYPE="nvidia-a100"
+CONFIG_VLLM_BARE_METAL_DECLARE_HOST_GPU_COUNT=1
+
+# Model configuration
+CONFIG_VLLM_MODEL_URL="facebook/opt-125m"
+CONFIG_VLLM_MODEL_NAME="opt-125m"
+
+# Engine configuration
+CONFIG_VLLM_VERSION_STABLE=y
+CONFIG_VLLM_ENGINE_IMAGE_TAG="v0.10.2"
+CONFIG_VLLM_REQUEST_CPU=8
+CONFIG_VLLM_REQUEST_MEMORY="16Gi"
+CONFIG_VLLM_REQUEST_GPU=1
+CONFIG_VLLM_MAX_MODEL_LEN=2048
+CONFIG_VLLM_DTYPE="auto"
+CONFIG_VLLM_GPU_MEMORY_UTILIZATION="0.9"
+CONFIG_VLLM_TENSOR_PARALLEL_SIZE=1
+
+# API configuration
+CONFIG_VLLM_API_PORT=8000
+CONFIG_VLLM_API_KEY=""
+CONFIG_VLLM_HF_TOKEN=""
+
+# Benchmarking
+CONFIG_VLLM_BENCHMARK_ENABLED=y
+CONFIG_VLLM_BENCHMARK_DURATION=60
+CONFIG_VLLM_BENCHMARK_CONCURRENT_USERS=10
+CONFIG_VLLM_BENCHMARK_RESULTS_DIR="/data/vllm-benchmark"
@@ -0,0 +1,66 @@
+#
+# vLLM Production Stack with declared hosts (bare metal with GPU)
+#
+# Automatically generated file; DO NOT EDIT.
+# kdevops 5.0.2 Configuration
+#
+CONFIG_WORKFLOWS=y
+CONFIG_WORKFLOWS_TESTS=y
+CONFIG_WORKFLOWS_LINUX_TESTS=y
+CONFIG_WORKFLOWS_DEDICATED_WORKFLOW=y
+CONFIG_KDEVOPS_WORKFLOW_DEDICATE_VLLM=y
+
+# Skip bringup for declared hosts
+CONFIG_SKIP_BRINGUP=y
+CONFIG_KDEVOPS_USE_DECLARED_HOSTS=y
+
+# vLLM Production Stack with Kubernetes on declared hosts
+CONFIG_VLLM_PRODUCTION_STACK=y
+CONFIG_VLLM_K8S_EXISTING=y
+CONFIG_VLLM_VERSION_STABLE=y
+CONFIG_VLLM_ENGINE_IMAGE_TAG="v0.10.2"
+CONFIG_VLLM_HELM_RELEASE_NAME="vllm-prod"
+CONFIG_VLLM_HELM_NAMESPACE="vllm-system"
+
+# Production Stack components
+CONFIG_VLLM_PROD_STACK_REPO="https://vllm-project.github.io/production-stack"
+CONFIG_VLLM_PROD_STACK_CHART_VERSION="latest"
+CONFIG_VLLM_PROD_STACK_ROUTER_IMAGE="ghcr.io/vllm-project/production-stack/router"
+CONFIG_VLLM_PROD_STACK_ROUTER_TAG="latest"
+CONFIG_VLLM_PROD_STACK_ENABLE_MONITORING=y
+CONFIG_VLLM_PROD_STACK_ENABLE_AUTOSCALING=y
+CONFIG_VLLM_PROD_STACK_MIN_REPLICAS=2
+CONFIG_VLLM_PROD_STACK_MAX_REPLICAS=5
+CONFIG_VLLM_PROD_STACK_TARGET_GPU_UTILIZATION=80
+
+# Model configuration
+CONFIG_VLLM_MODEL_URL="facebook/opt-125m"
+CONFIG_VLLM_MODEL_NAME="opt-125m"
+
+# Engine configuration for GPU
+CONFIG_VLLM_REPLICA_COUNT=2
+CONFIG_VLLM_REQUEST_CPU=8
+CONFIG_VLLM_REQUEST_MEMORY="16Gi"
+CONFIG_VLLM_REQUEST_GPU=1
+CONFIG_VLLM_MAX_MODEL_LEN=2048
+CONFIG_VLLM_DTYPE="auto"
+CONFIG_VLLM_GPU_MEMORY_UTILIZATION="0.9"
+CONFIG_VLLM_TENSOR_PARALLEL_SIZE=1
+
+# Router and observability
+CONFIG_VLLM_ROUTER_ENABLED=y
+CONFIG_VLLM_ROUTER_ROUND_ROBIN=y
+CONFIG_VLLM_OBSERVABILITY_ENABLED=y
+CONFIG_VLLM_GRAFANA_PORT=3000
+CONFIG_VLLM_PROMETHEUS_PORT=9090
+
+# API configuration
+CONFIG_VLLM_API_PORT=8000
+CONFIG_VLLM_API_KEY=""
+CONFIG_VLLM_HF_TOKEN=""
+
+# Benchmarking
+CONFIG_VLLM_BENCHMARK_ENABLED=y
+CONFIG_VLLM_BENCHMARK_DURATION=60
+CONFIG_VLLM_BENCHMARK_CONCURRENT_USERS=10
+CONFIG_VLLM_BENCHMARK_RESULTS_DIR="/data/vllm-benchmark"
@@ -0,0 +1,110 @@
+---
+# Cleanup tasks for bare metal vLLM deployment
+# Removes all installed components and data
+
+- name: Stop and remove vLLM systemd service
+  ansible.builtin.systemd:
+    name: "{{ vllm_bare_metal_service_name | default('vllm') }}"
+    state: stopped
+    enabled: no
+  become: yes
+  ignore_errors: yes
+
+- name: Remove vLLM systemd service file
+  ansible.builtin.file:
+    path: "/etc/systemd/system/{{ vllm_bare_metal_service_name | default('vllm') }}.service"
+    state: absent
+  become: yes
+
+- name: Reload systemd daemon
+  ansible.builtin.systemd:
+    daemon_reload: yes
+  become: yes
+
+- name: Stop all vLLM Docker containers
+  ansible.builtin.command:
+    cmd: docker stop $(docker ps -a -q --filter ancestor={{ vllm_bare_metal_image_final }})
+  ignore_errors: yes
+  changed_when: false
+
+- name: Remove all vLLM Docker containers
+  ansible.builtin.command:
+    cmd: docker rm $(docker ps -a -q --filter ancestor={{ vllm_bare_metal_image_final }})
+  ignore_errors: yes
+  changed_when: false
+
+- name: Remove vLLM Docker images
+  ansible.builtin.command:
+    cmd: docker rmi {{ vllm_bare_metal_image_final }}
+  ignore_errors: yes
+  changed_when: false
+
+- name: Stop minikube if running
+  ansible.builtin.command:
+    cmd: minikube stop
+  ignore_errors: yes
+  changed_when: false
+  become: no
+
+- name: Delete minikube cluster
+  ansible.builtin.command:
+    cmd: minikube delete
+  ignore_errors: yes
+  changed_when: false
+  become: no
+
+- name: Remove kubectl binary
+  ansible.builtin.file:
+    path: /usr/local/bin/kubectl
+    state: absent
+  become: yes
+  when: vllm_cleanup_remove_binaries | default(false)
+
+- name: Remove minikube binary
+  ansible.builtin.file:
+    path: /usr/local/bin/minikube
+    state: absent
+  become: yes
+  when: vllm_cleanup_remove_binaries | default(false)
+
+- name: Remove helm binary
+  ansible.builtin.file:
+    path: /usr/local/bin/helm
+    state: absent
+  become: yes
+  when: vllm_cleanup_remove_binaries | default(false)
+
+- name: Remove vLLM data directories
+  ansible.builtin.file:
+    path: "{{ item }}"
+    state: absent
+  become: yes
+  loop:
+    - "{{ vllm_bare_metal_data_dir | default('/var/lib/vllm') }}"
+    - "{{ vllm_bare_metal_log_dir | default('/var/log/vllm') }}"
+    - "{{ vllm_local_path | default('/data/vllm') }}"
+    - "{{ vllm_results_dir | default('/data/vllm/results') }}"
+  when: vllm_cleanup_remove_data | default(false)
+
+- name: Remove /data/minikube directory
+  ansible.builtin.file:
+    path: /data/minikube
+    state: absent
+  become: yes
+  when: vllm_cleanup_remove_data | default(false)
+
+- name: Display cleanup completion message
+  debug:
+    msg: |
+      vLLM bare metal cleanup completed.
+
+      Removed:
+      - vLLM systemd service
+      - vLLM Docker containers and images
+      - Minikube cluster
+
+      To also remove binaries (kubectl, minikube, helm), run:
+        make vllm-cleanup-full
+
+      To remove all data directories, run:
+        make vllm-cleanup-purge
@@ -47,11 +47,24 @@
           set_fact:
             container_runtime: "{{ 'docker' if vllm_bare_metal_docker | default(true) else 'podman' }}"
 
-        - name: Ensure container runtime is installed
-          package:
-            name: "{{ container_runtime }}"
-            state: present
+        - name: Ensure Docker service is started and enabled
+          ansible.builtin.systemd:
+            name: docker
+            state: started
+            enabled: yes
           become: yes
+          when: container_runtime == 'docker'
+
+        - name: Add current user to docker group
+          ansible.builtin.user:
+            name: "{{ ansible_user_id }}"
+            groups: docker
+            append: yes
+          become: yes
+          when: container_runtime == 'docker'
+
+        - name: Reset connection to apply docker group membership
+          meta: reset_connection
 
         - name: Install nvidia-container-toolkit for GPU support
           when: has_nvidia_gpu
@@ -75,35 +88,65 @@
             state: restarted
           become: yes
 
-        - name: Set vLLM bare metal container image with Docker mirror if enabled
+        - name: Set vLLM bare metal container images
           ansible.builtin.set_fact:
-            vllm_bare_metal_image_final: >-
-              {%- if use_docker_mirror | default(false) | bool -%}
-                {%- if not has_nvidia_gpu -%}
-                  localhost:{{ docker_mirror_port | default(5000) }}/vllm:v0.6.3-cpu
-                {%- else -%}
-                  localhost:{{ docker_mirror_port | default(5000) }}/vllm-openai:latest
-                {%- endif -%}
+            vllm_bare_metal_image_mirror: >-
+              {%- if not has_nvidia_gpu -%}
+                localhost:{{ docker_mirror_port | default(5000) }}/vllm:v0.6.3-cpu
               {%- else -%}
-                {%- if not has_nvidia_gpu -%}
-                  substratusai/vllm:v0.6.3-cpu
-                {%- else -%}
-                  vllm/vllm-openai:latest
-                {%- endif -%}
+                localhost:{{ docker_mirror_port | default(5000) }}/vllm-openai:latest
               {%- endif -%}
+            vllm_bare_metal_image_public: >-
+              {%- if not has_nvidia_gpu -%}
+                substratusai/vllm:v0.6.3-cpu
+              {%- else -%}
+                vllm/vllm-openai:latest
+              {%- endif -%}
+
+        - name: Set initial image to try (mirror if enabled, otherwise public)
+          ansible.builtin.set_fact:
+            vllm_bare_metal_image_final: "{{ vllm_bare_metal_image_mirror if (use_docker_mirror | default(false) | bool) else vllm_bare_metal_image_public }}"
+
+        - name: Check if vLLM container image already exists
+          ansible.builtin.command:
+            cmd: "docker images -q {{ vllm_bare_metal_image_final }}"
+          register: image_exists
+          changed_when: false
+          failed_when: false
 
-        - name: Pull vLLM container image
-          community.docker.docker_image:
-            name: "{{ vllm_bare_metal_image_final }}"
-            source: pull
+        - name: Try pulling from Docker mirror first (if configured)
+          ansible.builtin.command:
+            cmd: "docker pull {{ vllm_bare_metal_image_mirror }}"
+          register: docker_pull_mirror
+          when:
+            - use_docker_mirror | default(false) | bool
+            - image_exists.stdout == ""
+          failed_when: false
+          changed_when: "'Downloaded' in docker_pull_mirror.stdout or 'Pull complete' in docker_pull_mirror.stdout"
+
+        - name: Fall back to public registry if mirror failed
+          ansible.builtin.command:
+            cmd: "docker pull {{ vllm_bare_metal_image_public }}"
+          register: docker_pull_public
+          when:
+            - image_exists.stdout == ""
+            - (not (use_docker_mirror | default(false) | bool)) or (docker_pull_mirror is defined and docker_pull_mirror.rc != 0)
+          changed_when: "'Downloaded' in docker_pull_public.stdout or 'Pull complete' in docker_pull_public.stdout"
+
+        - name: Update final image name if we used public registry
+          ansible.builtin.set_fact:
+            vllm_bare_metal_image_final: "{{ vllm_bare_metal_image_public }}"
+          when:
+            - docker_pull_public is defined
+            - docker_pull_public.rc == 0
 
         - name: Create vLLM systemd service for container
           template:
             src: vllm-container.service.j2
             dest: "/etc/systemd/system/{{ vllm_bare_metal_service_name | default('vllm') }}.service"
             mode: '0644'
           become: yes
-          notify: restart vllm
+          register: systemd_service_container
 
     # Direct installation (pip/source)
     - name: Deploy vLLM with direct installation
@@ -155,21 +198,39 @@
             dest: "/etc/systemd/system/{{ vllm_bare_metal_service_name | default('vllm') }}.service"
             mode: '0644'
           become: yes
-          notify: restart vllm
+          register: systemd_service_direct
+
+    - name: Check if vLLM configuration template exists
+      stat:
+        path: "{{ role_path }}/templates/vllm.conf.j2"
+      register: vllm_conf_template
+      delegate_to: localhost
 
     - name: Create vLLM configuration file
       template:
         src: vllm.conf.j2
         dest: /etc/vllm/vllm.conf
         mode: '0644'
       become: yes
-      notify: restart vllm
+      register: vllm_config
+      when: vllm_conf_template.stat.exists
 
     - name: Reload systemd daemon
       systemd:
         daemon_reload: yes
       become: yes
 
+    - name: Restart vLLM service if configuration changed
+      systemd:
+        name: "{{ vllm_bare_metal_service_name | default('vllm') }}"
+        state: restarted
+        daemon_reload: yes
+      become: yes
+      when: >-
+        (systemd_service_container is defined and systemd_service_container.changed) or
+        (systemd_service_direct is defined and systemd_service_direct.changed) or
+        (vllm_config is defined and vllm_config.changed)
+
     - name: Start and enable vLLM service
       systemd:
         name: "{{ vllm_bare_metal_service_name | default('vllm') }}"
@@ -218,10 +279,3 @@
           - Stop: sudo systemctl stop {{ vllm_bare_metal_service_name | default('vllm') }}
           - Status: sudo systemctl status {{ vllm_bare_metal_service_name | default('vllm') }}
           - Logs: sudo journalctl -u {{ vllm_bare_metal_service_name | default('vllm') }} -f
-
-# Handler for restarting vLLM
-- name: restart vllm
-  systemd:
-    name: "{{ vllm_bare_metal_service_name | default('vllm') }}"
-    state: restarted
-  become: yes