Deterministic, mathematically-grounded AI security. Not another ML model hoping to catch what ML models miss.
QWEN-2026-001 — 5 critical safety bypass vectors discovered in Qwen 3.5-Plus, Alibaba's most advanced model.
| Model | Qwen 3.5-Plus (February 2026) — Alibaba's flagship |
| Safety Stack | Qwen3Guard + GSPO + RationaleRM — 3 layers of defense |
| Result | All 3 layers bypassed. 5 vectors. 5 stages. 3 chat sessions. |
| Output | Functional shellcode, reverse shells, jailbreak automation tools, God Mode declarations |
| Severity | High (Systemic) — the model rated its own vulnerability |
The attack chain: contextual framing → decorative refusal → God Mode → self-replicating jailbreak tools. Each stage looks like a legitimate request. No safety filter triggered.
If Alibaba's 3-layer safety stack couldn't stop us, what's protecting yours?
📄 Full advisory:
QWEN-2026-001· 🎬 Demo: YouTube
|
We test your LLM deployment against 39,000+ attack payloads across 15 categories. You get a detailed vulnerability report with severity ratings, reproduction steps, and remediation guidance. Deliverable: Full audit report + OWASP LLM Top 10 compliance mapping. |
Deploy 61 deterministic Rust engines as an input/output firewall around your LLM. Sub-millisecond latency. 98.5% detection rate. No GPU required. Deliverable: Production-ready security layer + monitoring dashboard. |
|
Adversarial testing by the team that broke Qwen 3.5-Plus. We find what your safety stack misses — prompt injection chains, multi-turn escalation, contextual framing, tool-call exploitation. Deliverable: Attack chain documentation + video demonstrations. |
90+ lessons across 3 skill levels. From prompt injection basics to formal verification of safety properties. Available in English and Russian. Deliverable: Team training program + certification. |
| Metric | Value | What It Means |
|---|---|---|
| 61 engines | Rust, deterministic, zero ML | No false negatives from model drift. Same input = same result. Always. |
| 1,101 tests | 0 failures | Every engine, every pattern, every edge case — verified. |
| 98.5% detection | 250,000 simulated attacks | Across 15 attack categories. The 1.5% residual is the theoretical floor. |
| <1ms latency | Per query | Fast enough for real-time production. No GPU. No batching. |
| 7 novel primitives | 0 prior implementations | 51 searches on grep.app confirmed: we invented these. |
| 19 scientific domains | From formal verification to immunology | Each domain solves a problem the others can't. Independent failure modes. |
| OWASP 9/10 | Agentic AI Top 10 coverage | Full platform: sentinel-core + shield + immune. Compliance mapping available. |
Every AI system deployed today faces the same fundamental challenge: the model cannot distinguish legitimate instructions from adversarial ones. A prompt injection attack looks identical to normal input. A jailbreak uses the same natural language as a help request. A data exfiltration chain can consist entirely of individually-legitimate tool calls.
Current defenses rely on ML classifiers that share the same blindness as the models they protect. Sentinel takes a different approach: deterministic, mathematically-grounded defense that doesn't depend on another AI to detect what AI can't see.
61 Rust detection engines. Sub-millisecond latency. 98.5% detection across 250,000 simulated attacks spanning 15 categories. 7 novel security primitives derived from 19 scientific domains — from formal verification to mechanism design to immunology.
Sentinel operates as a defense-in-depth cascade. Each layer catches what the previous one missed, and each layer uses a fundamentally different detection paradigm — so a bypass for one layer doesn't help against the next.
250,000 attacks enter the system
|
+-- L1 Sentinel Core (regex engines) ---- catches 36.0% ← deterministic pattern matching
| Remaining: 160,090
|
+-- L2 Capability Proxy (IFC) ----------- catches 20.3% ← structural: data CAN'T flow wrong
| Remaining: 109,241
|
+-- L3 Behavioral EDR ------------------- catches 10.9% ← runtime anomaly detection
| Remaining: 82,090
|
+-- PASR Provenance tracking ------------ catches 2.0% ← unforgeable provenance certificates
+-- TCSA Temporal chains + capabilities -- catches 0.8% ← LTL safety automata
+-- ASRA Ambiguity resolution ----------- catches 1.3% ← argumentation + mechanism design
+-- Combinatorial layers (A+B+G) --------- catches 6.1% ← impossibility proofs
+-- MIRE Model containment -------------- contains 0.7% ← don't detect, CONTAIN
|
RESIDUAL: ~1.5% (~3,750 attacks — theoretical floor)
The key insight: each layer uses a different scientific paradigm, so they don't share failure modes. Pattern matching, information flow control, temporal logic, argumentation theory, mechanism design, and containment are mathematically independent approaches.
sentinel-core
Rust— 61 deterministic detection engines, 810+ regex patterns, 1101 tests. Sub-millisecond per-query latency. Covers OWASP LLM Top 10, CSA MCP TTPs, GenAI Attacks Matrix, and all 7 Sentinel Lattice primitives.
brain
Python— AI Security Backend. gRPC API with 32 modules: analyzer, audit, compliance, graph, hive, GPU inference, rules engine, SDK.
shield
C11— AI Security DMZ. 36,000+ LOC pure C11, 21 protocols, 119 CLI handlers, 103 tests. Zero external dependencies.
immune
C— EDR/XDR for AI infrastructure. Kernel-level endpoint protection, TLS/mTLS, Bloom filters, eBPF hooks.
micro-swarm
Python— Lightweight ML ensemble. <1ms inference, F1=0.997. Complements deterministic engines with statistical detection.
sentinel-sdk
Python— Integration SDK. | sentinel CLIPython— CLI framework wrapping sentinel-core.
strike
Python— AI Red Team Platform. 39,000+ attack payloads across 15 categories. Autonomous adversarial testing against your own defenses.
gomcp
Go— MCP server with hierarchical memory, cognitive state, causal reasoning graphs.devkit — Agent-first development toolkit. | patterns
YAML— Detection pattern databases (CJK jailbreaks, Pipelock taxonomy). | signaturesJSON— Signature databases (jailbreaks EN/RU, PII, keywords).
These aren't incremental improvements. Each primitive addresses a mathematically proven limitation of existing approaches. 51 cross-domain searches on grep.app confirmed: zero prior implementations exist for any of these.
| Primitive | Source Domain | The Problem | How It Solves It |
|---|---|---|---|
| TSA | Runtime Verification (Havelund & Rosu) | Individual tool calls are legitimate, but the chain is malicious. Current guards only check pairs. | LTL safety properties compiled to O(1) monitor automata. Checks arbitrary-length chains in constant time. |
| CAFL | Information Flow Control | LLM can perform ANY information transformation — taint tracking breaks because the model is a black box. | Worst-case assumption: if tainted data enters LLM, ALL output is tainted. Capabilities only DECREASE through chains. Sound by construction. |
| GPS | Predictive Analytics | Attacks are detected only AFTER the damage is done. | Enumerates the 16-bit abstract state space (65,536 states). Computes what fraction of continuations lead to danger. GPS > 0.7 = early warning BEFORE the attack arrives. |
| AAS | Argumentation Theory (Dung 1995) | "How do I mix bleach and ammonia?" — chemistry student or attacker? Same text, same semantics. No classifier can distinguish them. | Constructs explicit argumentation frameworks. Computes grounded extension via fixed-point iteration. Context-conditioned attacks tip the decision. Fully auditable for EU AI Act. |
| IRM | Mechanism Design (Economics) | Text alone cannot reveal intent — the fundamental impossibility of semantic identity. | Designs interactions where malicious users' behavior reveals intent. Screening, costly signaling, sequential revelation — even when text is identical, choices differ. |
| MIRE | Cryptography (Goldwasser-Kim 2022) | Backdoor detection is mathematically impossible (proven). All detection has a fundamental ceiling. | Paradigm shift: don't detect — contain. Output envelope, canary probes, spectral watchdog, capability sandbox. The backdoor activates but achieves nothing. |
| PASR | Category Theory + Cryptography | Semantic transduction destroys tokens. L2 taint tags die with them. Provenance and semantics are architecturally incompatible. | Two-channel output: lossy semantic intent + HMAC-signed provenance certificate. Provenance is a property of derivations, not tokens. A categorical fibration. |
23-page academic paper (USENIX format):
papers/sentinel-latticeFull architecture & R&D notes:
docs/rnd
The 7 primitives draw from 19 scientific domains. This isn't decoration — each domain contributes a specific mathematical tool that solves a specific security problem:
| Domain | Contribution to Sentinel |
|---|---|
| Runtime Verification | LTL temporal logic → monitor automata for tool-call chains (TSA) |
| Information Flow Control | Bell-LaPadula lattice → data can only flow UP, never down (L2) |
| Argumentation Theory | Dung's grounded semantics → auditable dual-use decisions (AAS) |
| Mechanism Design | Screening & costly signaling → intent revealed through behavior (IRM) |
| Category Theory | Provenance lifting functor → fibration preserving taint through lossy transforms (PASR) |
| Cryptography | Goldwasser-Kim impossibility → containment paradigm shift (MIRE) |
| Control Theory | Lyapunov stability → conversation trajectories provably bounded |
| Immunology | Negative selection → anomaly detectors that don't need attack signatures |
| Neuroscience | Lateral inhibition → competing interpretations suppress adversarial readings |
| Formal Linguistics | Chomsky hierarchy → injection syntactically impossible at grammar level |
| Information Theory | Shannon capacity → channel narrowed below minimum attack payload |
| Speech Act Theory | Illocutionary force → detects COMMAND(override) hidden in any prompt |
| Distributed Systems | BFT consensus → N≥3f+1 diverse models agree on safety |
The EU AI Act mandates security testing for high-risk AI systems. Attack surface is expanding — agentic workflows, tool-calling chains, multi-model pipelines. Every month without deterministic defense is another month of exposure.
- EU AI Act Article 15: High-risk AI systems require robustness against adversarial attacks
- OWASP LLM Top 10: Industry standard your auditors will ask about
- Agentic explosion: Tool-calling LLMs create attack chains no classifier can follow
The question isn't whether your AI will be attacked. It's whether you'll know when it happens.
Request an audit · Schedule a red team engagement · Deploy Sentinel
📧 d.labintcev@gmail.com · 💬 Telegram · 🎮 Discord: dmitrysl3401 · 𝕏 @DLabintcev
Quick Start · Security · License · Academy
Детерминированная, математически обоснованная защита ИИ. Не ещё одна ML-модель, надеющаяся поймать то, что ML-модели пропускают.
QWEN-2026-001 — 5 критических векторов обхода безопасности в Qwen 3.5-Plus, самой продвинутой модели Alibaba.
| Модель | Qwen 3.5-Plus (февраль 2026) — флагман Alibaba |
| Стек безопасности | Qwen3Guard + GSPO + RationaleRM — 3 уровня защиты |
| Результат | Все 3 уровня обойдены. 5 векторов. 5 стадий. 3 чат-сессии. |
| Выход | Рабочий шеллкод, реверс-шеллы, инструменты автоматизации джейлбрейков, God Mode |
| Критичность | High (Systemic) — модель сама оценила свою уязвимость |
Цепочка атаки: контекстное фреймирование → декоративный отказ → God Mode → самовоспроизводящиеся джейлбрейк-инструменты.
Если 3-уровневый стек безопасности Alibaba нас не остановил — что защищает ваc?
📄 Полный advisory:
QWEN-2026-001· 🎬 Демо: YouTube
|
Тестируем ваш LLM-деплой против 39 000+ атакующих нагрузок по 15 категориям. Детальный отчёт с уровнями критичности, шагами воспроизведения и рекомендациями. Результат: Полный отчёт + маппинг OWASP LLM Top 10. |
61 детерминированный Rust-движок как входной/выходной файрвол вокруг вашего LLM. Латентность <1мс. 98.5% обнаружение. GPU не нужен. Результат: Продакшн-защита + дашборд мониторинга. |
|
Adversarial-тестирование от команды, взломавшей Qwen 3.5-Plus. Находим то, что ваш стек безопасности пропускает — prompt injection цепочки, multi-turn эскалация, контекстное фреймирование. Результат: Документация цепочек атак + видео-демонстрации. |
90+ уроков на 3 уровнях. От основ prompt injection до формальной верификации свойств безопасности. На английском и русском. Результат: Программа обучения команды + сертификация. |
| Метрика | Значение | Что это значит |
|---|---|---|
| 61 движок | Rust, детерминированные, без ML | Нет ложных срабатываний от дрифта модели. Один вход = один результат. Всегда. |
| 1 101 тест | 0 падений | Каждый движок, каждый паттерн, каждый edge case — проверен. |
| 98.5% обнаружение | 250 000 атак | По 15 категориям. 1.5% остаток — теоретический пол. |
| <1мс латентность | На запрос | Достаточно для продакшна в реальном времени. Без GPU. |
| 7 новых примитивов | 0 существующих реализаций | 51 поиск по grep.app подтвердил: мы их изобрели. |
| 19 научных областей | От формальной верификации до иммунологии | Каждая область решает задачу, которую другие не могут. |
| OWASP 9/10 | Покрытие Agentic AI Top 10 | Вся платформа: sentinel-core + shield + immune. Маппинг доступен. |
Каждая развёрнутая сегодня AI-система сталкивается с одной фундаментальной проблемой: модель не может отличить легитимные инструкции от враждебных. Prompt-инъекция выглядит идентично нормальному вводу. Jailbreak использует тот же естественный язык, что и обычный запрос. Цепочка эксфильтрации данных может состоять из полностью легитимных вызовов инструментов.
Существующие защиты полагаются на ML-классификаторы, разделяющие ту же слепоту, что и защищаемые модели. Sentinel использует другой подход: детерминированная, математически обоснованная защита, не зависящая от другого ИИ.
61 Rust-движок. Латентность <1мс. 98.5% обнаружение на 250 000 атак по 15 категориям. 7 новых примитивов безопасности из 19 научных областей.
Sentinel работает как каскад эшелонированной обороны. Каждый уровень ловит то, что пропустил предыдущий, и каждый использует принципиально другую парадигму обнаружения.
250 000 атак входят в систему
|
+-- L1 Sentinel Core (regex-движки) ------ ловит 36.0% ← детерминированное сопоставление
| Остаток: 160 090
|
+-- L2 Capability Proxy (IFC) ------------- ловит 20.3% ← структурно: данные НЕ МОГУТ утечь
| Остаток: 109 241
|
+-- L3 Behavioral EDR --------------------- ловит 10.9% ← обнаружение аномалий
| Остаток: 82 090
|
+-- PASR Отслеживание провенанса ---------- ловит 2.0% ← неподделываемые сертификаты
+-- TCSA Темпоральные цепочки ------------- ловит 0.8% ← LTL-автоматы безопасности
+-- ASRA Разрешение неоднозначности ------- ловит 1.3% ← аргументация + mechanism design
+-- Комбинаторные слои (A+B+G) ------------- ловит 6.1% ← доказательства невозможности
+-- MIRE Контейнмент модели --------------- содержит 0.7% ← не обнаруживай — СОДЕРЖИ
|
ОСТАТОК: ~1.5% (~3 750 атак — теоретический пол)
sentinel-core
Rust— 61 детерминированный движок, 810+ regex-паттернов, 1101 тест. Латентность <1мс. Покрывает OWASP LLM Top 10, CSA MCP TTPs и все 7 примитивов Sentinel Lattice.
brain
Python— AI Security Backend. gRPC API, 32 модуля: анализатор, аудит, комплаенс, граф, GPU-инференс, движок правил.
shield
C11— AI Security DMZ. 36 000+ LOC, 21 протокол, 119 CLI-обработчиков, 103 теста. Ноль внешних зависимостей.
immune
C— EDR/XDR для AI-инфраструктуры. Защита на уровне ядра, TLS/mTLS, Bloom-фильтры, eBPF.
micro-swarm
Python— ML-ансамбль. <1мс инференс, F1=0.997. Дополняет детерминированные движки статистическим обнаружением.
strike
Python— AI Red Team платформа. 39 000+ атакующих нагрузок по 15 категориям.
gomcp
Go— MCP-сервер с иерархической памятью и каузальными графами.devkit — Инструментарий разработки. | patterns
YAML— Базы паттернов. | signaturesJSON— Базы сигнатур.
Это не инкрементальные улучшения. Каждый примитив решает математически доказанное ограничение существующих подходов. 51 поиск по grep.app подтвердил: ни одной существующей реализации ни для одного из них.
| Примитив | Область | Проблема | Решение |
|---|---|---|---|
| TSA | Runtime Verification | Каждый вызов инструмента легитимен, но цепочка — атака. | LTL-свойства → автоматы O(1). Проверяет цепочки любой длины за константное время. |
| CAFL | Information Flow Control | LLM — чёрный ящик, тейнт-трекинг ломается. | Если тейнтованные данные вошли в LLM — весь выход тейнтован. Capabilities только убывают. |
| GPS | Предиктивная аналитика | Атаки обнаруживаются после ущерба. | Перечисляет 65 536 состояний. GPS > 0.7 = раннее предупреждение ДО атаки. |
| AAS | Теория аргументации | «Как смешать отбеливатель и аммиак?» — студент или злоумышленник? | Аргументационный фреймворк + обоснованное расширение. Аудируемо для EU AI Act. |
| IRM | Mechanism Design | Текст не может раскрыть намерение. | Проектирует взаимодействия, где поведение раскрывает намерение. |
| MIRE | Криптография | Обнаружение бэкдоров математически невозможно. | Не обнаруживай — содержи. Бэкдор активируется, но ничего не достигает. |
| PASR | Теория категорий | Семантическая трансдукция уничтожает тейнт-теги. | Двухканальный выход: семантика + HMAC-подписанный сертификат провенанса. |
Статья (23 стр., USENIX):
papers/sentinel-lattice· Архитектура:docs/rnd
7 примитивов опираются на 19 научных областей. Каждая область даёт конкретный математический инструмент для конкретной проблемы безопасности:
| Область | Вклад в Sentinel |
|---|---|
| Runtime Verification | LTL темпоральная логика → автоматы-мониторы для цепочек вызовов (TSA) |
| Information Flow Control | Решётка Bell-LaPadula → данные могут течь только ВВЕРХ (L2) |
| Теория аргументации | Обоснованная семантика Dung → аудируемые решения по dual-use (AAS) |
| Mechanism Design | Скрининг и сигналирование → намерение раскрывается через поведение (IRM) |
| Теория категорий | Функтор подъёма провенанса → фибрация через lossy-трансформации (PASR) |
| Криптография | Невозможность Goldwasser-Kim → парадигма контейнмента (MIRE) |
| Теория управления | Устойчивость Ляпунова → траектории разговоров доказуемо ограничены |
| Иммунология | Негативная селекция → детекторы аномалий без сигнатур атак |
| Нейронаука | Латеральное торможение → конкурирующие интерпретации подавляют adversarial |
| Формальная лингвистика | Иерархия Хомского → инъекция синтаксически невозможна на уровне грамматики |
| Теория информации | Пропускная способность Шеннона → канал сужен ниже минимальной атакующей нагрузки |
| Теория речевых актов | Иллокутивная сила → обнаруживает COMMAND(override) в любом промпте |
| Распределённые системы | BFT-консенсус → N≥3f+1 разнородных моделей согласуют безопасность |
EU AI Act требует тестирование безопасности для высокорисковых AI-систем. Поверхность атаки расширяется — агентные воркфлоу, цепочки вызовов инструментов, мультимодельные пайплайны. Каждый месяц без детерминированной защиты — ещё один месяц уязвимости.
- EU AI Act, статья 15: Высокорисковые AI-системы требуют устойчивости к adversarial-атакам
- OWASP LLM Top 10: Отраслевой стандарт, о котором спросят ваши аудиторы
- Агентный взрыв: Tool-calling LLM создают цепочки атак, которые ни один классификатор не отследит
Вопрос не в том, будет ли ваш ИИ атакован. Вопрос в том, узнаете ли вы, когда это произойдёт.
Запросить аудит · Заказать red team · Развернуть Sentinel
📧 d.labintcev@gmail.com · 💬 Telegram · 🎮 Discord: dmitrysl3401 · 𝕏 @DLabintcev
Quick Start · Security · License · Academy