Модели машинного обучения: OnSiteSeq HIV

Глубокое обучение для высокоточного геномного надзора и предсказания резистентности ВИЧ-1


🧠 Инновационный подход к геному ВИЧ-1

Стандартные зарубежные алгоритмы (в том числе разработанные в США) часто обучаются на базах данных, не отражающих специфику Российской Федерации. Эпидемия ВИЧ-1 в России носит выраженный монофилетический характер.

Наши проприетарные нейросетевые модели разработаны с учетом отечественной эпидемиологии и используют передовые архитектуры машинного обучения для обеспечения беспрецедентной точности диагностики.


🧬 HIV-1-M-Env-Rus (Версия 1.0)

Специализированная нейросетевая модель для классификации генетических вариантов ВИЧ-1. Она решает критическую задачу выявления доминирующих и рекомбинантных форм вируса, циркулирующих на территории РФ.

  • Целевой регион: Анализ нуклеотидных последовательностей гена Env.
  • Специфика РФ: Модель оптимизирована для сверхточной детекции субтипа A6 (на который приходится более 80% случаев в России), а также сложных циркулирующих рекомбинантных форм, таких как CRF63_02A6.
  • Архитектура: Глубокое обучение на базе PyTorch с интеграцией в автоматизированный пайплайн подготовки данных (Snakemake).
  • Результат: Расчет процентной вероятности принадлежности изолята к конкретному субтипу.

🛡️ HIV-1-Resist-Rus (Версия 1.0)

Флагманская модель для прогнозирования устойчивости вируса к основным классам антиретровирусной терапии (АРВТ).

  • Целевые гены: Анализ ключевых участков генома, ответственных за выживаемость вируса — PR (протеаза), RT (обратная транскриптаза) и IN (интеграза).
  • Архитектура ID-CNN + Self-Attention: Использование одномерных сверточных сетей в связке с механизмом «внимания» позволяет модели эффективно распознавать эпистаз — сложную взаимосвязь, при которой одна мутация может усиливать или подавлять эффект другой мутации.
  • Интеграция с базами данных: Модель калибруется с использованием актуальных мировых (Stanford HIVDB) и российских баз данных резистентности.

🚀 HIV-1-Resist-Rus (Версия 3.0)

Принципиальное обновление, переводящее систему из статуса исследовательского прототипа в клинически применимый инструмент. Репозиторий: gitverse.ru/onsiteseq/HIV-1-Resist-Rus

Что изменилось в v3

Компонент v1 / v2 v3
Препараты 1 (DTG) / 14 14 (все классы АРТ)
Обучающий датасет Stanford interim CSVs + синтетика 37 641 последовательность LANL
Разметка Fold-change ≥ 3.5 Stanford Sierra API (эталон)
Распределение классов 60–92 % резистентных (синтетика) 0.8–10.8 % (реальное)
Валидация Внутренняя (val split) 356 пациентов ЦНИИ Эпидемиологии Роспотребнадзора
Среднее AUC (внешн.) ~0.727 0.990

Архитектура HybridResistanceCNN

Модель объединяет три ветки, работающие параллельно:

  • Embedding + CNN ×3 — локальные паттерны в аминокислотной последовательности (RT: 240 позиций / PR: 99 / IN: 288)
  • Self-Attention — долгодистанционный эпистаз между удалёнными позициями
  • MutationMLP — двухслойный перцептрон на ключевых позициях (K65R, M184V, K103N, G140S и др.)

Три ветки объединяются через Fusion-слой → Dropout → Linear → P(резистентный) ∈ [0, 1].

Ключевые инженерные решения: Focal Loss (α=0.75, γ=2.0) для борьбы с дисбалансом классов (≤1% резистентных), WeightedRandomSampler, OneCycleLR (80 эпох), калибровка порогов по Юдену.

Результаты внешней валидации v3

Валидация на 356 деидентифицированных пациентах ЦНИИ Эпидемиологии Роспотребнадзора (когорта EpidRuSeq). Эталон — заключения Stanford HivDB по каждому препарату.

Среднее AUC = 0.990 — соответствует уровню точности Stanford HIV Drug Resistance Database при работе в полностью офлайн-режиме без передачи данных на зарубежные серверы.

Препарат Класс AUC F1 Чувствительность Специфичность ΔAUC vs v2
DRV ИП 1.000 1.000 1.000 1.000 +0.017
DTG ИНТИ 1.000 0.800 1.000 0.994 +0.272
3TC НИОТ 0.999 0.964 0.982 0.990 +0.019
RAL ИНТИ 0.999 0.898 0.957 0.988 +0.670
EVG ИНТИ 0.999 0.898 0.957 0.988 +0.178
ABC НИОТ 0.997 0.957 0.965 0.990 +0.549
ATV/r ИП 0.997 0.811 0.938 0.982 +0.141
LPV/r ИП 0.997 0.762 0.889 0.988 +0.210
BIC ИНТИ 0.996 0.500 0.750 0.986 +0.319
TDF НИОТ 0.989 0.809 0.826 0.985 +0.222
AZT НИОТ 0.987 0.933 0.913 0.997 +0.161
ETR ННИОТ 0.981 0.889 0.941 0.970 +0.171
EFV ННИОТ 0.972 0.879 0.954 0.952 +0.070
NVP ННИОТ 0.949 0.857 0.882 0.958 +0.041
Среднее   0.990 0.854 0.925 0.984  

12 из 14 препаратов преодолевают клинический порог AUC ≥ 0.90 и чувствительность ≥ 0.85.


⚙️ Технологии и BioMLOps

Мы придерживаемся строгих инженерных стандартов управления жизненным циклом машинного обучения в биомедицине (BioMLOps), что критически важно для сертификации и воспроизводимости результатов.

  • Управление данными (DVC): Версионирование обучающих датасетов, весов моделей и пайплайнов извлечения признаков. Это гарантирует 100% прослеживаемость экспериментов.
  • Непрерывное обучение: Разработан автоматизированный пайплайн дообучения при обновлении внешних баз данных (Stanford HIVDB) с системой ранней детекции деградации качества модели (Model Degradation) на отложенной выборке (Hold-out Set).
  • Технологический стек: PyTorch (>=2.0), Snakemake, DVC, BioPython.

💡 Научная валидация > Эффективность наших моделей и методологии BioMLOps получила признание академического сообщества. Результаты исследований успешно представлены на ведущих конференциях:

  • Классификация субтипов (HIV-1-M-Env-Rus) — МНСК-2026
  • Предикция резистентности и BioMLOps (HIV-1-Resist-Rus) — МСИТ-2026
© 2026 Роман Горбенко, МФТИ-стартап "OnSiteSeq - Секвенирование на месте (у кровати / у стола / в поле)"