Модели машинного обучения: OnSiteSeq HIV
Глубокое обучение для высокоточного геномного надзора и предсказания резистентности ВИЧ-1
🧠 Инновационный подход к геному ВИЧ-1
Стандартные зарубежные алгоритмы (в том числе разработанные в США) часто обучаются на базах данных, не отражающих специфику Российской Федерации. Эпидемия ВИЧ-1 в России носит выраженный монофилетический характер.
Наши проприетарные нейросетевые модели разработаны с учетом отечественной эпидемиологии и используют передовые архитектуры машинного обучения для обеспечения беспрецедентной точности диагностики.
🧬 HIV-1-M-Env-Rus (Версия 1.0)
Специализированная нейросетевая модель для классификации генетических вариантов ВИЧ-1. Она решает критическую задачу выявления доминирующих и рекомбинантных форм вируса, циркулирующих на территории РФ.
- Целевой регион: Анализ нуклеотидных последовательностей гена Env.
- Специфика РФ: Модель оптимизирована для сверхточной детекции субтипа A6 (на который приходится более 80% случаев в России), а также сложных циркулирующих рекомбинантных форм, таких как CRF63_02A6.
- Архитектура: Глубокое обучение на базе PyTorch с интеграцией в автоматизированный пайплайн подготовки данных (Snakemake).
- Результат: Расчет процентной вероятности принадлежности изолята к конкретному субтипу.
🛡️ HIV-1-Resist-Rus (Версия 1.0)
Флагманская модель для прогнозирования устойчивости вируса к основным классам антиретровирусной терапии (АРВТ).
- Целевые гены: Анализ ключевых участков генома, ответственных за выживаемость вируса — PR (протеаза), RT (обратная транскриптаза) и IN (интеграза).
- Архитектура ID-CNN + Self-Attention: Использование одномерных сверточных сетей в связке с механизмом «внимания» позволяет модели эффективно распознавать эпистаз — сложную взаимосвязь, при которой одна мутация может усиливать или подавлять эффект другой мутации.
- Интеграция с базами данных: Модель калибруется с использованием актуальных мировых (Stanford HIVDB) и российских баз данных резистентности.
🚀 HIV-1-Resist-Rus (Версия 3.0)
Принципиальное обновление, переводящее систему из статуса исследовательского прототипа в клинически применимый инструмент. Репозиторий: gitverse.ru/onsiteseq/HIV-1-Resist-Rus
Что изменилось в v3
| Компонент | v1 / v2 | v3 |
|---|---|---|
| Препараты | 1 (DTG) / 14 | 14 (все классы АРТ) |
| Обучающий датасет | Stanford interim CSVs + синтетика | 37 641 последовательность LANL |
| Разметка | Fold-change ≥ 3.5 | Stanford Sierra API (эталон) |
| Распределение классов | 60–92 % резистентных (синтетика) | 0.8–10.8 % (реальное) |
| Валидация | Внутренняя (val split) | 356 пациентов ЦНИИ Эпидемиологии Роспотребнадзора |
| Среднее AUC (внешн.) | ~0.727 | 0.990 |
Архитектура HybridResistanceCNN
Модель объединяет три ветки, работающие параллельно:
- Embedding + CNN ×3 — локальные паттерны в аминокислотной последовательности (RT: 240 позиций / PR: 99 / IN: 288)
- Self-Attention — долгодистанционный эпистаз между удалёнными позициями
- MutationMLP — двухслойный перцептрон на ключевых позициях (K65R, M184V, K103N, G140S и др.)
Три ветки объединяются через Fusion-слой → Dropout → Linear → P(резистентный) ∈ [0, 1].
Ключевые инженерные решения: Focal Loss (α=0.75, γ=2.0) для борьбы с дисбалансом классов (≤1% резистентных), WeightedRandomSampler, OneCycleLR (80 эпох), калибровка порогов по Юдену.
Результаты внешней валидации v3
Валидация на 356 деидентифицированных пациентах ЦНИИ Эпидемиологии Роспотребнадзора (когорта EpidRuSeq). Эталон — заключения Stanford HivDB по каждому препарату.
Среднее AUC = 0.990 — соответствует уровню точности Stanford HIV Drug Resistance Database при работе в полностью офлайн-режиме без передачи данных на зарубежные серверы.
| Препарат | Класс | AUC | F1 | Чувствительность | Специфичность | ΔAUC vs v2 |
|---|---|---|---|---|---|---|
| DRV | ИП | 1.000 | 1.000 | 1.000 | 1.000 | +0.017 |
| DTG | ИНТИ | 1.000 | 0.800 | 1.000 | 0.994 | +0.272 |
| 3TC | НИОТ | 0.999 | 0.964 | 0.982 | 0.990 | +0.019 |
| RAL | ИНТИ | 0.999 | 0.898 | 0.957 | 0.988 | +0.670 |
| EVG | ИНТИ | 0.999 | 0.898 | 0.957 | 0.988 | +0.178 |
| ABC | НИОТ | 0.997 | 0.957 | 0.965 | 0.990 | +0.549 |
| ATV/r | ИП | 0.997 | 0.811 | 0.938 | 0.982 | +0.141 |
| LPV/r | ИП | 0.997 | 0.762 | 0.889 | 0.988 | +0.210 |
| BIC | ИНТИ | 0.996 | 0.500 | 0.750 | 0.986 | +0.319 |
| TDF | НИОТ | 0.989 | 0.809 | 0.826 | 0.985 | +0.222 |
| AZT | НИОТ | 0.987 | 0.933 | 0.913 | 0.997 | +0.161 |
| ETR | ННИОТ | 0.981 | 0.889 | 0.941 | 0.970 | +0.171 |
| EFV | ННИОТ | 0.972 | 0.879 | 0.954 | 0.952 | +0.070 |
| NVP | ННИОТ | 0.949 | 0.857 | 0.882 | 0.958 | +0.041 |
| Среднее | 0.990 | 0.854 | 0.925 | 0.984 |
12 из 14 препаратов преодолевают клинический порог AUC ≥ 0.90 и чувствительность ≥ 0.85.
⚙️ Технологии и BioMLOps
Мы придерживаемся строгих инженерных стандартов управления жизненным циклом машинного обучения в биомедицине (BioMLOps), что критически важно для сертификации и воспроизводимости результатов.
- Управление данными (DVC): Версионирование обучающих датасетов, весов моделей и пайплайнов извлечения признаков. Это гарантирует 100% прослеживаемость экспериментов.
- Непрерывное обучение: Разработан автоматизированный пайплайн дообучения при обновлении внешних баз данных (Stanford HIVDB) с системой ранней детекции деградации качества модели (Model Degradation) на отложенной выборке (Hold-out Set).
- Технологический стек:
PyTorch (>=2.0),Snakemake,DVC,BioPython.
💡 Научная валидация > Эффективность наших моделей и методологии BioMLOps получила признание академического сообщества. Результаты исследований успешно представлены на ведущих конференциях: