Модели машинного обучения: OnSiteSeq HIV

Глубокое обучение для высокоточного геномного надзора и предсказания резистентности ВИЧ-1

🧠 Инновационный подход к геному ВИЧ-1

Стандартные зарубежные алгоритмы (в том числе разработанные в США) часто обучаются на базах данных, не отражающих специфику Российской Федерации. Эпидемия ВИЧ-1 в России носит выраженный монофилетический характер.

Наши проприетарные нейросетевые модели разработаны с учетом отечественной эпидемиологии и используют передовые архитектуры машинного обучения для обеспечения беспрецедентной точности диагностики.

🧬 HIV-1-M-Env-Rus (Версия 1.0)

Специализированная нейросетевая модель для классификации генетических вариантов ВИЧ-1. Она решает критическую задачу выявления доминирующих и рекомбинантных форм вируса, циркулирующих на территории РФ.

Целевой регион: Анализ нуклеотидных последовательностей гена Env.
Специфика РФ: Модель оптимизирована для сверхточной детекции субтипа A6 (на который приходится более 80% случаев в России), а также сложных циркулирующих рекомбинантных форм, таких как CRF63_02A6.
Архитектура: Глубокое обучение на базе PyTorch с интеграцией в автоматизированный пайплайн подготовки данных (Snakemake).
Результат: Расчет процентной вероятности принадлежности изолята к конкретному субтипу.

🛡️ HIV-1-Resist-Rus (Версия 1.0)

Флагманская модель для прогнозирования устойчивости вируса к основным классам антиретровирусной терапии (АРВТ).

Целевые гены: Анализ ключевых участков генома, ответственных за выживаемость вируса — PR (протеаза), RT (обратная транскриптаза) и IN (интеграза).
Архитектура ID-CNN + Self-Attention: Использование одномерных сверточных сетей в связке с механизмом «внимания» позволяет модели эффективно распознавать эпистаз — сложную взаимосвязь, при которой одна мутация может усиливать или подавлять эффект другой мутации.
Интеграция с базами данных: Модель калибруется с использованием актуальных мировых (Stanford HIVDB) и российских баз данных резистентности.

🚀 HIV-1-Resist-Rus (Версия 3.0)

Принципиальное обновление, переводящее систему из статуса исследовательского прототипа в клинически применимый инструмент. Репозиторий: gitverse.ru/onsiteseq/HIV-1-Resist-Rus

Что изменилось в v3

Компонент	v1 / v2	v3
Препараты	1 (DTG) / 14	14 (все классы АРТ)
Обучающий датасет	Stanford interim CSVs + синтетика	37 641 последовательность LANL
Разметка	Fold-change ≥ 3.5	Stanford Sierra API (эталон)
Распределение классов	60–92 % резистентных (синтетика)	0.8–10.8 % (реальное)
Валидация	Внутренняя (val split)	356 пациентов ЦНИИ Эпидемиологии Роспотребнадзора
Среднее AUC (внешн.)	~0.727	0.990

Архитектура HybridResistanceCNN

Модель объединяет три ветки, работающие параллельно:

Embedding + CNN ×3 — локальные паттерны в аминокислотной последовательности (RT: 240 позиций / PR: 99 / IN: 288)
Self-Attention — долгодистанционный эпистаз между удалёнными позициями
MutationMLP — двухслойный перцептрон на ключевых позициях (K65R, M184V, K103N, G140S и др.)

Три ветки объединяются через Fusion-слой → Dropout → Linear → P(резистентный) ∈ [0, 1].

Ключевые инженерные решения: Focal Loss (α=0.75, γ=2.0) для борьбы с дисбалансом классов (≤1% резистентных), WeightedRandomSampler, OneCycleLR (80 эпох), калибровка порогов по Юдену.

Результаты внешней валидации v3

Валидация на 356 деидентифицированных пациентах ЦНИИ Эпидемиологии Роспотребнадзора (когорта EpidRuSeq). Эталон — заключения Stanford HivDB по каждому препарату.

Среднее AUC = 0.990 — соответствует уровню точности Stanford HIV Drug Resistance Database при работе в полностью офлайн-режиме без передачи данных на зарубежные серверы.

Препарат	Класс	AUC	F1	Чувствительность	Специфичность	ΔAUC vs v2
DRV	ИП	1.000	1.000	1.000	1.000	+0.017
DTG	ИНТИ	1.000	0.800	1.000	0.994	+0.272
3TC	НИОТ	0.999	0.964	0.982	0.990	+0.019
RAL	ИНТИ	0.999	0.898	0.957	0.988	+0.670
EVG	ИНТИ	0.999	0.898	0.957	0.988	+0.178
ABC	НИОТ	0.997	0.957	0.965	0.990	+0.549
ATV/r	ИП	0.997	0.811	0.938	0.982	+0.141
LPV/r	ИП	0.997	0.762	0.889	0.988	+0.210
BIC	ИНТИ	0.996	0.500	0.750	0.986	+0.319
TDF	НИОТ	0.989	0.809	0.826	0.985	+0.222
AZT	НИОТ	0.987	0.933	0.913	0.997	+0.161
ETR	ННИОТ	0.981	0.889	0.941	0.970	+0.171
EFV	ННИОТ	0.972	0.879	0.954	0.952	+0.070
NVP	ННИОТ	0.949	0.857	0.882	0.958	+0.041
Среднее		0.990	0.854	0.925	0.984

12 из 14 препаратов преодолевают клинический порог AUC ≥ 0.90 и чувствительность ≥ 0.85.

⚙️ Технологии и BioMLOps

Мы придерживаемся строгих инженерных стандартов управления жизненным циклом машинного обучения в биомедицине (BioMLOps), что критически важно для сертификации и воспроизводимости результатов.

Управление данными (DVC): Версионирование обучающих датасетов, весов моделей и пайплайнов извлечения признаков. Это гарантирует 100% прослеживаемость экспериментов.
Непрерывное обучение: Разработан автоматизированный пайплайн дообучения при обновлении внешних баз данных (Stanford HIVDB) с системой ранней детекции деградации качества модели (Model Degradation) на отложенной выборке (Hold-out Set).
Технологический стек: PyTorch (>=2.0), Snakemake, DVC, BioPython.

💡 Научная валидация > Эффективность наших моделей и методологии BioMLOps получила признание академического сообщества. Результаты исследований успешно представлены на ведущих конференциях:

Классификация субтипов (HIV-1-M-Env-Rus) — МНСК-2026

Предикция резистентности и BioMLOps (HIV-1-Resist-Rus) — МСИТ-2026