Forensic DNA Phenotyping — Портрет по ДНК с места преступления

Предсказание цвета глаз, волос, кожи, биогеографического происхождения и возраста по следовым количествам ДНК — прямо на месте преступления


🧬 Описание пейплайна

Forensic DNA Phenotyping (FDP) — направление криминалистической геномики, позволяющее получить описание внешности неизвестного человека по биологическим следам (кровь, слюна, волосяная луковица, эпителий) без наличия профиля ДНК в базе данных.

В отличие от традиционного ДНК-профилирования (STR-анализ для сравнения с базой данных), FDP создаёт описание из ничего: следователь получает вероятностный фенотипический портрет даже при полном отсутствии подозреваемых. Наш пайплайн, работающий на OnSiteSeq Edge, выполняет анализ прямо на месте или в мобильной лаборатории без передачи генетических данных в облако.

  • 📥 На входе: Сырые данные в формате FASTQ после High Accuracy basecalling (Dorado SUP). Материал: кровь, слюна, волосяная луковица, эпителий с предметов.
  • 📤 На выходе: PDF/HTML-отчёт для следователя — вероятностный фенотипический портрет с доверительными интервалами по каждой характеристике; технический отчёт с данными QC и покрытия маркеров.

📊 Доступность продукта

Платформа Статус доступности
OnSiteSeq Cockpit Edge 🟡 В разработке
OnSiteSeq Cockpit Desktop 🟡 В разработке
OnSiteSeq Cockpit Cloud 🔴 Не доступно

🔍 Определяемые характеристики

Характеристика Метод Точность
Цвет глаз HIrisPlex-S (41 SNP) AUC >0.95 (синий vs карий)
Цвет волос HIrisPlex-S AUC ~0.89 (чёрный/тёмный vs светлый vs рыжий)
Цвет кожи HIrisPlex-S (шкала FST 1–6) Чувствительность ~80%
Биогеографическое происхождение AIMs-панель + PCA Материк с точностью >95%; субпопуляция ~80%
Биологический возраст Эпигенетические часы (DNA-метилирование) Ошибка ±3–5 лет
Биологический пол Амелогенин (AMEL X/Y) 100% при достаточном покрытии
Родство Анализ IBD-сегментов 1–2 степень родства (следственная генеалогия)

🎯 Ключевые SNP-маркеры и гены

Система HIrisPlex-S (цвет глаз, волос, кожи)

Ген Ключевые SNP Признак
HERC2 / OCA2 rs12913832 Главный переключатель синий/карий глаз
SLC45A2 rs16891982 Цвет кожи и волос (светлая кожа Европы)
SLC24A4 rs12896399 Синий/зелёный оттенок глаз
MC1R rs1805007, rs1805008 Рыжие волосы, веснушки
IRF4 rs12203592 Светлые волосы, голубые глаза
TYR rs1042602 Пигментация кожи
KITLG rs12821256 Светлые волосы

Биогеографическое происхождение (AIMs)

Ancestry Informative Markers (AIMs) — SNP с резко различной частотой аллелей между популяциями:

  • ~100–200 AIMs достаточно для определения континентального происхождения
  • ~1 000–10 000 SNP — субпопуляционная дифференциация (Восточная Европа vs Западная Европа, Ближний Восток и т.д.)
  • Для РФ критично: дифференциация славянских / тюркских / монголоидных популяций

Эпигенетический возраст

Модель Маркеры Применимость
Horvath clock 353 CpG-сайта Универсальная — все ткани
Hannum clock 71 CpG-сайт Кровь
DNAmAge (кровь/слюна) >800 CpG Наиболее точная для криминалистики

⚙️ Версии и ML-модели

Основной инструмент

Компонент Статус
OnSiteSeq FDP Pipeline 🟡 В разработке

Планируемые ML-модели

Модель Целевая задача
HIrisPlex-Nano Предсказание EVCs по нанопоровым ридам HIrisPlex-S маркеров
AIM-Classifier Классификация биогеографического происхождения (ансамбль RF + NN)
EpiAge-Nano Оценка биологического возраста по метилированию CpG из нанопоровых данных

Обучение на публичных когортах 1000 Genomes Project, HGDP (Human Genome Diversity Project) и валидация на данных ENFSI-партнёров.


🛠 Под капотом: Зависимости и Окружение (Pipeline Stack)

Этап пайплайна Ключевые библиотеки и инструменты
1. Контроль качества (QC) porechop_abi, NanoFilt (специальные настройки для деградированной ДНК)
2. Выравнивание (Mapping) minimap2 (ref: GRCh38/hg38)
3. Генотипирование SNP clair3, medaka (целевые позиции HIrisPlex-S и AIMs)
4. Определение метилирования modkit (Nanopore 5mC-моды из нативной ДНК)
5. Пол (Amelogenin) Кастомный скрипт AMEL X/Y покрытие
6. ML-инференс PyTorch, scikit-learn (HIrisPlex-S модели + AIM-классификатор)

⚖️ Правовой и этический контекст

Применение FDP регулируется законодательством и требует строгого соблюдения профессиональных стандартов:

Аспект Регуляторная база
Правовая основа в РФ ФЗ-73 «О государственной судебно-экспертной деятельности»; ФЗ-144 «Об оперативно-розыскной деятельности»
Геномная база данных Федеральная база данных ДНК (ФБДД) Роспотребнадзора / МВД
Персональные данные ФЗ-152; биометрические данные — специальная категория
Международные стандарты ENFSI (European Network of Forensic Science Institutes) DNA Working Group; ISO/IEC 17025
Вероятностная интерпретация Все результаты FDP — вероятностные, не детерминированные. Используются для ориентирования следствия, не как доказательство

🌍 Глобальный контекст

  • Нидерланды (Erasmus MC) — разработчики системы HIrisPlex-S; FDP уже применяется в уголовных расследованиях Европы, Австралии, США.
  • Россия — ФЗ-242-ФЗ (2022) расширил применение геномных технологий в криминалистике; интерес МВД к мобильным ДНК-лабораториям задокументирован.
  • Следственная генеалогия — методология поиска родственников неизвестного по базам геномных данных (как в деле Golden State Killer, США). Требует отдельного правового регулирования в РФ.

🔬 Связанные источники

© 2026 Роман Горбенко, МФТИ-стартап "OnSiteSeq - Секвенирование на месте (у кровати / у стола / в поле)"