Я работаю над задачей классификации протеиновых последовательностей, где необходимо предсказать три целевых метки по последовательностям с использованием модели LSTM. Метки сильно дисбалансированы, что отражает истинную биологическую природу целевых переменных. Мой текущий подход включает разбиение длинных протеиновых последовательностей на более короткие фрагменты, но я столкнулся с проблемами валидации, когда производительность для редких меток значительно падает при использовании валидационного набора, отражающего настоящий биологический дисбаланс.

Модели LSTM для последовательной многометочной классификации с сильным дисбалансом меток требуют специализированных техник, выходящих за рамки простого фильтрования данных. Эффективные стратегии включают реализацию взвешенных функций потерь, переобучение (oversampling) редких классов при сохранении биологического контекста, модификацию функции потерь для более строгого наказания ошибок редких классов и использование подходов на уровне целой последовательности вместо фрагментов, чтобы сохранить биологическую целостность.

Другое

Устранение дисбаланса меток в LSTM‑классификации

Откройте методы борьбы с сильным дисбалансом меток в многометочной LSTM‑классификации протеиновых последовательностей: взвешивание классов и модификация потерь.

Авторы: НейроАгент

27.11.2025, 13:49

Какие есть эффективные стратегии борьбы с дисбалансом классов при обучении LSTM для последовательной многоклассовой классификации?

Я работаю над задачей классификации последовательностей белков, где нужно предсказать три целевых метки для каждой последовательности, используя модель LSTM. Метки сильно дисбалансированы, что отражает истинную биологическую природу целевых переменных.

Мой текущий подход:

Разбиваю длинные последовательности белков (до 1500 остатков) на более короткие фрагменты длиной 5–15 остатков.
Оставляю только те фрагменты, которые содержат хотя бы одну метку 1.
Использую этот отфильтрованный набор данных для обучения.

Однако возникла проблема с валидацией:

В обучающем наборе (отфильтрованные фрагменты) распределение меток: Метка 0 : 59.99 %, Метка 1 : 10.16 %, Метка 2 : 29.86 %.
В наборе валидации (отражающем реальный биологический дисбаланс) распределение меток: Метка 0 : 95.42 %, Метка 1 : 1.08 %, Метка 2 : 3.50 %.

Когда я использовал набор валидации, не отражающий реальный дисбаланс, показатели были приличными. Но при переходе к набору валидации, соответствующему реальному миру, производительность для малочисленных меток значительно упала.

Какие эффективные стратегии можно применить для борьбы с дисбалансом меток в последовательных многоклассовых задачах классификации при обучении LSTM, особенно когда валидация должна отражать истинное распределение данных? Меня особенно интересуют подходы, которые не сводятся к простому фильтру обучающего набора данных, чтобы он соответствовал распределению валидации.

Стратегии взвешивания классов

Самый прямолинейный способ справиться с дисбалансом классов в LSTM‑моделях – это внедрить взвешивание классов в функцию потерь. Согласно исследованию из Cross Validated, эффективный метод – «взвешивать вклад каждого метки в функцию стоимости обратно пропорционально частоте метки».

Для задачи классификации белковых последовательностей вы можете вычислить веса классов следующим образом:

python

from sklearn.utils.class_weight import compute_class_weight
import numpy as np

# Предположим, что у вас есть метки обучения в виде многоголовой (multi‑hot) матрицы
class_weights = compute_class_weight('balanced', classes=np.unique(y_train), y=y_train)
class_weight_dict = dict(enumerate(class_weights))

Ключевые моменты для многоклассовых сценариев:

Для многоклассовой классификации используйте взвешивание на уровне образца, а не на уровне класса
Каждый образец может иметь несколько меток, поэтому взвешивайте образцы на основе наличия миноритарных меток
Документация Mathworks рекомендует вычислять веса, которые «обратно пропорциональны частоте классов», чтобы предотвратить смещение сети в сторону преобладающих классов

Однако исследование из Discover Artificial Intelligence показывает, что «взвешивание классов может помочь в решении дисбаланса, но также может ввести сложности, снижающие общую эффективность» в некоторых случаях.

Модификации функции потерь

Стандартная кросс‑энтропия может быть изменена для лучшего управления дисбалансом. В статье из ScienceDirect предлагается добавить «новый фактор штрафа к функции потерь, чтобы усилить штраф за ошибки в не‑взаимодействующих участках».

Модифицированные подходы к кросс‑энтропии

Focal Loss – уменьшает потерю для хорошо классифицированных примеров, сосредотачивая обучение на трудных примерах
Weighted Binary Cross‑Entropy – назначает разные веса положительным и отрицательным классам
Custom Penalization – добавляет биологические знания в функцию потерь

Для ваших белковых последовательностей рассмотрите реализацию пользовательской функции потерь:

python

def custom_loss(y_true, y_pred, class_weights):
    """Пользовательская функция потерь с весами классов для белковых последовательностей"""
    bce = tf.keras.losses.binary_crossentropy(y_true, y_pred)
    weighted_bce = bce * class_weights
    return tf.reduce_mean(weighted_bce)

Исследование из Cross Validated подчёркивает, что «кросс‑энтропия как функция потерь важнее, чем точность», поскольку «кросс‑энтропия решает проблему дисбаланса классов».

Продвинутые техники выборки

Традиционные методы пере‑выборки могут не сохранять биологический контекст в белковых последовательностях. Вместо этого рассмотрите специализированные подходы:

Пере‑выборка с сохранением биологического контекста

Conservative Oversampling – пере‑выборка миноритарных меток при сохранении целостности последовательности
Synthetic Minority Generation – создание синтетических белковых последовательностей, сохраняющих биологические свойства
Fragment-based Oversampling – пере‑выборка фрагментов, содержащих миноритарные метки, без разрыва биологических доменов

В статье из Bioinformatics обсуждается, как «белки демонстрируют высоко вариативное распределение, что делает PSL задачей многоклассовой классификации с дисбалансом» и требует специализированных методов пере‑выборки.

Стратегия реализации

python

# Пример консервативной пере‑выборки для белковых фрагментов
def conservative_oversample(X, y, target_labels, max_ratio=2.0):
    """Пере‑выборка миноритарных меток с сохранением биологического контекста"""
    label_counts = y.sum(axis=0)
    max_samples = int(label_counts.max() * max_ratio)
    
    for i, target_label in enumerate(target_labels):
        if label_counts[i] < max_samples:
            # Найти образцы, содержащие целевую метку
            positive_samples = np.where(y[:, i] == 1)[0]
            # Вычислить, сколько дополнительных образцов нужно
            needed = max_samples - label_counts[i]
            # Случайно выбрать и продублировать образцы
            additional_samples = np.random.choice(positive_samples, needed, replace=True)
            X = np.vstack([X, X[additional_samples]])
            y = np.vstack([y, y[additional_samples]])
    
    return X, y

Подходы на уровне последовательности

Текущий подход с фрагментами может терять важный биологический контекст. Рассмотрите работу с полными последовательностями или более крупными, биологически значимыми сегментами:

Преимущества подходов на уровне последовательности

Сохраняет долгосрочные зависимости – критично для функции белка
Поддерживает биологическую целостность – избегает разрыва функциональных доменов
Снижает смещение выборки – более репрезентативно для реального биологического распределения

В статье из ScienceDirect подчёркивается, что «набор обучающих данных должен состоять из целых белковых последовательностей, а не из отдельных резидентов, чтобы сохранить последовательную целостность каждого белка».

Стратегии реализации

Сдвигающее окно с перекрытием – использовать перекрывающиеся окна для захвата контекста
Разбиение по доменам – разделять на основе естественных границ доменов
Переменные длины – использовать маскирование/паддинг для переменных входов

python

def create_labeled_sequences(sequences, labels, window_size=50, stride=25):
    """Создание перекрывающихся окон последовательностей с метками"""
    labeled_sequences = []
    sequence_labels = []
    
    for seq, label in zip(sequences, labels):
        for i in range(0, len(seq) - window_size + 1, stride):
            window = seq[i:i+window_size]
            # Определить, содержит ли окно любую из целевых меток
            window_has_label = any(label[j] for j in range(i, min(i+window_size, len(label))))
            
            if window_has_label:  # Или изменить условие по необходимости
                labeled_sequences.append(window)
                # Агрегировать метки для окна
                window_labels = label[i:i+window_size]
                sequence_labels.append(window_labels)
    
    return np.array(labeled_sequences), np.array(sequence_labels)

Улучшения архитектуры модели

Помимо подходов на уровне данных, рассмотрите модификации архитектуры для лучшего управления дисбалансом:

Механизмы внимания

Реализуйте внимание, чтобы сосредоточиться на важных регионах последовательности
Взвешивайте потерю на основе важности внимания
В статье из Medium объясняется, как «выходы различных блоков памяти содержат информацию, которую необходимо корректно оценивать» в двунаправленных LSTM.

Иерархические подходы

Мульти‑масштабная обработка – обрабатывать последовательности разной длины
Иерархическое внимание – комбинировать локальные и глобальные признаки
Методы ансамблирования – объединять несколько моделей, обученных на разных подмножествах

Техники регуляризации

Dropout – предотвращает переобучение на преобладающих классах
Early Stopping – мониторинг производительности миноритарных классов
Batch Normalization – стабилизирует обучение при дисбалансных данных

Стратегии оценки и валидации

Поскольку валидация должна отражать реальное биологическое распределение, применяйте надёжные стратегии оценки:

Метрики помимо точности

Precision‑Recall curves – особенно для миноритарных классов
F1‑score – гармоническое среднее точности и полноты
AUC‑ROC – для каждого класса отдельно
Subset accuracy – для многоклассовых сценариев
Hamming loss – доля неверно предсказанных меток

В статье из Applied Intelligence отмечается, что «главная проблема многоклассовой классификации – справиться с дисбалансом, который возникает из‑за различий в частотах меток» и рекомендуется использовать несколько метрик.

Стратегия валидации

python

from sklearn.metrics import classification_report, precision_recall_fscore_support

# Оценка на реальном валидационном наборе
def evaluate_model(model, X_val, y_val):
    """Полная оценка для дисбалансной многоклассовой классификации"""
    y_pred = model.predict(X_val)
    
    # Преобразовать предсказания в бинарный формат
    y_pred_binary = (y_pred > 0.5).astype(int)
    
    # Метрики по каждому классу
    report = classification_report(y_val, y_pred_binary, target_names=['Label 0', 'Label 1', 'Label 2'])
    
    # Пользовательские метрики для дисбаланса
    precision, recall, f1, _ = precision_recall_fscore_support(
        y_val, y_pred_binary, average=None
    )
    
    print("Подробный отчёт о классификации:")
    print(report)
    print(f"F1‑scores по классам: {f1}")
    
    # Сфокусироваться на производительности миноритарного класса
    minority_f1 = f1[1]  # Предположим, что Label 1 – миноритарный класс
    print(f"F1‑score миноритарного класса (Label 1): {minority_f1:.4f}")
    
    return minority_f1

Практическое руководство по реализации

На основе исследований и вашего конкретного сценария предлагается пошаговый подход к реализации:

Фаза 1: Подготовка данных

Сохраняйте полные последовательности – избегайте разрезания, если это не обязательно
Реализуйте консервативную пере‑выборку – сосредоточьтесь на Label 1 (1,08 % в валидации)
Используйте биологические знания – учитывайте домены и функциональные регионы
Создайте несколько наборов обучения – с разными коэффициентами пере‑выборки для экспериментов

Фаза 2: Разработка модели

python

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout, Bidirectional, Attention

def build_imbalanced_lstm_model(input_shape, num_classes=3):
    """LSTM‑модель, оптимизированная для дисбалансной многоклассовой классификации"""
    model = Sequential([
        Bidirectional(LSTM(128, return_sequences=True), input_shape=input_shape),
        Attention(),
        Dropout(0.3),
        Bidirectional(LSTM(64)),
        Dropout(0.3),
        Dense(32, activation='relu'),
        Dense(num_classes, activation='sigmoid')  # Многоклассовая классификация
    ])
    
    # Пользовательская функция потерь с весами классов
    def weighted_binary_crossentropy(y_true, y_pred):
        # Вычислить веса классов на основе распределения в обучении
        class_weights = [0.59, 2.5, 1.2]  # Настройте под ваши данные
        bce = tf.keras.losses.binary_crossentropy(y_true, y_pred)
        weighted_bce = bce * class_weights
        return tf.reduce_mean(weighted_bce)
    
    model.compile(
        optimizer='adam',
        loss=weighted_binary_crossentropy,
        metrics=['accuracy', tf.keras.metrics.Precision(), tf.keras.metrics.Recall()]
    )
    
    return model

Фаза 3: Стратегия обучения

Взвешивание классов – реализовать в функции потерь
Early Stopping – мониторинг F1‑score миноритарного класса
Планировщик скорости обучения – уменьшать lr, когда производительность миноритарного класса стабилизируется
Регуляризация – использовать dropout и batch normalization

Фаза 4: Постобработка

Корректировка порога – разные пороги для разных классов
Методы ансамблирования – объединять предсказания нескольких моделей
Правила постобработки – применять биологические знания к предсказаниям

Ключевые рекомендации из исследований

В статье из PMC показано, что модели «A‑LSTM» достигли наибольшей точности (0,830) по сравнению с другими архитектурами
В Cross Validated предупреждают, что «не получится обучить классификатор с только 6 примерами в обучающем наборе» – подчёркивается необходимость достаточного объёма данных
В статье из bioRxiv говорится, что «значения потерь указывают на умеренную ошибку в предсказаниях» и что производительность модели требует тщательного мониторинга

Заключение

Обработка дисбаланса меток в LSTM‑моделях последовательной многоклассовой классификации белковых последовательностей требует многогранного подхода, охватывающего как распределение данных, так и архитектуру модели. Ключевые стратегии включают внедрение взвешенных функций потерь, работу на уровне полной последовательности для сохранения биологического контекста и применение продвинутых техник пере‑выборки, сохраняющих целостность белка. Ваша стратегия валидации должна сосредоточиться на метриках помимо точности, особенно на precision‑recall и F1‑score для миноритарных классов. Наиболее эффективное решение, скорее всего, будет сочетать эти подходы с биологическими знаниями и тщательной настройкой порогов. Помните, что фильтрация обучающих данных для соответствия валидационному распределению может привести к смещённой модели, плохо обобщающей на реальные биологические сценарии. Вместо этого сосредоточьтесь на создании моделей, устойчивых к естественному дисбалансу биологических данных, при этом поддерживая высокую производительность по всем классам.

Авторы

НейроАгент

Автор

Проверено модерацией

НейроОтветы

Модерация