Как остановить коллапс эмбеддингов SimSiam ViT на CUB-200

Question

Почему эмбеддинги SimSiam с ViT на датасете CUB‑200‑2011 коллапсируют?

Я реализую SimSiam с Vision Transformer (ViT) в качестве backbone на датасете CUB‑200‑2011, но во время обучения эмбеддинги коллапсируют в одну сторону, несмотря на использование stop‑gradient. Вот что я наблюдаю в первых нескольких эпохах:

Epoch 0:

Loss = -0.12 | Collapse Level: 0.46 / 1.00
Cosine similarity (off‑diagonal): mean=0.035835, std=0.318266, min=-0.780536, max=0.997578
Top 10 eigenvalues: [51.52014, 10.083374, 7.2546287, 5.572749, 4.3434677, 3.533019, 3.0718656, 2.5875258, 2.0254238, 1.9101429]
Embedding metrics: N=5794, D=128, norm_mean=11.402124404907227, norm_std=2.796746253967285, norm_min=6.187736511230469, norm_max=22.01985740661621
Recall: 0.3715912997722626 | Recall_b: 0.6962375044822693

Epoch 2:

Loss = -0.91 | Collapse Level: 0.84 / 1.00
Cosine similarity (off‑diagonal): mean=1.000000, std=0.000006, min=0.999890, max=1.000000
Top 10 eigenvalues: [1.6440651e+02, 1.3151270e-01, 8.6707681e-02, 6.4878970e-02, 5.0928112e-02, 3.0504635e-02, 1.9978724e-02, 1.4542857e-02, 7.8499522e-03, 6.8454165e-03]
Embedding metrics: N=5794, D=128, norm_mean=515.996826171875, norm_std=12.814229965209961, norm_min=489.2132263183594, norm_max=591.9946899414062
Recall: 0.005177770275622606 | Recall_b: 0.012599240988492966

Implementation Details

Data Augmentations

python

transform = T.Compose([
    T.RandomResizedCrop(224, scale=(0.2, 1.)),
    T.RandomApply([
        T.ColorJitter(0.4, 0.4, 0.4, 0.1)  # not strengthened
    ], p=0.8),
    T.RandomGrayscale(p=0.2),
    T.RandomApply([T.GaussianBlur(kernel_size=23, sigma=(0.1, 2.0))], p=0.5),
    T.RandomHorizontalFlip(),
    T.ToTensor(),
    T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
train_transform = lambda x: (transform(x), transform(x))

SimSiam Implementation

python

class SimSiam(nn.Module):
    def __init__(self, encoder, head_dim=128, predictor_hidden=64):
        super().__init__()
        self.encoder = encoder
        self.head_dim = head_dim
        
        # Collapse avoidance requires a non-trivial projector
        prev_dim = self.encoder.model.backbone.num_features
        self.encoder.model.head = nn.Sequential(
            nn.Linear(prev_dim, prev_dim, bias=False),
            nn.BatchNorm1d(prev_dim),
            nn.ReLU(inplace=True),  # first layer
            nn.Linear(prev_dim, prev_dim, bias=False),
            nn.BatchNorm1d(prev_dim),
            nn.ReLU(inplace=True),  # second layer
            nn.Linear(prev_dim, head_dim, bias=True),
            nn.BatchNorm1d(head_dim, affine=False)  # output layer
        )
        
        self.encoder.model.head[6].bias.requires_grad = False  # hack: not use bias as it is followed by BN

        self.predictor = EuclideanPredictor(dim=head_dim, hidden_dim=predictor_hidden)
        
        # ensure predictor on same device as encoder
        try:
            self.device = next(self.encoder.parameters()).device
        except StopIteration:
            self.device = torch.device('cpu')
        self.predictor.to(self.device)

    def forward(self, x1, x2):
        # Projector outputs in hyperbolic/spherical space
        z1 = self.encoder(x1) 
        z2 = self.encoder(x2)
        
        z1 = F.normalize(z1, dim=1)
        z2 = F.normalize(z2, dim=1)
        
        # Predictor (symmetric)
        p1 = self.predictor(z1)
        p2 = self.predictor(z2)

        return p1, p2, z1.detach(), z2.detach()

    def loss(self, p1, p2, z1, z2):
        # safety: ensure targets are stop-grad
        z1 = z1.detach()
        z2 = z2.detach()
        
        assert (not z1.requires_grad) and (not z2.requires_grad), "Stop gradient is not implemented!"

        sign = -1.0
        # Explicitly normalization
        p1n = F.normalize(p1, dim=1)
        p2n = F.normalize(p2, dim=1)
        z1n = F.normalize(z1, dim=1)
        z2n = F.normalize(z2, dim=1)
        criterion = nn.CosineSimilarity(dim=1)
        
        simsiam_loss = sign * 0.5 * (criterion(p1n, z2n).mean() + criterion(p2n, z1n).mean())
        return simsiam_loss

Encoder Setup

python

backbone = timm.create_model(encoder_version, pretrained=True, cache_dir="./cached_models/") + NormLayer

Troubleshooting Steps Already Taken

Verified that stop-gradient is working (p1.requires_grad=True, z1.requires_grad=False)
Confirmed predictor output matches paper recommendations (no BN/ReLU on output)
Checked that gradient norms are reasonable (except occasionally spiking)

Вопрос

Почему эмбеддинги коллапсируют в моей реализации SimSiam? Может ли это быть связано с датасетом CUB‑200‑2011 или стратегией аугментации? Я проверил аугментации, и они действительно создают разные представления одного изображения.

Как остановить коллапс эмбеддингов SimSiam ViT на CUB-200

Почему эмбеддинги SimSiam с ViT на датасете CUB‑200‑2011 коллапсируют?

Implementation Details

Data Augmentations

SimSiam Implementation

Encoder Setup

Troubleshooting Steps Already Taken

Вопрос

Понимание феномена коллапса

Проблемы датасета CUB‑200‑2011

Критические проблемы в вашей реализации

1. Недостаточная разнообразность аугментаций

2. Проблемы с архитектурой предиктора

3. Нестабильность скорости обучения

Проверенные решения для предотвращения коллапса

1. Усиление стратегии аугментаций

2. Реализация правильного отрицательного сэмплинга

3. Корректировка расписания learning‑rate

Рекомендованные модификации архитектуры

1. Улучшение архитектуры проекторa

2. Изменение структуры предиктора

Корректировки стратегии обучения

1. Используйте больший размер батча

2. Реализуйте обрезку градиентов

3. Мониторинг разнообразия эмбеддингов

Альтернативные подходы

1. Используйте MoCo или BYOL

2. Супервизированная дообучаемость

Итоги рекомендаций