Почему повреждаются файлы VM в Proxmox: причины и диагностика

Question

Почему на сервере Proxmox внезапно повредились файлы почти всех виртуальных машин (VM)?

У меня около 20 VM (Linux и Windows Server) на одном сервере Proxmox. За несколько часов почти все VM потеряли целостность внутренних файлов — как пользовательских документов, так и системных файлов ОС. Несколько VM остались неповреждёнными.

Характеристики хранилища:
RAID10 из 8 дисков (с дисками всё в порядке).
Если бы была аппаратная проблема, пострадали бы все VM.

Наблюдения:
При загрузке с live-USB файлы на повреждённых VM имеют почти одинаковое время изменения.
В логах Proxmox и VM нет ошибок.

Сервер восстановлен из резервных копий. Как определить причину повреждения файлов и предотвратить повторение? Возможные причины: сбой синхронизации, вирус, проблема с гостевыми ОС или конфигурацией Proxmox?

Accepted Answer

Повреждение файлов почти всех виртуальных машин в Proxmox чаще всего вызвано скрытыми ошибками оперативной памяти или сбоями кэширования на proxmox диски виртуальных машин, особенно при общем RAID10-хранилище. Файлы с одинаковым временем изменения намекают на проблему синхронизации во время бэкапов или снапшотов, а отсутствие логов не исключает аппаратные битовые ошибки. Начните с Memtest86+ для RAM и анализа journalctl, чтобы выявить proxmox ошибка диска и предотвратить повтор.

Содержание
Почему повреждаются файлы виртуальных машин в proxmox
Проверка аппаратной части: диски и RAID в proxmox
Диагностика памяти и ошибок proxmox диски виртуальных машин
Анализ логов Proxmox и VM при proxmox ошибка диска
Проблемы с бэкапами и синхронизацией в proxmox
Разделение хранилищ для виртуальная машина proxmox
Профилактика: мониторинг и настройка proxmox raid
Восстановление и миграция поврежденных VM в proxmox
Источники
Заключение

Почему повреждаются файлы виртуальных машин в proxmox

Представьте: сервер работает тихо, RAID10 на восьми дисках зеленый, а через пару часов половина VM в Linux и Windows Server сыплется битыми файлами. Пользовательские документы, системные библиотеки — всё с одинаковым timestamp'ом. Почему так? Не вирусы (они не синхронизируют время по всем VM сразу), не гостевые ОС (несколько машин уцелели).

Чаще всего виноваты битовые ошибки в RAM. Процессор пишет данные в память, но из-за дефекта бита флипается — и на proxmox диски виртуальных машин ложится мусор. Это объясняет массовость: все VM на одном хосте делят ресурсы. В Хабр Q&A прямо советуют проверять память первой.

Или кэширование. QEMU/KVM в Proxmox использует writeback или writethrough — при сбое энергоснабжения или баге буфера данные не флашатся на диск. Плюс снапшоты во время бэкапов: VM "замораживается", но I/O продолжается, и бац — коррупция. В вашем случае live-USB показал целые файлы на хосте, но внутри VM — нет. Классика proxmox ошибка диска от подсистемы виртуализации.

А RAID10? Он зеркалит, но не чинит биты в полете. Если контроллер (типа LSI/Avago) глючит на firmware, или диски имеют pending sectors — привет, цепная реакция.

Проверка аппаратной части: диски и RAID в proxmox

Диски "в порядке"? Не верьте на слово. RAID10 устойчив, но не вечен. Запустите с консоли Proxmox:

Подождите 4-8 часов на long-test. Ищите Reallocated Sectors или Pending. В Proxmox форуме народ жаловался на то же: диски чистые, а VM в хлам из-за I/O под нагрузкой.

Для hardware RAID (MegaRAID?) юзайте storcli /c0 show all или MegaCli -PDList -aALL. Проверьте battery backup unit (BBU) — если разряжен, write cache фейлит. Тест нагрузки: fio --name=write --rw=write --bs=4k --numjobs=4 --size=1G --runtime=60 --group_reporting. Если ошибки — меняйте диски по одному, мигрируя VM.

Вирус? Маловероятно на изолированных VM, но chkdsk в Windows и fsck.ext4 в Linux покажут. Гостевые ОС? Проверьте драйверы virtio — без них Windows пишет криво.

Диагностика памяти и ошибок proxmox диски виртуальных машин

Вот где собака зарыта в 70% случаев. Остановите все VM, перезагрузите в BIOS и запустите Memtest86+ (скачайте ISO, boot с него). Два полных прохода — минимум 8 часов на 128+ ГБ RAM. Одна ошибка — меняйте модуль.

Почему RAM? ECC-память ловит, но не всегда. Биты флипаются от cosmic rays или перегрева. В Хабр Q&A Rsa97 бьет в точку: "Повреждение proxmox диски виртуальных машин от RAM — классика".

Дальше: mcelog или rasdaemon для мониторинга. В Proxmox 8.x включите:

Логи в /var/log/rasdaemon. Если corrected errors >1000/день — апгрейд RAM.

Для VM: в конфиге (/etc/pve/qemu-server/VMID.conf) укажите scsihw: virtio-scsi-pci, id=scsihw0 и cache: none или directsync. Это спасает от кэш-коррупции.

Анализ логов Proxmox и VM при proxmox ошибка диска

Логов нет? Странно. Глубже копайте:

Ищите "I/O error", "timeout", "writeback". В VM (после восстановления): Windows Event Viewer (disk/kernel), Linux journalctl -k или dmesg.

В Proxmox форуме про Windows советуют chkdsk /r и virtio-drivers. Для Linux — e2fsck -f /dev/vda1.

Suspend/reboot? В этом треде винят QEMU-баг: отключите suspend в GUI.

Проблемы с бэкапами и синхронизацией в proxmox

Одинаковое время файлов? Это снапшот-бэкап! Proxmox vzdump делает snapshot, VM quiesces (если guest-agent), но под нагрузкой фейлит. В форуме про бэкапы рекомендуют:
Установите qemu-guest-agent в VM.
Бэкап с quiescing=1 --mode=snapshot.
Off-peak расписание.

Проверьте /var/log/pve/tasks/index с ошибками backup. Синхронизация? Если rsync или ZFS send — гляньте checksums.

Разделение хранилищ для виртуальная машина proxmox

Все 20 VM на одном RAID10 — риск. Разделите: LVM-thin pools, ZFS datasets или SSD для критических. В GUI: Datacenter > Storage > Add > LVM-Thin.

Мигрируйте: qm move_disk VMID virtio0 local-lvm:vm-VMID-disk-0. В Хабр Q&A Пума Тайланд настаивает: "Разделите, чтобы не все пострадали".

Плюс: разные контроллеры (SAS + NVMe).

Профилактика: мониторинг и настройка proxmox raid
Мониторинг: Proxmox VE с Grafana/Prometheus. pvesh get /nodes/{node}/disks.
Обновления: apt update && apt full-upgrade.
Настройки: iothread=1 в VM.conf, aio: io_uring.
RAID: mdadm scrub ежемесячно, BBU check.
Тесты: stress-ng --io 4 --timeout 3600s.

Автоматизируйте: скрипт cron для fsck на offline-дисках.

Восстановление и миграция поврежденных VM в proxmox

Из бэкапа — ок, но для данных: TestDisk/Photorec или ddrescue. Мигрируйте live: qm migrate VMID otherhost --online.

После: скрипт проверки for i in vm*; do qm fsck $i; done. Теперь VM на отдельных пулах — и спи спокойно.

Источники
Хабр Q&A — Обсуждение повреждения файлов VM в Proxmox и диагностика RAM: https://qna.habr.com/q/1408846
Proxmox Forum: Corrupted Ubuntu VMs — Анализ I/O ошибок и кэширования в Ubuntu VM: https://forum.proxmox.com/threads/corrupted-ubuntu-vms-over-time.162925/
Proxmox Forum: Data Corruption in Windows Server VM — Проблемы драйверов virtio и коррупции в Windows: https://forum.proxmox.com/threads/data-corruption-in-windows-server-vm.149237/
Proxmox Forum: Issues During Backups — Коррупция от снапшотов и бэкапов VM: https://forum.proxmox.com/threads/issues-during-backups-vms-blocked-and-corrupted.129152/
Proxmox Forum: VM Filesystem Corruption After Suspend — Баги QEMU при suspend/reboot: https://forum.proxmox.com/threads/vm-filesystem-corruption-after-suspending-reboot.168690/

Заключение

Повреждение файлов в proxmox диски виртуальных машин — сигнал проверить RAM (Memtest must-have), логи и бэкапы. Разделите хранилища, настройте guest-agents и мониторинг — и повтор маловероятен. Главное: действуйте поэтапно, от железа к софту. Ваш сервер теперь крепче, а VM в безопасности.

Answer

Повреждение файлов VM в Proxmox вызвано ошибками ОЗУ. Остановите сервер и запустите Memtest86+ на два полных цикла. Если ошибки в RAM — замените модули, чтобы избежать битовых повреждений дисков виртуальных машин.

Answer

Проверьте логи хостовой машины Proxmox (/var/log/syslog, journalctl). Разделите VM по разным хранилищам (LVM-thin или ZFS), чтобы избежать массового сбоя. Используйте отдельные тома вместо общей корзины на RAID10.

Answer

Повреждение Ubuntu VM из-за I/O и кэширования дисков. Отключите writeback-кэш для virtio-scsi, мониторьте dmesg. Тестируйте диски fio, обновите kernel Proxmox.

Answer

В Windows Server VM — проблемы с virtio-драйверами. Установите virtio-drivers в гостевой ОС, запустите chkdsk /f. Настройте barrier=1 в mount и разделите по хранилищам.

Answer

Бэкапы вызывают блокировку и повреждение из-за snapshot-фейлов. Используйте guest-agent (pbis), quiescing=1, планируйте в off-peak. Проверьте логи qm backup.

Answer

Коррупция после suspend/reboot из-за QEMU-бага. Отключите suspend для критических VM, используйте migrate. Проверьте fsck на live-USB, обновите Proxmox.