Нет подключения CI к сервису в k3s с Traefik: Newman тесты

Question

Почему нет подключения из CI пайплайна к сервису в k3s кластере с Traefik (на 3 нодах через Vagrant) при запуске тестов Newman, хотя curl запросы успешно проходят с локальной машины, нод и подов раннера?

Команда newman:

Проблема возникает как при обращении к IP load balancer, так и к внутренней сети 10.x.x.x.

Accepted Answer

Отсутствие подключения из CI пайплайна к сервису в k3s кластере с Traefik на 3 нодах Vagrant при тестах Newman обычно связано с DNS-резолвом, блокировкой iptables или проблемами ServiceLB — curl проходит с хоста/нод, потому что обходит pod-сеть Flannel. Внутренняя сеть 10.x.x.x недоступна для раннера из-за NAT или закрытых UDP-портов 8472, а IP load balancer конфликтует без externalTrafficPolicy: Local в traefik ingress. Быстрое решение: переключитесь на legacy iptables, отключите firewalld и проверьте логи kube-proxy на всех нодах.

Содержание
Почему нет подключения из CI к сервису в k3s кластере с traefik
Проверка DNS и сетевой доступности в k3s traefik
Настройка iptables и legacy-режима для traefik docker в k3s
Открытие портов Flannel и kube-proxy в k3s kubernetes
Проблемы ServiceLB и Traefik ingress в multi-node k3s
Traefik настройка и externalTrafficPolicy для Vagrant-кластера
Диагностика Newman Postman тестов в CI-пайплайне k3s
Шаги по исправлению: логи, restart и проверка traefik dashboard
Источники
Заключение

Почему нет подключения из CI к сервису в k3s кластере с traefik

Представьте: curl с локальной машины, ноды или даже пода раннера летает к Traefik ingress без проблем. А Newman в CI-пайплайне упорно выдает "connection refused" на том же (kubectl get nodes -o jsonpath='{.items[0].status.addresses[?(@.type=="InternalIP")].address}').

Traefik настройка и externalTrafficPolicy для Vagrant-кластера

Traefik в k3s ingress требует точной настройки для multi-node. По умолчанию ClusterIP с externalTrafficPolicy: Cluster — NAT ломает source IP в Vagrant.

Отредактируйте:

Добавьте:

Проверьте dashboard: kubectl port-forward svc/traefik 9000:9000 -n kube-system, откройте http://localhost:9000/dashboard/.

Ingress YAML для сервиса:

Примените и тест newman с host вместо IP.

Это спасет от "connection refused" в CI.

Диагностика Newman Postman тестов в CI-пайплайне k3s

Newman фейлит в GitLab CI (раннер в pod), хотя curl ок. Добавьте в команду:

--insecure уже есть, но добавьте --ssl-verify-off для traefik dashboard.

В .gitlab-ci.yml:

Проверьте под раннера: kubectl logs deployment/runner -c runner. Ищите DNS errors.

Почему delay-request 5000? Traefik иногда медленно маршрутизирует — увеличьте до 10000. Если проблема persists, запустите newman в hostNetwork pod для теста.

Шаги по исправлению: логи, restart и проверка traefik dashboard

Соберем checklist:
Логи Traefik: kubectl logs -n kube-system -l app=traefik --tail=100 | grep ERROR
Restart сервисов: kubectl rollout restart ds/traefik -n kube-system; kubectl rollout restart ds/kube-flannel-ds -n kube-system
Проверьте endpoints: kubectl get ep traefik -n kube-system
Full reset networking: k3s-killall.sh; iptables -F; systemctl start k3s
Тест из CI: Добавьте в пайплайн kubectl exec runner -- curl -v $TRAEFIK_IP/health
Traefik dashboard: port-forward и смотрите routers/backend'ы — зеленые?

После фиксов Newman полетит. Если нет — дамп kubectl describe pod runner и iptables-save.

Источники
K3s dial tcp 10.43.0.1443 connect connection refused — Диагностика DNS, node-ip и iptables в k3s кластере: https://serverfault.com/questions/1044971/k3s-dial-tcp-10-43-0-1443-connect-connection-refused
K3s networking between pods not working — Переход на legacy iptables и отключение firewalld для Flannel: https://stackoverflow.com/questions/66463181/k3s-networking-between-pods-not-working
Networking Services — K3s — Настройка ServiceLB, externalTrafficPolicy и портов в multi-node k3s: https://docs.k3s.io/networking/networking-services

Заключение

В k3s кластере с Traefik на Vagrant проблема подключения CI к сервису решается legacy iptables, открытыми Flannel-портами и externalTrafficPolicy: Local — curl работает локально, Newman в поде требует полного networking stack. Начните с DNS/hosts и логов, протестируйте после restart. Это вернет стабильные тесты Postman без хаков. Удачи с кластером — если логи покажут экзотику, пишите в комменты!

Answer

Проблема подключения из CI к сервису в k3s с traefik часто возникает из-за некорректной настройки DNS: узлы не резолвят имена друг друга. Проверьте /etc/hosts или DNS-сервер для записей A/CNAME. Убедитесь в правильных параметрах K3s (--advertise-address, --node-ip на internal IP), правилах iptables (grep 10.43.0.1), работе kube-proxy и открытых портах файрвола. Перезапустите службы systemctl restart k3s и проверьте логи journalctl -u k3s. Это восстановит доступ к traefik ingress и сервисам в k3s кластере.

Answer

В k3s кластере с traefik networking между подами (включая CI-раннеры) ломается из-за nftables — используйте legacy iptables: iptables -F; update-alternatives --set iptables /usr/sbin/iptables-legacy; reboot. Откройте UDP-порты 8472 (Flannel VXLAN) или 51820/51821 (Wireguard) между нодами для traefik docker трафика. Отключите firewalld: systemctl disable --now firewalld; reboot. Для тестов newman postman используйте простые имена сервисов без namespace (curl http://service:port), чтобы избежать проблем в k3s kubernetes.

Answer

В k3s с traefik ServiceLB публикует external IP узлов (или internal 10.x.x.x), но CI-пайплайн вне Vagrant-сети не видит internal адреса. Pods ServiceLB daemonset на всех нодах блокирует 80/443 для traefik ingress. Решение: укажите node-external-ip, используйте метку svccontroller.k3s.cattle.io/enablelb=true на конкретных нодах, NodePort/LoadBalancer или port-forwarding. Настройте externalTrafficPolicy: Local в traefik service, чтобы избежать NAT-конфликтов в k3s node и обеспечить доступ из CI для newman postman тестов.