ปัญหา
node หนึ่งใน Rancher ใช้งานได้ตามปรกติ แต่ไป sudo apt update; sudo apt upgrade แล้วเกิดเหตุให้ ต้อง restart node ปัญหาที่เกิดขึ้นคือ pod ที่มาสร้างบน node นี้ไม่สามารถติดต่อกับระบบได้เลย
อาการ
pod จะ CrashLoopBackOff ตลอด หรือถ้าดู event จะเห็น timeout ตลอดครับ
วิธีแก้ไข
ได้ลอง format เครื่องก็แล้ว ทำหลายอย่างแล้วก็ไม่หาย ขอบคุณ คุณธนกร กิจศรีนภดล (เทียน) ได้ไปค้นหาวิธีการแก้ไขมาให้ โดยเหตุมาจาก Kernel ของ Ubuntu 20.04 กับ kernel ของ rke2 รุ่นที่ใช้งานอยู่ มี Bug เรื่อง UDP ตาม Link นี้
- RKE2 Cluster running Calico seemingly losing UDP traffic when transiting through service IP to remotely located pod · Issue #1541 · rancher/rke2 (github.com)
- k3s on rhel 8 network/dns probleme and metrics not work #5013
Root cause คือ: kernel bug affects udp + vxlan when using the offloading feature of the kernel
สรุปคือ ใช้คำสั่งนี้
sudo ethtool -K flannel.1 tx-checksum-ip-generic off
ผลการแก้ไข
หายสนิท ใช้งานได้ต่อไป