[บันทึกกันลืม] แก้ปัญหา rejoin node rke2 ไม่ได้

ปัญหา

node หนึ่งใน Rancher ใช้งานได้ตามปรกติ แต่ไป sudo apt update; sudo apt upgrade แล้วเกิดเหตุให้ ต้อง restart node ปัญหาที่เกิดขึ้นคือ pod ที่มาสร้างบน node นี้ไม่สามารถติดต่อกับระบบได้เลย

อาการ

pod จะ CrashLoopBackOff ตลอด หรือถ้าดู event จะเห็น timeout ตลอดครับ

วิธีแก้ไข

ได้ลอง format เครื่องก็แล้ว ทำหลายอย่างแล้วก็ไม่หาย ขอบคุณ คุณธนกร กิจศรีนภดล (เทียน) ได้ไปค้นหาวิธีการแก้ไขมาให้ โดยเหตุมาจาก Kernel ของ Ubuntu 20.04 กับ kernel ของ rke2 รุ่นที่ใช้งานอยู่ มี Bug เรื่อง UDP ตาม Link นี้

Root cause คือ: kernel bug  affects udp + vxlan when using the offloading feature of the kernel

สรุปคือ ใช้คำสั่งนี้

sudo ethtool -K flannel.1 tx-checksum-ip-generic off

ผลการแก้ไข

หายสนิท ใช้งานได้ต่อไป