Day: November 13, 2023

  • [บันทึกกันลืม] แก้ปัญหา rejoin node rke2 ไม่ได้

    ปัญหา

    node หนึ่งใน Rancher ใช้งานได้ตามปรกติ แต่ไป sudo apt update; sudo apt upgrade แล้วเกิดเหตุให้ ต้อง restart node ปัญหาที่เกิดขึ้นคือ pod ที่มาสร้างบน node นี้ไม่สามารถติดต่อกับระบบได้เลย

    อาการ

    pod จะ CrashLoopBackOff ตลอด หรือถ้าดู event จะเห็น timeout ตลอดครับ

    วิธีแก้ไข

    ได้ลอง format เครื่องก็แล้ว ทำหลายอย่างแล้วก็ไม่หาย ขอบคุณ คุณธนกร กิจศรีนภดล (เทียน) ได้ไปค้นหาวิธีการแก้ไขมาให้ โดยเหตุมาจาก Kernel ของ Ubuntu 20.04 กับ kernel ของ rke2 รุ่นที่ใช้งานอยู่ มี Bug เรื่อง UDP ตาม Link นี้

    Root cause คือ: kernel bug  affects udp + vxlan when using the offloading feature of the kernel

    สรุปคือ ใช้คำสั่งนี้

    sudo ethtool -K flannel.1 tx-checksum-ip-generic off

    ผลการแก้ไข

    หายสนิท ใช้งานได้ต่อไป