Data cleansing เป็นส่วนสำคัญในการทำ ETL (Extract, Transform, Load) data cleansing process เป็นกระบวนการที่เกี่ยวกับ การระบุและ แก้ไขหรือลบ ข้อผิดพลาด ความไม่สอดคล้องหรือความไม่แม่นยำในข้อมูลก่อนที่จะโหลดเข้าสู่ที่เก็บข้อมูล ขั้นตอนการทำ Data cleansing ประกอบด้วยขั้นตอนดังนี้ data cleansing ทำให้แน่ใจว่าข้อมูลที่ผ่านกระบวนการ ETL ไปยังที่เก็บข้อมูลต้องมี accurate consistent และ reliable โดยเป็นไปตามกฏเกณฑ์ที่ตั้งไว้ตามมาตราฐานขององค์กรหรือตามมาตราฐานสากล Data Profiling การประมวลผลข้อมูล (Data Profiling) เป็นขั้นตอนสำคัญในกระบวนการ ETL (Extract, Transform, Load) ซึ่งเป็นการวิเคราะห์คุณภาพ โครงสร้าง และเนื้อหาของข้อมูลเพื่อตรวจสอบปัญหาหรือความไม่สอดคล้องที่ต้องการแก้ไขก่อนการโหลดข้อมูลเข้าสู่ระบบเป้าหมาย ขั้นตอนดังกล่าวประกอบไปด้วย: โดยรวมแล้ว การทำ Data profiling เป็นขั้นตอนสำคัญในกระบวนการ ETL เนื่องจากมันช่วยให้มั่นใจได้ว่าข้อมูลที่โหลดเข้าระบบเป็นข้อมูลที่ถูกต้อง สอดคล้องกัน และเชื่อถือได้ซึ่งเป็นสิ่งสำคัญสำหรับการตัดสินใจทางธุรกิจ Data Standardization จัดข้อมูลให้เข้ากับมาตราฐานองค์กรหรือมาตราฐานสากล ตัวอย่างมาตราฐานข้อมูลของไทย คู่มือการจัดทํามาตรฐานเพื่อการเชื่อมโยงข้อมูลระหว่างหน่วยงานภาครัฐData Standardization for e-Government Interoperability Manual Data Parsing เป็นกระบวนการแปลงข้อมูลจากรูปแบบหนึ่งไปเป็นอีกรูปแบบหนึ่ง เช่น ที่อยู่ จะแยกออกเป็น บ้านเลขที่ ตำบล อำเภอ จังหวัด เป็นต้น การแยกวิเคราะห์ข้อมูลสามารถใช้เพื่อดึงข้อมูลจากแหล่งต่างๆ มีหลายวิธีในการทำ Data Parsing วิธีการหนึ่งที่ใช้กันทั่วไปคือการใช้ parser generator สำหรับแปลงรูปแบบข้อมูลเฉพาะ เมื่อสร้างโปรแกรมแยกวิเคราะห์แล้ว สามารถใช้เพื่อแยกวิเคราะห์ข้อมูลจากแหล่งต่างๆ ได้ อีกวิธีหนึ่งในการทำ Data Parsing คือการใช้ library หรือ API ทั้งทำเองหรือเอาที่ท่านอื่นๆทำไว้แล้ว Data Transformation เปลี่ยนข้อมูลไปเป็นรูปแบบที่ต้องการ โดยใช้รูปแบบดังนี้ 1.ใช้ data dictionary เพื่อให้ตรงกันทั้งหมด เช่น ตัวย่อ กทม. กรุงเทพฯ เป็นต้น 2.ใช้ data validation tool เพื่อความถูกต้อง (accurate) 3.ใช้ data quality tool เพื่อระบุและแก้ไขข้อผิดพลาดในข้อมูล (correct errors) 4.ใช้ data transformation tool ทำงานเอง Data Enrichment กระบวนการเติมข้อมูลหรือการทำให้ข้อมูลที่เรามีอยู่แล้วสมบูรณ์ขึ้น โดยมาเป็นข้อมูลจากภายนอกหรือจากแหล่งอื่นๆ เช่น มีข้อมูลการลงทะเบียนของนักศึกษาอยู่ แล้วเอาข้อมูลการได้รับทุนกับข้อมูลการกู้ยืมมาประกอบ มาเติ่มทำให้มิติของการวิเคราะห์หรือมุมมองเพิ่มมากขึ้น เป็นต้น Data Deduplication การตรวจสอบการซ้ำกันของข้อมูลทำได้โดยการเขียน Query ตรวจสอบหรือใช้เครื่องมือกลุ่ม data profiling, data quality ช่วยก็จะทำงานได้อย่างมีประสิทธิภาพ Data Validation การตรวจสอบความถูกต้องและครบถ้วนของข้อมูล ส่วนใหญ่จะทำโดยการทำ Data aggregation ข้อมูลต้นทาง ปลายทาง เหมือนเป็นการตรวจสอบกระบวนการที่ทำมาว่าถูกต้องตามกฏเกณฑ์ที่ว่างไว้หรือไม่ Documentations การเขียนเอกสารการทำความสะอาดข้อมูลเป็นส่วนสำคัญของกระบวนการทำความสะอาดข้อมูล มันช่วยให้แน่ใจว่ากระบวนการทำความสะอาดข้อมูลสามารถทำซ้ำได้และมีประสิทธิภาพ การเขียนเอกสารควรรวมข้อมูลดังนี้: การเขียนเอกสารการทำความสะอาดข้อมูลควรเขียนอย่างชัดเจนและกระชับ และควรเข้าใจและสามารถติดตามได้ง่าย การเอกสารควรอัพเดทเมื่อมีการเปลี่ยนแปลงในโครงการทำความสะอาดข้อมูลด้วย เคล็ดลับสำหรับการเขียนเอกสารการทำความสะอาดข้อมูล: Monitoring เป็นส่วนสำคัญที่ช่วยติดตามการทำ data cleansing เป็นไปตามกฏหรือผลลัพธ์ที่ต้องการ ตรวจสอบ error log มีข้อมูลส่วนไหนมีปัญหาดำเนินการไม่ได้บ้าง อาจจะทำเป็น Dashboard สำหรับ Monitoring Data Cleansing Process แสดงวันเวลาดำเนินการ ผลลัพธ์สำเร็จหรือ error เท่าไร เป็นต้น Check List ทั้งหมดนี้ก็คืองานที่ต้องทำและต้องตรวจสอบสำหรับการทำ Data cleansing ซึ่งเป็นกระบวนการที่ไม่รู้จบ ทำวนไปเพื่อรักษาความถูกต้องครบถ้วนของข้อมูลไปจนกว่าไม่มีใครใช้ข้อมูลนั้นอีกแล้ว ขอบคุณสำหรับการเข้ามาอ่านบทความนี้นะครับ บันทึกไว้เพื่อช่วยจำในการทำงาน ถ้าผิดพลาดประการใด สามารถ comment แนะนำได้นะครับ