Author: theerayuth.p

  • รู้จัก AI สัญชาติไทย ผ่านการอบรม AI for Thai

    วันที่ 23-24 พ.ค. 66 ได้รับโอกาสจาก NECTEC ให้เข้าอบรม”ทักษะด้านปัญญาประดิษฐ์ และประยุกต์ใช้แพลตฟอร์ม AI for Thai ประจำปี 2566″ รอบที่ 3

    เรามาทำความรู้จัก NECTEC แบบรวดเร็วกันนะครับ

    “NECTEC องค์กรที่มีหน้าที่ในการวิจัยและพัฒนาเทคโนโลยีสารสนเทศ และการสื่อสารในหลากหลายด้าน และ NECTEC ยังมีบทบาทในการสนับสนุนการพัฒนาทางธุรกิจด้านเทคโนโลยีสารสนเทศ และการสื่อสารในประเทศไทย ผ่านการให้คำปรึกษา การฝึกอบรม และการให้ความรู้ด้านเทคโนโลยีสารสนเทศแก่สถานประกอบการ รัฐบาล และสังคมทั่วไป และ AI for Thai คือผลงานจาก NECTEC”

    AI for Thai : Thai AI Service Platform เป็นแพลตฟอร์มให้บริการ AI สัญชาติไทย มุ่งวิจัยและพัฒนาเทคโนโลยีปัญญาประดิษฐ์และ Machine Learning เพื่อเน้นตอบโจทย์ผู้ใช้งาน ทั้งในภาคอุตสาหกรรมและการบริการต่างๆ ในประเทศไทย เช่น

    • ภาคธุรกิจกลุ่มค้าปลีก (Retail) ใช้ Chatbot โต้ตอบเพื่อตอบคำถาม ให้บริการแก่ลูกค้าแทนพนักงาน
    • กลุ่มโลจิสติกส์ ใช้ระบบรู้จำใบหน้า (Face Recognition) เพื่อตรวจจับใบหน้าของพนักงานขับรถว่ามีความเสี่ยงต่อการเกิดอุบัติเหตุหรือไม่
    • ด้านการแพทย์ก็เริ่มใช้ AI มาวิเคราะห์แนวโน้มความเสี่ยงของโรคส่วนบุคคล หรือการอ่านฟิล์ม X-rays แทนมนุษย์ เป็นต้น
    • ด้านการท่องเที่ยว สามารถใช้ AI แปลภาษาและสามารถวิเคราะห์รูปอาหารและสถานที่ท่องเที่ยวจากภาพถ่าย

    AI for Thai เกิดจากการรวบรวมผลงานวิจัยและพัฒนาทางด้าน AI ภายใต้หน่วยวิจัยปัญญาประดิษฐ์ (AINRU) ของศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ อันประกอบไปด้วยงานทางด้านการประมวลผลภาษาธรรมชาติของภาษาไทย, งานด้านการเข้าใจภาพในบริบทของความเป็นไทยและงานด้านการรู้จำและสร้างเสียงพูดภาษาไทย

    กลุ่มเป้าหมาย/ ผู้ใช้งาน

    • นักพัฒนาระบบ
    • ผู้ประกอบการบริษัท SME
    • Start up และบริษัทอื่นๆ

    จุดเด่นและข้อดี

    • มี AI ที่ผ่านการ train แล้วพร้อมเรียกใช้งาน คำว่า train แล้วนี้สำคัญมากเพราะการหาข้อมูลมา train จำนวนมากและใช้ความสามารถสูงของการคำนาณไม่ใช่เรื่องง่ายๆเลย
    • ไม่ต้องทำแอพพลิเคชันเองทุกขั้นตอน ทำให้ทำ แอพพลิเคชันออกมาได้เร็วกว่า
    • สามารถทดสอบใช้งานได้โดยไม่มีค่าใช้จ่าย* (แบบ Limited Free Service)

    APIs & Service

    โมดูลต่าง ๆ ที่รวบรวมเข้ามาให้บริการบนแพลตฟอร์ม ถูกจำแนกออกเป็น 3กลุ่ม ได้แก่ Language, Vision และ Conversation ซึ่งโมดูลต่าง ๆ จะพร้อมให้ใช้งานในรูปแบบ Web Service หรือ API

    • Language บริการด้านประมวลผลข้อความภาษาไทยรอบด้าน เช่น Word Segmentation, POS Tagging, Named Entity Recognition ประกอบด้วย
      • Basic NLP (ประมวลผลภาษา)
      • TAG Suggestion (แนะนำป้ายกำกับ)
      • Machine translation (แปลภาษา)
      • Sentiment Analysis (วิเคราะห์ความเห็น)
      • Question Answering (ถามตอบ)
    • Vision บริการด้านวิเคราะห์และเข้าใจภาพและวิดีโอหลากหลาย เช่น OCR, Face Recognition, Person Heatmap ประกอบด้วย
      • Character Recognition (แปลงอักษรภาพเป็นข้อความ)
      • Object Recognition (รู้จำวัตถุ) จำแนกรูปวัตถุในภาพออกมาเป็นชิ้นๆ
      • Face Analytics (วิเคราะห์ใบหน้า)
      • Person & Activity Analytics (วิเคราะห์บุคคล)
    • Conversation บริการด้านสนทนาแบบครบวงจร ได้แก่
      • Speech to Text (แปลงเสียงพูดเป็นข้อความ) Partii(พาที) บริการแปลงเสียงพูดภาษาไทยเป็นข้อความ
      • Text to Speech (แปลงข้อความเป็นเสียงพูด) วาจาเวอร์ชัน 9.0 (Animation) บริการแปลงข้อความภาษาไทยให้เป็นเสียงพูด พร้อมอวาทาร์
      • Chatbot (ระบบโต้ตอบทางข้อความอัตโนมัติ) ABDUL (Artificial chatBot which Does Understand Language) บริการสร้างแช็ตบอตสำหรับสนทนาอัตโนมัติ

    วิธีการสมัครใช้งาน

    1. เข้าเว็บ AI for Thai https://aiforthai.in.th/
    2. Click Register

    จะต้องเข้า Mail Confirm การลงทะเบียนและ set password เพื่อ Login ใช้งานระบบ


    วิธีการดู API Key ส่วนตัวเพื่อใช้งาน

    1. Login เข้าสู่ระบบ
    2. Click ที่ ProFile เพื่อดู API Key ที่แต่ละท่านจะมีไม่ซ้ำกัน

    วิธีการทดลองใช้งาน ไปที่เมนู Developer

    1. ทดลองระบบตัดคําภาษาไทยเล็กซ์โต (LexTo+)

    เข้าหน้านี้แล้ว Apikey ของแต่ละคนจะถูกใส่ไว้ให้อัตโนมัติแล้ว หา code ภาษาที่ต้องการจะใช้

    เช่น ถ้าต้องการภาษา Python ก็สามารถไป copy code มาว่างบน file .py ใน VS Code และก็ run

    ได้ทันทีครับ

    ผลการทดลองใช้ Python ใน VS Code

    สามารถตัดคำออกจากประโยคยาวๆออกมาได้อย่างถูกต้อง


    มีอะไรให้ทดลองเล่นได้หลากหลายมากครับ ลองสมัครและทดลองดูครับ

    ความรู้ที่ได้จากการอบรม

    ยุคนี้คือยุค Generative AI มาดูความสามารถของ AI ยุคนี้กันนะครับ

    AI ที่เป็นที่นิยมในตอนนี้

    • ChatGPT for text (OpenAI) สำหรับถามตอบ

    •Stable Diffusion (MidJourney) and DeepFakefor image and video สำหรับสร้างภาพและ video

    • VALL-E for voice (Microsoft) เลียนแบบเสียงพูดของคนได้เลยแค่ฟังคำพูด 3 วินาที

    Beatoven.ai https://www.beatoven.ai
    สามารถแต่งเพลงเองได้โดยไม่ผิดลิขสิทธิเพลงแน่นอน แค่บอก Beatoven.ai ว่าต้องการเพลงแนวไหน อย่างไร
    flair.ai https://flair.ai ออกแบบโฆษณาผลิตภัณฑ์
    ผลงานการออกแบบของ flair.ai
    https://illustroke.com ผู้ออกแบบงาน Vector Graphic design ทำ logos icons ได้หมด
    vidyo.ai ผู้ช่วยทำ viral short clips จาก clips ยาวๆทั้งหมดที่ถ่ายมา คนถ่าย Clips ไม่ต้องมาเสียเวลานั่งเลือกด้วยตัวเองหรือต้องจ้างให้ใครมาทำให้อีกแล้ว
    bestwebbs.com แหล่งหาผู้ช่วย AI

    เหมือนว่าทุกวงการจะถูก AI เข้าไปมีส่วนรวมหมดจะมากจะน้อยก็แล้วแต่ความสนใจ ความสามารถในการทำเงินและข้อมูลที่มากๆๆๆๆพอ บรรดา platform online ที่ใช้กันทั่วไป google fakebook tiktok เป็นแหล่งอาหารชั้นยอดสำหรับ AI หวังว่ามีคนเก่งสนใจสร้าง AI ให้เก่งเร็วพอจะช่วยโลกพ้นวิกฤษ climate change ก่อนที่ทุกอย่างจะสายเกินไป ช่วยหาวิธีเพิ่มป่าไม้ เพิ่มออกซิเจน ลดการใช้พลังงานอย่างไม่ใส่ใจ ลดการปล่อยก๊าชเรือนกระจก ลดขยะ ช่วย recycle ขยะ ช่วยทำให้คนมีเวลาเอาใจใส่สิ่งแวดล้อม เอาใจใส่กันและกัน เพื่อให้คนรุ่นต่อไปใช้ชีวิตที่ดีขึ้นและรู้สึกขอบคุณคนยุคก่อนๆที่ทำให้คนรุ่นต่อๆไปใช้ชีวิตอย่างมีความสุขง่ายขึ้น


    อ้างอิง

    บทความนี้ส่วนบางส่วนนำมาจาก AI for Thai และ “AI for Thai” พลิกโฉมดิจิทัลทรานฟอร์เมชันด้วยปัญญาประดิษฐ์ เพื่อทำให้เนื้อหาครบถ้วน ถูกต้องตามแบบที่ AI for Thai ต้องการสื่อสารและผมได้ขยายความบางส่วนเพื่อเพิ่มความเข้าใจมากขึ้น

    ขอบคุณวิทยากรทุกท่านในการอบรม “ทักษะด้านปัญญาประดิษฐ์ และประยุกต์ใช้แพลตฟอร์ม AI for Thai ประจำปี 2566” รอบที่ 3 ที่ทั้งสร้าง Model AI ให้ประเทศไทยได้ใช้งานและได้ให้ความรู้เพื่อพัฒนา AI ของประเทศไทยเราต่อไป เพื่อไม่ให้ประเทศไทยเราถูกทิ้งไว้ข้างหลังด้าน AI

  • Data cleansing ทำให้ข้อมูลสะอาดก่อนเอาไปใช้/วิเคราะห์

    Data cleansing เป็นส่วนสำคัญในการทำ ETL (Extract, Transform, Load) data cleansing process เป็นกระบวนการที่เกี่ยวกับ การระบุและ แก้ไขหรือลบ ข้อผิดพลาด ความไม่สอดคล้องหรือความไม่แม่นยำในข้อมูลก่อนที่จะโหลดเข้าสู่ที่เก็บข้อมูล

    ขั้นตอนการทำ Data cleansing ประกอบด้วยขั้นตอนดังนี้

    1. Data Profiling: เป็นการวิเคราะห์ข้อมูลเพื่อระบุปัญหาด้านคุณภาพหรือความไม่สอดคล้องกันที่ต้องได้รับการแก้ไข
    2. Data Standardization: ในขั้นตอนนี้ ข้อมูลจะถูกทำให้เป็นมาตรฐานในรูปแบบทั่วไปหรือเป็นมาตารฐานสากล รวมถึง format ต่างๆ เช่น รูปแบบวันที่ ชื่อย่อ ชื่อเต็ม กำหนดค่าทางการเงินที่มีหน่วยนับเดี่ยวกันทั้งหมด
    3. Data Parsing: การแยกข้อมูลออกเป็นฟิลด์หรือคอลัมน์เพื่อให้สามารถวิเคราะห์และประมวลผลเพิ่มเติมได้
    4. Data Transformation: ขั้นตอนนี้เกี่ยวข้องกับการแปลงข้อมูลเพื่อให้สอดคล้องกับเป้าหมายที่ตั้งไว้ ซึ่งรวมถึงการแปลงชนิดข้อมูล การคำนวณข้อมูล และการรวมข้อมูล
    5. Data Enrichment: เป็นการเพิ่มข้อมูลจากแหล่งอื่นๆ เพื่อความสมบูรณ์ของการวิเคราะห์
    6. Data Deduplication: ในขั้นตอนนี้ records ที่ซ้ำกันจะถูกระบุและลบหรือผสานเพื่อให้แน่ใจว่าข้อมูลมีความถูกต้อง
    7. Data Validation: ขั้นตอนนี้เกี่ยวข้องกับการตรวจสอบความถูกต้องของข้อมูลตามกฎเกณฑ์ ข้อจำกัด และข้อมูลอ้างอิงเพื่อให้แน่ใจว่าตรงตามมาตรฐานคุณภาพที่กำหนด
    8. Documentations : การจัดทำเอกสารประกอบการจัดทำ Data cleansing
    9. Monitoring : การตรวจสอบข้อมูลให้เป็นไปตามมาตราฐานที่ว่างไว้อย่างสม่ำเสมอเพื่อให้แน่ใจว่าไม่มีขั้นตอนไหนผิดพลาด

    data cleansing ทำให้แน่ใจว่าข้อมูลที่ผ่านกระบวนการ ETL ไปยังที่เก็บข้อมูลต้องมี accurate consistent และ reliable โดยเป็นไปตามกฏเกณฑ์ที่ตั้งไว้ตามมาตราฐานขององค์กรหรือตามมาตราฐานสากล


    Data Profiling

    การประมวลผลข้อมูล (Data Profiling) เป็นขั้นตอนสำคัญในกระบวนการ ETL (Extract, Transform, Load) ซึ่งเป็นการวิเคราะห์คุณภาพ โครงสร้าง และเนื้อหาของข้อมูลเพื่อตรวจสอบปัญหาหรือความไม่สอดคล้องที่ต้องการแก้ไขก่อนการโหลดข้อมูลเข้าสู่ระบบเป้าหมาย ขั้นตอนดังกล่าวประกอบไปด้วย:

    1. ระบุแหล่งข้อมูล: ขั้นตอนแรกคือการระบุแหล่งข้อมูลที่ต้องการประมวลผล ซึ่งสามารถเป็นฐานข้อมูล ไฟล์แบบแฟลต บริการเว็บ และแหล่งข้อมูลอื่นๆ
    2. กำหนดกฏการประมวลผลข้อมูล: เมื่อระบุแหล่งข้อมูลแล้ว จำเป็นต้องกำหนดกฏการประมวลผลข้อมูล
    3. เลือกเครื่องมือประมวลผลข้อมูล: มีเครื่องมือประมวลผลข้อมูลหลายตัวที่ใช้งานได้ในตลาด สามารถเลือกเครื่องมือที่เหมาะสมกับความต้องการและงบประมาณขององค์กร
    4. กำหนดค่าเครื่องมือการโปรไฟล์ข้อมูล: กำหนดค่าเครื่องมือการโปรไฟล์ข้อมูลให้เชื่อมต่อกับแหล่งข้อมูลและเก็บข้อมูลที่ต้องการสำหรับการวิเคราะห์ กำหนดกฎและตัวชี้วัดสำหรับการโปรไฟล์ข้อมูลรวมถึงความสมบูรณ์ของข้อมูล ความแม่นยำของข้อมูล ความสอดคล้องของข้อมูล และเวลาที่เป็นไปตามกำหนด
    5. รันกระบวนการโปรไฟล์ข้อมูล: เมื่อเครื่องมือการโปรไฟล์ข้อมูลได้ถูกกำหนดค่า จะต้องรันกระบวนการโปรไฟล์ข้อมูลเพื่อวิเคราะห์ข้อมูลและสร้างรายงานโปรไฟล์ วิเคราะห์รายงานเพื่อระบุปัญหาคุณภาพข้อมูล เช่นข้อมูลที่ขาดหายไป เร็คคอร์ดที่ซ้ำกัน หรือค่าข้อมูลที่ไม่สอดคล้องกัน
    6. แก้ไขปัญหาคุณภาพข้อมูล: โดยอิงตามรายงานการโปรไฟล์ข้อมูล จะต้องแก้ไขปัญหาคุณภาพข้อมูลโดยพัฒนากฎการทำความสะอาดข้อมูลหรือทำการเปลี่ยนแปลงในแหล่งข้อมูลหรือกระบวนการ ETL เพื่อให้ข้อมูลสะอาดและถูกแปลงตามกฎธุรกิจและความต้องการ
    7. ตรวจสอบคุณภาพข้อมูล: ตรวจสอบคุณภาพข้อมูลอย่างต่อเนื่องและทำการวิเคราะห์ข้อมูลอีกครั้งเพื่อตรวจสอบว่าข้อมูลยังคงถูกต้องและสอดคล้องกันตลอดเวลา

    โดยรวมแล้ว การทำ Data profiling เป็นขั้นตอนสำคัญในกระบวนการ ETL เนื่องจากมันช่วยให้มั่นใจได้ว่าข้อมูลที่โหลดเข้าระบบเป็นข้อมูลที่ถูกต้อง สอดคล้องกัน และเชื่อถือได้ซึ่งเป็นสิ่งสำคัญสำหรับการตัดสินใจทางธุรกิจ


    Data Standardization

    จัดข้อมูลให้เข้ากับมาตราฐานองค์กรหรือมาตราฐานสากล ตัวอย่างมาตราฐานข้อมูลของไทย

    คู่มือการจัดทํามาตรฐานเพื่อการเชื่อมโยงข้อมูลระหว่างหน่วยงานภาครัฐ
    Data Standardization for e-Government Interoperability Manual


    Data Parsing

    เป็นกระบวนการแปลงข้อมูลจากรูปแบบหนึ่งไปเป็นอีกรูปแบบหนึ่ง เช่น ที่อยู่ จะแยกออกเป็น บ้านเลขที่ ตำบล อำเภอ จังหวัด เป็นต้น การแยกวิเคราะห์ข้อมูลสามารถใช้เพื่อดึงข้อมูลจากแหล่งต่างๆ

    มีหลายวิธีในการทำ Data Parsing วิธีการหนึ่งที่ใช้กันทั่วไปคือการใช้ parser generator สำหรับแปลงรูปแบบข้อมูลเฉพาะ เมื่อสร้างโปรแกรมแยกวิเคราะห์แล้ว สามารถใช้เพื่อแยกวิเคราะห์ข้อมูลจากแหล่งต่างๆ ได้

    อีกวิธีหนึ่งในการทำ Data Parsing คือการใช้ library หรือ API ทั้งทำเองหรือเอาที่ท่านอื่นๆทำไว้แล้ว


    Data Transformation

    เปลี่ยนข้อมูลไปเป็นรูปแบบที่ต้องการ โดยใช้รูปแบบดังนี้

    1.ใช้ data dictionary เพื่อให้ตรงกันทั้งหมด เช่น ตัวย่อ กทม. กรุงเทพฯ เป็นต้น
    2.ใช้ data validation tool เพื่อความถูกต้อง (accurate)
    3.ใช้ data quality tool เพื่อระบุและแก้ไขข้อผิดพลาดในข้อมูล (correct errors)
    4.ใช้ data transformation tool ทำงานเอง


    Data Enrichment

    กระบวนการเติมข้อมูลหรือการทำให้ข้อมูลที่เรามีอยู่แล้วสมบูรณ์ขึ้น โดยมาเป็นข้อมูลจากภายนอกหรือจากแหล่งอื่นๆ เช่น มีข้อมูลการลงทะเบียนของนักศึกษาอยู่ แล้วเอาข้อมูลการได้รับทุนกับข้อมูลการกู้ยืมมาประกอบ มาเติ่มทำให้มิติของการวิเคราะห์หรือมุมมองเพิ่มมากขึ้น เป็นต้น


    Data Deduplication

    การตรวจสอบการซ้ำกันของข้อมูลทำได้โดยการเขียน Query ตรวจสอบหรือใช้เครื่องมือกลุ่ม data profiling, data quality ช่วยก็จะทำงานได้อย่างมีประสิทธิภาพ


    Data Validation

    การตรวจสอบความถูกต้องและครบถ้วนของข้อมูล ส่วนใหญ่จะทำโดยการทำ Data aggregation ข้อมูลต้นทาง ปลายทาง เหมือนเป็นการตรวจสอบกระบวนการที่ทำมาว่าถูกต้องตามกฏเกณฑ์ที่ว่างไว้หรือไม่


    Documentations

    การเขียนเอกสารการทำความสะอาดข้อมูลเป็นส่วนสำคัญของกระบวนการทำความสะอาดข้อมูล มันช่วยให้แน่ใจว่ากระบวนการทำความสะอาดข้อมูลสามารถทำซ้ำได้และมีประสิทธิภาพ การเขียนเอกสารควรรวมข้อมูลดังนี้:

    1. วัตถุประสงค์ของการทำความสะอาดข้อมูล
    2. ขอบเขตของการทำความสะอาดข้อมูล ต้องทำอะไรบ้าง column ไหนทำอะไร
    3. แหล่งข้อมูลที่จะนำมาใช้ ระบุแหล่งข้อมูลมาจากที่แหล่ง อะไรบ้าง ข้อจำกัดต่างๆที่มี
    4. วิธีการทำความสะอาดข้อมูลที่จะใช้
    5. เครื่องมือที่ใช้ในการทำความสะอาดข้อมูล
    6. ขั้นตอนการทำความสะอาดข้อมูล เขียนให้ชัดเจนทำอะไรกับ column ไหนบ้าง
    7. ผลลัพธ์ของการทำความสะอาดข้อมูล
    8. ตัวชี้วัดของการทำความสะอาดข้อมูล ผลที่เกิดจากการทำความสะอาดข้อมูล เช่น เปลี่ยนค่าไปกี่ records แทนข้อมูลไปกี่ record

    การเขียนเอกสารการทำความสะอาดข้อมูลควรเขียนอย่างชัดเจนและกระชับ และควรเข้าใจและสามารถติดตามได้ง่าย การเอกสารควรอัพเดทเมื่อมีการเปลี่ยนแปลงในโครงการทำความสะอาดข้อมูลด้วย

    เคล็ดลับสำหรับการเขียนเอกสารการทำความสะอาดข้อมูล:

    1. เริ่มต้นด้วยการระบุวัตถุประสงค์ของโครงการทำความสะอาดข้อมูล คุณต้องการทำอะไรในการทำความสะอาดข้อมูล?
    2. ระบุขอบเขตของโครงการได้ คุณจะทำความสะอาดข้อมูลอะไรบ้าง อย่างไร?
    3. ระบุแหล่งข้อมูลที่จะใช้ ข้อมูลนี้มาจากไหนบ้างกี่แหล่งข้อมูล ?
    4. ระบุวิธีการทำความสะอาดข้อมูลที่จะใช้ คุณจะใช้วิธีการใดในการทำความสะอาดข้อมูล?
    5. เครื่องมือที่จะใช้เพื่อทำความสะอาดข้อมูล?
    6. เขียนขั้นตอนการทำความสะอาดข้อมูลเป็นเหมือนกฏเกณฑ์ไว้?
    7. เขียนผลลัพธ์เป้าหมายที่จะได้รับหลังทำความสะอาดข้อมูล?
    8. สรุปผลการทำความสะอาดข้อมูลทำงานได้ดีแค่ไหน โดยการระบุจำนวนข้อมูลที่ดำเนินการสำเร็จ ไม่สำเร็จ ต่างๆ?

    Monitoring

    เป็นส่วนสำคัญที่ช่วยติดตามการทำ data cleansing เป็นไปตามกฏหรือผลลัพธ์ที่ต้องการ ตรวจสอบ error log มีข้อมูลส่วนไหนมีปัญหาดำเนินการไม่ได้บ้าง อาจจะทำเป็น Dashboard สำหรับ Monitoring Data Cleansing Process แสดงวันเวลาดำเนินการ ผลลัพธ์สำเร็จหรือ error เท่าไร เป็นต้น


    Check List

    1. Check for missing values: ค่าที่ไม่ควรมีหรือ NULL ค่าที่ผิดต้องมี Data Standardization เป็นมาตราฐาน
    2. Check for duplicates: records ที่ซ้ำซ้อนกัน
    3. Check for outliers: data นอกช่วงที่ควรจะเป็นไม่ว่าจะเป็น อายุ วันที่ หรือ ช่วงเงินเดือนเป็นต้น วิธีการหา Outliers โดยการ Sort data มองหาค่าเกิดขอบเขต หรือ Graphing พวก Boxplots, Histograms  หาความสุดโต้งของข้อมูล
    4. Check data types: ตรวจสอบชนิดของข้อมูลต้องตรงกัน
    5. Check for inconsistent data: คือ การตรวจสอบข้อมูลที่มาจากหลายๆ แหล่งข้อมูลและมีความไม่ตรงกันทั้งๆที่เป็นข้อมูลชุดเดียวกัน
    6. Check for valid ranges: ช่วงของข้อมูลที่ควรจะเป็น
    7. Check for appropriate formatting: รูปแบบของข้อมูล เช่น วันที่แบบ พ.ศ. หรือ ค.ศ. หน่วยของเงิน หน่วยของส่วนสูง หรือน้ำหนัก เป็นต้น
    8. Check for missing or incorrect relationships: ข้อมูลที่มีการอ้างอิง เช่น foreign key ต้องตรวจสอบให้สามารถอ้างอิงกันได้จริงและถูกต้อง
    9. Check for errors in calculations: การคำนวนที่มีความไม่ถูกต้อง
    10. Check for documentation: สุดท้ายต้องตรวจสอบเอกสารที่ทำว่า update เป็นปัจจุบันหรือไม่

    ทั้งหมดนี้ก็คืองานที่ต้องทำและต้องตรวจสอบสำหรับการทำ Data cleansing ซึ่งเป็นกระบวนการที่ไม่รู้จบ ทำวนไปเพื่อรักษาความถูกต้องครบถ้วนของข้อมูลไปจนกว่าไม่มีใครใช้ข้อมูลนั้นอีกแล้ว

    ขอบคุณสำหรับการเข้ามาอ่านบทความนี้นะครับ บันทึกไว้เพื่อช่วยจำในการทำงาน ถ้าผิดพลาดประการใด สามารถ comment แนะนำได้นะครับ

  • Data Masking ให้รู้ว่ามีอยู่จริง แต่ขอปิดไว้นะ

    Data Masking เป็นวิธีการสร้างข้อมูลใน Version ที่มีโครงสร้างเหมือนกันในระดับชัดข้อมูล ตารางหรือ template ข้อมูล แต่มีการแปลงข้อมูลให้เปลี่ยนไปจากเดิม เช่น รหัสนักศึกษา จาก 6600123 เป็น D2RT126 เป็นต้น และถ้า field หรือ Column มีคุณสมบัติเป็น Unique key ก็ต้องรักษาคุณสมบัตินั้นไว้ ซึ่งสามารถนำไปใช้เพื่อวัตถุประสงค์ต่างๆ เช่น การทดสอบซอฟต์แวร์ การฝึกอบรมผู้ใช้ การส่งต่อให้ทีมงานอื่นๆไปทำงานต่อ แต่ไม่ต้องการให้เห็นข้อมูลที่แท้จริง และการเอาข้อมูลไปเผยเพร่ในรูปแบบ Open Data

    ทำ Data Masking เพื่อปกป้องข้อมูลจริงแต่ผลลัพธ์ต้องเหมือนกับชุดข้อมูลจริงต้นฉบับ เช่น ถ้านับจำนวนจากรหัสนักศึกษาจริง ก็ต้องมีผลเท่ากับที่นับจากจำนวนรหัส masking ที่จัดทำขึ้น

    เมื่อกฏหมาย PDPA มีบทลงโทษที่ชัดเจนทางกฏหมาย การทำ Data Masking ก็เป็นช่องทางที่ช่วยลดความเสี่ยงต่อการทำให้ข้อมูลรั่วไหลไปโดยไม่ได้ตั้งใจ

    Data masking ต่างจาก encryption ตรง Encrypted สามารถ decrypted ได้ข้อมูลกลับมาเหมือนเดิม และอาจจะทำให้ไม่สามารถวิเคราะห์ข้อมูลบางจำพวกได้เมื่อ Encrypted ข้อมูลไปแล้ว เช่น วันเกิด เป็นต้น แต่ Masked Data จะต้องไม่มี algorithm ไหนนำกลับข้อมูลให้เหมือนต้นฉบับได้ ไม่สามารถ reverse engineered ได้ และไม่สามารถใช้ความสามารถทางสถิติในการระบุตัวบุคคลได้ เช่นการเอาข้อมูลต่าง ๆ ที่ได้มาประกอบขึ้นเพื่อระบุว่าเป็นข้อมูลของใครคนใดคนหนึ่งได้

    เทคนิคการทำ Data Masking

    Scrambling การเข้ารหัสแบบสุ่ม เป็นการสร้างความยุ่งเหยิงให้ข้อมูล

    Substitution เทคนิคนี้จะแทนที่ข้อมูลเดิมด้วยค่าอื่นจากการหาค่าที่น่าเชื่อถือและเป็นค่าประเภทเดียวกับข้อมูลที่แทนที่ โดยสร้างตารางข้อมูลที่จะใช้เพื่อแทนข้อมูลต้นฉบับ ต้องมีการตั้งกฎเพื่อรักษาลักษณะเดิมของข้อมูลไว้

    การใช้การแทนที่ทำได้ยากกว่าการเข้ารหัสข้อมูล แต่สามารถนำไปใช้กับข้อมูลหลายประเภทและให้ความปลอดภัยที่ดี ตัวอย่างเช่น คุณสามารถแทนที่หมายเลขบัตรเครดิตด้วยหมายเลขที่ผ่านกฎการตรวจสอบของผู้ให้บริการบัตร

    Shuffling การสับเปลี่ยนข้อมูลโดยการสุ่ม เช่นการสลับนามสกุลของลูกค้า

    Date aging วิธีนี้จะเพิ่มหรือลดฟิลด์วันที่ตามช่วงวันที่ที่ระบุไว้แล้วตามกฏที่ตั้งไว้

    Variance วิธีการนี้มักใช้เพื่อปกปิดข้อมูลมูลค่าทางการเงินและการทำธุรกรรมและข้อมูลวันที่ Algorithm ความแปรปรวนจะปรับเปลี่ยนตัวเลขหรือวันที่แต่ละคอลัมน์โดยสุ่มเป็นเปอร์เซ็นต์ของค่าจริง ตัวอย่างเช่น คอลัมน์ของเงินเดือนพนักงานอาจมีความแปรปรวนเป็นบวกหรือลบ 5% ที่ใช้กับคอลัมน์นั้น การทำเช่นนี้จะเป็นการปลอมแปลงข้อมูลที่สมเหตุสมผลในขณะที่รักษาช่วงและการกระจายของเงินเดือนให้อยู่ภายในขีดจำกัดที่มีอยู่

    Masking out การปิดบังจะแปลงค่าเพียงบางส่วนเท่านั้น และมักใช้กับหมายเลขบัตรเครดิตที่มองเห็นเพียงตัวเลขสี่หลักสุดท้ายเท่านั้น เดียวนี้เราน่าจะเห็นบ่อยๆ วันก่อนแม่เข้า รพ. ปกติบนกระดานในหอผู้ป่วยจะเขียนเบอร์โทรหมอไว้แบบพร้อมใช้งาน เดียวนี้จะเขียนไว้แค่ 3 ตัวหลังเท่านั้น

    Nullifying จะแทนที่ค่าจริงในคอลัมน์ข้อมูลด้วยค่า NULL ซึ่งจะเป็นการลบข้อมูลทั้งหมดออก แม้ว่าการลบประเภทนี้จะใช้งานได้ง่าย แต่ไม่สามารถใช้คอลัมน์ที่ไม่มีค่าในการค้นหาหรือการวิเคราะห์ได้ ส่งผลให้ความสมบูรณ์และคุณภาพของชุดข้อมูลสำหรับสภาพแวดล้อมการพัฒนาและการทดสอบลดลงได้

    ประเภทของ data masking

    Static data masking จะสร้างชุดข้อมูลที่ปิดบังแยกต่างหากจากฐานข้อมูลจริงในที่ใหม่ เช่น การวิจัย การพัฒนา และการสร้างแบบจำลอง ค่าข้อมูลที่ปกปิดต้องสร้างผลการทดสอบและการวิเคราะห์ที่สะท้อนข้อมูลต้นฉบับและคงอยู่เมื่อเวลาผ่านไปเพื่อให้แน่ใจว่าผลลัพธ์ที่ถูกต้องและทำซ้ำได้

    Dynamic data masking  เป็นการรักษาความปลอดภัยตามบทบาทโดยเฉพาะในระบบที่ใช้งานจริง เมื่อผู้ใช้ต้องการข้อมูลจริง Dynamic data masking จะแปลง บดบัง หรือบล็อกการเข้าถึงฟิลด์ข้อมูลที่ละเอียดอ่อนตามบทบาทของผู้ใช้ ตัวอย่างเช่น ต้องการใช้ข้อมูลนักศึกษาทั้วไปไม่จำเป็นที่ต้องให้เห็น รหัสบัตรประชาชน วันเดือนปีเกิด ก็ทำการปกปิดไป

    On-the-fly data masking เป็นการปกปิดข้อมูลในขณะโอนข้อมูลไปสู่อีกที่นึ่ง หรือไปอยู่ในฐานข้อมูลทดสอบต่าง ๆ  

    ความยากของการทำ Data Mask คือความซับซ้อนของข้อมูลที่นำมาทำตามรูปแบบข้างต้นที่ต้องรักษา Referential integrity * ไว้และยังต้องรักษากฏตาม Data governance policy ด้วย

    ดีต่อมหาวิทนาลัยอย่างไรเมื่อมีการใช้ Data masking

    1. ป้องกันการละเมิดข้อมูลและเพิ่มความปลอดภัยให้กับข้อมูล
    2. ทำ Data masking ก่อนการการพัฒนาระบบ การทดสอบ และการวิเคราะห์ ช่วยให้สามารถแชร์ข้อมูลสำคัญทั้งภายในและภายนอกได้ ในขณะที่ยังคงเป็นไปตามข้อบังคับ หรือ กฏหมาย PDPA
    3. ควบคุมการเข้าถึงข้อมูลอย่างเหมาะสมตามบทบาท
    4. ทำให้ผู้ใช้งานสบายใจและไม่ต้องกังวลเรื่องข้อมูลรั่วไหลแล้วต้องรับผิดชอบต่างๆนาๆ เพราะข้อมูลที่นำมาใช้งานได้ปกป้องผู้ใช้งานอยู่แล้ว อันนี้ดีสุด

    ข้อมูลประกอบอื่น ๆ

    * Referential integrity ทำให้ข้อมูลมีทั้ง consistent และ accurate โดยการจัดทำ foreign key ที่ต้องมีค่าข้อมูลในอีกตารางเท่านั้นถึงจะปรากฏในตารางปลายทางได้ การสร้าง Trigger หรือ stored procedure เพื่อควบคุมการทำ CRUD ข้อมูล

    ** Data sanitization เป็นกระบวนการลบ Sensitive Data หรือ Confidential Data จากฐานข้อมูลมีวิธีทำดังนี้

    1. Overwriting the data with random characters สร้างข้อมูลสุ่มมาแทนที่ข้อมูลเดินแบบไม่ให้สามารถย้อนหลังข้อมูลได้
    2. Degaussing การลบข้อมูลแบบใช้สนามแม่เหล็ก (powerful magnetic)
    3. Physical destruction เป็นการทำลายอุปกรณ์จัดเก็บไปเลย

    คำถามต่อไปที่จะหาคำตอบคือมี Tools อะไรมาช่วยอำนวยความสะดวกในการจัดทำ Data Masking บ้าง ?

    อ้างอิงข้อมูลจาก

    Data Masking จากเว็บ https://www.techtarget.com/searchsecurity/definition/data-masking

    AI ที่ชื่อ Bard ของ Google : https://bard.google.com/

    AI ของ OpenAI : https://chat.openai.com/

  • โกง Online ก็ต้องฟ้อง Online ซิครับ

    ผมสั่งซื้อของ Online มาก็เยอะแล้วไม่ค่อยพลาด แต่ก็ไม่วายเจอดีเข้าจนได้ เมื่อสั่งซื้อของ Online แล้วไม่ได้รับของ ของไม่ตรงปก ของเสียหาย เราก็ต้องฟ้องแบบ Online ไปเลยครับ (แต่ก่อนฟ้องต้องแน่ใจว่าโดนโกง โดยการติดต่อผู้ขายแล้ว ติดต่อไม่ได้โดนบล๊อก หรือปฏิเสธความรับผิดชอบ)

    มาเริ่มกันเลย

    กระบวนการจะมีอยู่ 5 ขั้นตอนสำหรับครั้งแรกของการขอยืนฟ้อง

    1. Load Application COJ CONNECT และลงทะเบียน
    2. เข้าสู่เว็บ https://efiling3.coj.go.th/ โดยใช้การเข้าระบบผ่านทาง Application COJ CONNECT ที่ได้ลงทะเบียนไว้
    3. กรอกข้อมูลยื่นฟ้องตามเอกสารที่เตรียมไว้
    4. รอการพิจารณาประทับรับฟ้อง
    5. รอขึ้นศาลผ่านทาง Online

    ขั้นตอนการสมัครสมาชิก Application COJ CONNECT และลงทะเบียน
    1. Scan QR Code หรือเข้า Android (Google Play) และ IOS (App Store) ค้นหา COJ CONNECT

    2. เข้าสู่ Application COJ CONNECT เพื่อลงทะเบียน ซึ่งมีอยู่ 5 ขั้นตอน

    2.1 ระบุตัวตน >> กรอกข้อมูลรายละเอียดทุกช่องที่มีเครื่องหมาย *

    2.2 ตรวจสอบบุคคล >> ถ่ายรูปบัตรประชาชนและหน้าตาหล่อๆ สวยๆ

    2.3 รหัสผ่าน >> ตั้งรหัสผ่านตามกฏที่ทางเว็บกำหนด

    2.4 OTP >> รับรหัส OTP จากเบอร์มือถือที่กรอกข้อมูลไว้

    2.5 ลงทะเบียนอุปกรณ์

    หน้าระบุตัวตนหน้าที่ 1.
    หน้าระบุตัวตนหน้าที่ 2.

    เมื่อเสร็จสิ้นขั้นตอน เราก็พร้อมสำหรับเริ่มกระบวนการฟ้องแล้วครับ

    1. เริ่มต้น เข้าเว็บ https://efiling3.coj.go.th/
    Click เลือก ประชาชน เว็บจะพามาหน้า
    เลือก เข้าสู่ระบบ
    เลือก เข้าสู่ระบบผ่าน COJ Connect โดยจะกรอกข้อมูลรหัสบัตรประชาชน และ รหัสผ่าน หรือจะเปิด Application COJ Conect แล้ว SCAN QR Code ก็ได้ สามารถทำได้ 2 วิธี ดังรูปด้านล่างนี้

    ถ้าเป็นครั้งแรกจะให้ใส่ OTP เพื่อยืนยันอีกรอบ แต่ถ้าเข้ารอบหลังๆจะไม่มีให้ใส่ OTP อีกแล้ว

    และระบบจะพามาสู่หน้า

    เลือก ยื่นฟ้องคดีผู้บริโภค
    เลือก ผู้ซื้อสินค้า หลังจากนั้น กรอกข้อมูลและ upload หลักฐานการพูดคุยและจ่ายเงินทั้งหมดเข้าระบบ

    เมื่อกรอกข้อมอูลครบแล้ว Click ยื่นฟ้อง แล้วก็รอ Mail ตอบกลับจากศาล ซึ่งจะมีอยู่ 3 ฉบับ ดังนี้

    Mail แรก บอกว่ายื่นฟ้องเรียนร้อยแล้ว รอเจ้าพนักงานคดีทำการตรวจสอบ
    Mail ที่ 2 แจ้งรับฟ้องคดี
    Mail ที่ 3 จะนัดหมายวันที่ศาลพิจารณา เวลา โดยผ่านทาง google meet

    ที่ผมยื่นฟ้องไปนับจากวันเริ่มยื่น การดำเนินการ mail ทั้ง 3 ฉบับประมาณ 2 สัปดาห์ แต่รอศาลนัดพิจารณาคดีประมาณ 3 เดือน

    ตอนนี้ยังไม่ได้ขึ้นศาลพิจารณาคดี ถ้ามีความคืบหน้าจะมาเขียนสรุปเพิ่มให้นะครับ

    มาต่อกันครับ

    วันขึ้นศาล เข้า link ตามที่ระบบ Mail มาให้ซึ่งจะเป็นห้องรอขึ้นศาลจะมีการถ้าเพื่อตรวจาสอบชื่อ นามสกุล และบอกให้เตรียมบัตรประชาชนและแต่งกายสุภาพ เมื่อห้องพิจารณาคดีวาง ก็จะมีเจ้าหน้าที่ส่ง link มาทาง chat ในห้องประชุมแล้วเจ้าหน้าที่จะบอกว่าห้องประชุมนี้ให้โจทย์ท่านใดเข้าเป็นรายคนไปครับ

    เข้าห้องพิจารณาคดี เริ่มแรกก็ให้แสดงบัตรประชาชนกับหน้าของโจทย์เพื่อยืนยันตัวตนและเป็นหลักฐาน จากนั้นศาลท่านจะให้กล่าวคำสาบาน เสร็จจากนั้นศาลท่านจะสอบถามที่มาที่ไป ความต้องการ เช่นต้องการเงินคืนพร้อมดอกเบื้อร้อยละ 5 เป็นต้น เมื่อศาลซักเสร็จศาลก็จะแจ้งให้เข้าระบบในภายหลังเพื่อติดตามคำพิพากษาไม่เกิน 10 วันทำงาน

    ตอนนี้ถึงขั้นตอนนี้อยู่ครับ รอคำพิพากษาจากศาลครับ

    ขอบคุณทุกท่านที่แวะมาอ่านนะครับ

  • Mail ขอนัดประชุมต้องประกอบด้วยอะไรบ้าง

    ช่วงนี้เป็นช่วงที่ต้อง Mail ขอนัดประชุมเพื่อขอข้อมูลเพื่อจัดทำ Data Lake จากหลายๆหน่วยงานเป็นจำนวนมาก เลยลองตั้งคำถามว่า “mail ขอนัดประชุมควรจะประกอบด้วยหัวข้ออะไรบ้าง” ถึงจะครบถ้วน เหมาะสม สือสารตรงจุด ผู้รับ Mail อยากจะตอบรับ อยากประชุมกับเรา ผลการค้นหาและประมาณผลด้วยตัวเองออกมาประมาณนี้ครับ

    Subject Mail
    Subject Mail ต้องชัดเจนและกระชับ ช่วยให้ผู้เห็น Subject Mail แล้วพอจะรับรู้ได้ว่าเนื้อ Mail จะเกี่ยวกับเรื่องอะไร
    เช่น
    ขอนัดประชุมเรื่อง….
    ขอเชิญประชุมเรื่อง…
    ขอนำเสนอผลงานเรื่อง…
    ขอนัดปรึกษาเรื่อง…
    ขอชี้แจ้งเรื่อง…
    เริ่มเนื้อ Mail ด้วยการทักทายที่สุภาพและเหมาะสมกับความสัมพันธ์ ตำแหน่งหน้าที่ วัยวุฒิ
    ทักทายด้วยตำแหน่ง สำหรับผู้ใหญ่ ผู้บริหาร
    เช่น เรียน ่ทานผู้อำนวยการ../่ท่านคณบดี
    ทักทายด้วยสวัสดี สำหรับทั่วไปและคนที่รู้จักกันมาก่อน
    เกริ่นนำ ที่มาที่ของการขอนัดประชุม วัตถุประสงค์ของการขอประชุม
    ถึงจะมีการพูดคุยกันมาก่อนแล้วก็ตาม เกริ่นนำ และบอกวัตถุประสงค์ก็ต้องมีอย่างชัดเจน อย่างคิดว่าเคยรับรู้หรือเคยคุยมาแล้วไม่ต้องบอก เพราะบางครั้งก็มีลืมกันบ้าง หรือทางผู้รับ mail อาจจะ forword mail ต่อไปให้ท่านอื่นๆที่ไม่ได้รับรู้เรื่องที่ขอนัดประชุมมาก่อน
    วาระหรือหัวข้อที่จะประชุมพร้อมเวลาที่จะใช้ในการประชุม
    อธิบายวาระการประชุมเพื่อสังเขป
    และเวลาที่จะใช้ในการประชุม เช่น 1 ช.ม. 2 ช.ม. เพื่อถ้าเป็นการประชุมกับผู้บริหารทางผู้รับ Mail จะได้กำหนดเวลาได้ชัดเจน
    ถ้าการประชุมครั้งนี้เกินขึ้นหรือสำเร็จ ผู้เข้าประชุมจะได้รับอะไรที่เป็นประโยชน์กับตัวบุคคลหรือหน่วยงานบ้าง
    หัวข้อนี้ต้องให้ความสำคัญที่สุดเพราะเป็นหัวข้อที่ทำให้ผู้รับ Mail เห็นถึงประโยชน์ที่จะได้รับเมื่อมีการประชุมครั้งนี้เกิดขึ้น
    เตรียมตัวหรือเตรียมข้อมูลในการประชุมสำหรับผู้รับ Mail
    แจ้งคำขอให้มีการเตรียมตัวก่อนการประชุม หรือสิ่งที่ต้องเตรียมก่อนการประชุม
    เพื่อความพร้อมในการประชุม
    วัน เวลาและสถานที่ (Online/Onsite ) ขอนัดประชุม
    รูปแบบการประชุม Online หรือ Onsite
    วันและเวลา จะดีมากถ้ามีช่วงวันและเวลาให้ทางผู้รับ mail เลือกเพื่อช่วยการติดสินใจ
    ข้อความแสดงความขอบคุณสำหรับเวลาและการพิจารณาของผู้เข้าประชุม
    “ขอขอบคุณในการพิจารณาวันและเวลานัดหมายประชุมในครั้งนี้”
    “ขอขอบคุณในการเสียสละเวลาพิจารณาวันและเวลานัดหมายประชุมในครั้งนี้”
    ข้อมูลเพื่อให้ผู้รับ Mail ติดต่อกลับ
    เพื่อให้ผู้รับ Mail ติดต่อได้ง่ายและตามช่องทางที่ทางผู้รับ Mail สะดวก
    เช่น
    “กรุณาแจ้งกลับภายในวันที่ [วันที่] เวลา [เวลา]
    คุณ/ท่าน สามารถติดต่อกลับได้ที่
    [ชื่อ นามสกุล]
    [หมายเลขโทรศัพท์]
    หรือ
    [ที่อยู่อีเมล]”

    ทั้งหมดนี้คือหัวข้อที่น่าจะต้องมีใน Mail ขอนัดประชุมครับ สำหรับผมคิดว่าหัวข้อที่ว่า ถ้าการประชุมครั้งนี้เกิดหรือสำเร็จ ทางผู้เข้าประชุมจะได้รับประโยชน์อะไรบ้างเป็นหัวข้อที่สำคัญที่สุดและน่าจะทำให้ผู้รับ Mail ให้ความสนใจ ยิ่งเป็นประโยชน์ที่ช่วยงานให้ดีขึ้น สะดวกขึ้นก็จะยิ่งเพิ่มความน่าเข้าร่วมประชุมมากขึ้นไปอีกระดับ

    ขอบคุณทุกท่านที่แวะมาอ่านนะครับ

  • สร้าง Dashboard ต้องคิดถึงอะไรบ้าง

    Dashboard ทำขึ้นเพื่อผู้ใช้ ไม่ได้ทำเพื่อแสดงข้อมูลทั้งหมดที่มี ทำเพื่อตอบคำถามผู้ใช้งาน
    แต่สำหรับบางองค์กรที่ผู้ต้องการดูข้อมูลยังไม่รู้ว่าจะดูอะไรดี ขอแนะนำให้ตั้งโจทย์ขึ้นมาแล้วหาข้อมูลมาประกอบสร้างเรื่องราวจากโจทย์ขึ้นมาจากข้อมูล (การคิดโจทย์ขึ้นมาก็ต้องมาจากการคาดการณ์ความต้องการและเป้าหมายของผู้ใช้ เดาใจตามหน้าที่รับผิดชอบของผู้ใช้งาน)

    รูปแบบการวิเคราะห์ข้อมูลเบื้องต้น

    1.ต้องการแสดงความสัมพันธ์ (Relationship) เพื่อเชื่อมต่อสองข้อมูลตัวแปรที่สนใจ หรือมากกว่านั้น เช่น จังหวัดที่เกิดกับวิทยาเขตที่เรียน

    รูปแสดงตัวอย่างการวิเคราะห์ความสัมพันธ์ (Relationship)


    2.ต้องการเปรียบเทียบข้อมูล (Comparison) ใช้ Bar chart หรือ line chart เพื่อแสดงข้อมูลรับนักศึกษาในแต่ละปี

    รูปแสดงตัวอย่างการวิเคราะห์ข้อมูลแบบเปรียบเทียบ (Comparison)


    3.ต้องการแสดงการเปลี่ยนแปลงข้อมูลตามช่วงเวลา (Trend)

    รูปแสดงตัวอย่างการวิเคราะห์เปลี่ยนแปลงข้อมูลตามช่วงเวลา (Trend)


    4.ต้องการแสดงการจ่ายของข้อมูล (Distribution) โดยการเอาข้อมูลมาจัดกลุ่ม (Grouping) หรือเรียง (Ranking) แล้วนับจำนวนเพื่อดูการกระจายของข้อมูล
    เช่น อายุงานบุคลากรแยกทุก 10 ปีของการทำงาน เพื่อดูว่าบุคลากรส่วนใหญ่อายุงานอยู่ที่กี่ปี เป็นต้น

    รูปแสดงตัวอย่างการวิเคราะห์การจ่ายของข้อมูล (Distribution)

    สิ่งที่ต้องเอาใจใส่

    1. เลือก Data Visualization ให้ตรงกับจุดประสงค์ของการนำเสนอ และผู้ใช้งานต้องเข้าใจ Visualization ที่ใช้ด้วยเป็นสำคัญ
    2. โทนสีที่เลือกใช้งานควรจะไม่มากเกินไป และควรจะเป็นโทนเดียวกัน (ลองค้นหาตารางโทนสีใน Google ดูครับ)
    3. ควรจะคำนึงถึง ขนาด สี ที่มีความสัมพันธ์กัน เช่น ใน 1 Dashboard ใช้สีชมพูแทนเพศหญิง ก็ควรจะใช้สีชมพูในแต่ละ Visualization เพื่อแทนเพศหญิงเหมือนกัน
    4. ทำให้ผู้ใช้งานมองติดตามข้อมูลได้ง่ายและเข้าใจ
    5. การมีเส้นนำสายตาก็จะมีผลต่อการแบ่งกลุ่มข้อมูลโดยอัตโนมัติสำหรับผู้ใช้งาน
    6. (five-second rule) กฏ 5 วินาที Dashboard ควรจะตอบโจทย์ที่ได้รับมาโดยการมองเพียงแค่ 5 วินาที ซึ่งต้องได้คำตอบหลักแล้ว ส่วนถ้าต้องการหาสาเหตุหรือต้องการข้อมูลเชิงลึกก็จะเข้าส่วน
    7. ออกแบบแบบปรามิดคว่ำ คือส่วนบน เป็น indicators ส่วนที่ 2 เป็น Trends ส่วนที่ 3 เป็น รายละเอียด
    8. ใน 1 Dashboard ควรมี Visualization ประมาณ 5-9 Visualization (ตามข้อมูลการศึกษาการรับรู้ของสมองมนุษย์จะเข้าใจภาพได้ประมาณ 7 +- 2)
    9. จำไว้ว่าข้อมูลสมบูรณ์ครบถ้วน ไม่สู่ตอบโจทย์ที่ผู้ใช้ต้องการนะครับ เพราะเราต้องการตอบสนองผู้ใช้งานไม่ใช่ตอบสนองข้อมูลหรือตัวผู้จัดทำ Dashboard

    ทำแล้วใช่ว่าจะจบนะครับ ต้องคุยกับผู้ใช้อีกว่าเข้าใจตรงกันหรือไม่แล้วก็ปรับแต่งตามการพูดคุยทำความเข้าใจกัน

    อ้างอิง :

    https://www.sisense.com/blog/4-design-principles-creating-better-dashboards/
    https://realmonkey.co/web-design/principles-of-effective-dashboard-design/
    https://www.netsolutions.com/insights/good-dashboard-design-principles/
    https://wandr.studio/blog/dashboard-design-principles/
    https://medium.com/madt-and-bads-nida/4-principles-of-dashboard-design-%E0%B8%AB%E0%B8%B1%E0%B8%A7%E0%B9%83%E0%B8%88-4-%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%AA%E0%B8%B3%E0%B8%AB%E0%B8%A3%E0%B8%B1%E0%B8%9A%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B8%AD%E0%B8%AD%E0%B8%81%E0%B9%81%E0%B8%9A%E0%B8%9A-dashboard-957b79e0179a

  • DAX (Data Analysis Expression) ฉบับเริ่มใช้งาน

    DAX (Data Analysis Expression) ใช้เพื่อการคำนวณใน Data Model 

    โดย DAX ประกอบด้วย Functions Operation และConstants เพื่อคำนวณและ/หรือแปลงข้อมูลเพื่อสร้าง Measure, Column, Table  

    ใช้งานได้ในผลิตภัณฑ์ของ Microsoft ดังนี้ Power BI, Excel (Power Pivot), SQL Server

     โดยมีสูตรต่าง ๆ มากมาย มีประโยชน์มากในการทำงานเกี่ยวกับ Time Intelligence การสร้าง Date Dimension การคำนวณโดยใช้ Relationships เพื่อเตรียมการคำนวณให้ไปใช้ในการสร้าง Visualization ต่อไป

    Column หรือ Measure สร้างอะไรดี

    • New Column จะมีการสร้างขึ้นมาจริงใน Data Model โดยการคำนวณขึ้นตอน Refresh Data ซึ่งต้องใช้พื้นที่จัดเก็บจริง  ใน Chart ต่างๆใน Report สามารถใช้ในฐานะ Category ได้
    • New Measure จะถูกคำนวณใน Report และค่าจะเปลี่ยนไปจามการ Filter ที่เปลี่ยนไป เมื่อ Filter เปลี่ยนจะมีการคำนวณใหม่ตลอด

    Functions ที่น่าสนใจสำหรับใช้งาน

    1. Format Number ถ้าต้องการใส่ Format ให้กับตัวเลข เช่น $ ใส่ “,” จุดทศนิยมต้องทำอย่างไร 

    ต้องทำเป็น Measure ดังนี้
    1.1 Click ขวาที่ Table Model และ New measure

    1.2 ส่วนหมายเลข 1 แก้ไขชือ Measure
    ส่วนหมายเลข 2 Function ที่ต้องการใช้ในที่นี้ใช้ Function Count
    ส่วนหมายเลข 3 เลือกรูปแบบการจัด Formate ของตัวเลขตามที่ต้องการ

    1. RELATED วิธีการดึงข้อมูลจากตารางอื่นๆมาเป็น Column ในตารางที่กำลังทำงานอยู่ โดยการสร้างNew Column แล้วใช้ Function  RELATED ดึงข้อมูลจากอีกตารางที่ต้องสร้าง Relationship ไว้แล้วและต้องเป็น Relation ที่ active แบบ One:one หรือ One:Many แต่ความสัมพันธ์แบบ Many:Many จะไม่สามารถทำได้

    2.1 สร้าง Column ใหม่

    2.2 ใส่ชื่อ Column Name และ Function RELATE(TABLE_NAME[COLUMN NAME]) แล้ว Enter หรือ Click เครื่องหมายถูกด้านหน้า ชื่อ column  ในตารางที่เราต้องการก็จะมี Column เพิ่มขึ้นมาอีก 1 Column ตามที่ต้องการ

    3. การใช้ IF ใน DAX
    IF(<logical_test>, <value_if_true>[, <value_if_false>])

    ตัวอย่าง
    สัญชาติ = IF(student[Nationality]==”T”,”ไทย”,”ต่างชาติ”)

    1. การใช้ Switch ใน DAX
      SWITCH(<expression>, <value>, <result>[, <value>, <result>]…[, <else>])  
    สถานะไม่ปกติ = SWITCH(student[STATUS_DESC],
    “ลาออก”,”ลาออก”,
    “ลาออก (พ้นสภาพฯ)”,
    “ลาออก”,”ลาออก(พ้นสภาพฯ)”,
    “ลาออก”,”ไม่มาลงทะเบียน”,
    “ไม่มาลงทะเบียน”,”ไม่มาลงทะเบียน (พ้นสภาพฯ)”,
    “ไม่มาลงทะเบียน”,”ไม่มาลงทะเบียน(พ้นสภาพฯ)”,
    “ไม่มาลงทะเบียน”,””)

    สังเกตุง่ายๆ เป็นการจับคู่ตัวเลขคี่เป็นค่าที่ต้องการแปลงค่า และตัวเลขคู่ที่คู่กันเป็นค่าที่ต้องการจะแปลงให้เป็น  และตัวสุดท้ายจะเป็นค่าที่ไม่ตรงกับค่าใดๆที่ได้ตรวจสอบไว้ข้างต้น

    Operations 

    ประกอบด้วย arithmetic, comparison, text concatenation, and logical

    Operator typeSymbol and use
    Parenthesis operator+ (addition)
    – (subtraction/
    sign)
    * (multiplication)
    / (division)
    ^ (exponentiation)
    Comparison operators= (equal to)
    > (greater than)
    < (less than)
    >= (greater than or equal to)
    <= (less than or equal to)
    <> (not equal to)
    Text concatenation operator& (concatenation)
    Logic operators&& (and)
    || (or)

    DAX Programming

    การเขียน Code แบบพื้นฐานดังนี้

    • ตัวแปร  VAR <name> = <expression>  

    เป็นการกำหนดตัวแปรที่จะใช้งาน

    VAR Number of students = DISTINCTCOUNT(students[student_id])  
    • Return

    ส่งค่าออกมาเมื่อมีการคำนวณในการค่า Measure

    total Student and Faculty =
    VAR Number of students = DISTINCTCOUNT(students[student_id])  
    VAR Number of faculty = DISTINCTCOUNT(students[fac_id])  
    VAR total = “มีนักศึกษาทั้งหมด” & Number of students & “คน ใน ” & Number of faculty & “ คณะ”

    RETURN    
    total 

    อ้างอิง

    https://docs.microsoft.com/en-us/dax/

  • ETL ต้องตรวจสอบอะไรบ้างเพื่อความมั่นใจในโอน ย้ายข้อมูล

    ETL (Extract, Transform, Load) ประโยชน์ที่สามารถนำไปประยุกต์ใช้

    1. รวบรวมและนำเสนอข้อมูลในรูปแบบประวัติการเปลี่ยนแปลงข้อมูลในมิติต่างๆ
    2. เป็นข้อมูลสนับสนุน Business Intelligence เพื่อการตัดสินใจ ไม่ว่าจะเป็นการ เพื่อเพิ่มหรือลดค่าใช้จ่าย หรือหาช่องทางใหม่ๆในการดำเนินกิจกรรมด้านต่างๆ
    3. เพื่อจำลองการเปลี่ยนแปลงข้อมูลขององค์กร เช่น ต้องการปรับเปลี่ยนโครงสร้างข้อมูล ตรวจสอบการเปลี่ยนแปลงข้อมูลก่อนการใช้งานจริงและเปรียบเทียบผลการเปลี่ยนแปลงข้อมูลเพื่อหาจุดที่มีความผิดพลาดหรือไม่ครบถ้วน
    4. เพื่อเป็นแหล่งข้อมูลทางเลือกให้กับผู้ใช้ข้อมูลในรูปแบบและสิทธิที่ต่างกันเพื่อปกป้องโครงสร้างข้อมูลหลักขององค์กร

    ============================

    ETL Tools ตอนนี้มีอยู่หลายค่ายหลายโปรแกรม ทั้งฟรีและขาย สามารถนำมาประยุกร์ใช้งานได้ ตัวอย่างเช่น

    • Microsoft SQL Server Integration Services (SSIS)
    • Oracle Data Integrator
    • Oracle Warehouse Builder
    • IBM – Infosphere Information Server
    • Pentaho Data Integration
    • Apache Nifi 
    • SAP – BusinessObjects Data Integrator
    • Sybase ETL

    ==========================

    ต้องตรวจสอบอะไรบ้างเมื่อท่านต้องทำ ETL

    1. Metadata Testing เป็นการทดสอบส่วนประกอบของข้อมูลพวกชนิดของข้อมูล ขนาดและเงื่อนไขต่างๆของข้อมูล
    2. Data Completeness Testing ความสมบูรณ์ของข้อมูลต้องสุ่มทดสอบข้อมูล เช่น คีย์ที่ใช้เชื่อมข้อมูลระหว่างตารางไม่ควรจะเป็น NULL
    3. Data Quality Testing คุณภาพของข้อมูล เช่นข้อมูลชื่อประเทศเดียวกันต้องสะกดเหมือนกันทั้งหมด การหาข้อมูลซ้ำซ่อนแบบไม่ปกติ
    4. Data Transformation Testing ดักจับ error ระหว่างการถ่ายโอนข้อมูล
    5. ETL Regression Testing ทดสอบเมื่อมีการเปลี่ยนแปลงกระบวนการในการทำ ETL
    6. Reference Data Testing การทดสอบกับข้อมูลที่เป็นสากลทั่วไปใช้กัน เช่น ชื่อ ตำบล อำเภอ จังหวัด ควรต้องตรงกันกับข้อมูลของราชการเท่านั้น
    7. Incremental ETL Testing เป็นการทดสอบโดยการค่อยๆเพิ่มกระบวนการถ่ายโอนข้อมูลเป็นขั้นๆเพื่อหาปัญหาของการถ่ายโอน
    8. ETL Integration Testing เป็นการทดสอบภาพรวมของการทำงานรวมกันของ module เงื่อนไขต่างๆในการถ่ายโอนข้อมูล
    9. ETL Performance Testing เป็นการประเมินเรื่องเวลาและปริมาณข้อมูลเพื่อจะได้ทราบถึงระยะเวลาการทำงานที่ควรจะเกิดขึ้นกับข้อมูลปริมาณที่ต้องการ

    Metadata Testing สิ่งที่ต้องตรวจสอบ

    1. Data Type ชนิดของข้อมูลระหว่าง Source และ Target 
    2. Data Length ความยาวของข้อมูลแบบต่างๆ เช่น String Char Varchar
    3. Index / Constraint ตรวจสอบว่ามีการกำหนดข้อจำกัด และดัชนีที่เหมาะสมบนตารางฐานข้อมูลตามข้อกำหนดที่ออกแบบได้ ตรวจสอบว่าคอลัมน์ที่ไม่สามารถเป็นค่าว่างมีข้อ จำกัด “NOT NULL” ตรวจสอบว่ามีการจัด Index หรือ Key ต่างๆครบถ้วนหรือไม่
    4. ช่วงของข้อมูล เช่น พ.ศ.ต้องมีช่วงประมาณไหน เพื่อหาความผิดปกติ ช่วงของวันที่ต่างๆ
    5. Build in Function ต่างๆรอบรับความต้องการที่จะดำเนินการหรือไม่ เช่น Oracle Build in funciton TO_DATE จะรองรับข้อมูลวันที่เป็น ค.ศ. เท่านั้น
    6. การตั้งชื่อที่สื่อได้ดีเป็นที่เข้าใจทั่วกัน
    7. เงือนไขหรือ logic การเพิ่ม Compute Column ที่เหมาะสม
    8. การแปลงข้อมูลไม่ควรเกิดจากหลายๆแหล่งเพราะจะทำให้การแก้ไขทำได้ลำบากมากขึ้น เช่น มีการสร้าง View มาหลายชั้นก่อนที่จะมาผ่านกระบวนการ ETL หรือเมื่อผ่านกระบวนการ ETL แล้วค่อยไปคำนวณหรือจัดการข้อมูลอีกขั้นตอนต่อๆไป 

    การตรวจสอบการเปลี่ยนแปลงของข้อมูลของการทำ ETL แต่ละรอบ

    1.Track changes ตรวจสอบ metadata ตามเวลาที่กำหนด ทั้ง Source และ Target และส่วนของการพ้ฒนา

    2.Compare table metadata ทั้ง Source และ Target และส่วนของการพ้ฒนา ชื่อของตารางและColumn  ขนาดของ Column

    3.Compare column data types

    4.ตรวจสอบ Look Up table ต่างๆว่าข้อมูล Update ให้เหมาะสมและครบถ้วนแล้วหรือไม่

    Data Completeness Testing

    1. Record Count Validation เป็นพื้นฐานคือนับจำนวน records ต้นทาง ปลายทาง โดยลอง Group by ข้อมูลแบบต่างๆและที่สำคัญตรวจสอบ Null Values ข้อมูลสำคัญๆ
    2. Column Data Profile Validation ค่าที่สามารถนำมาทดลองได้คือเปรียบเทีบย unique values, max, min, avg, max length, min length ค่าของ Column และ null values ของ Column
    1. เปรียบเทียบภาพร่วมของข้อมูลทั้งหมดของ Source และ Target เช่น การนับจำนวนตามกลุ่มที่เหมาะสม

    Data Quality tests ตรวจสอบคุณภาพของข้อมูล

    1. Duplicate Data Checks
    SELECT fst_name, lst_name, mid_name, date_of_birth, count(1) FROM Customer GROUP BY fst_name, lst_name, mid_name HAVING count(1)>1
    1. Data Validation Rules  ธรรมชาติของข้อมูลในแต่ละ Column ค่าควรเป็นอย่างไร เช่น ช่วงของข้อมูลอายุคนไม่ควรจะเกิด 120 เป็นต้น ช่วงของข้อมูลแบบวันที่ควรจะไม่เกินเท่าไรในแต่ละช่วงข้อมูล
    2. Data Integrity Checks
      1. นับค่า null ของ foreign key ในตารางลูก
      2. นับค่าที่ไม่มีของ foreign key ในตารางลูก

    ในส่วนหัวข้ออื่นๆจะเป็นส่วนการทดสอบที่ขึ้นอยู่กับเครื่องมือที่นำมาใช้งาน การทำงานจริงควรจะหาเครื่องมือที่มีประสิทธิภาพมาใช้งานเพราะจะช่วยประหยัดกำลังไปได้มาก แต่ผู้ดำเนินการควรจะรู้ว่าควรระวังหรือต้องตรวจสอบตรงส่วนไหนเพื่อให้งานออกมาอย่างมีประสิทธิภาพ

  • Big Data Framework

    ออกตัวไว้ก่อนนะครับบทความนี้เป็นการย่อความหรือถอดสาระสำคัญมาจาก หนังสือกรอบการวิเคราะห์ข้อมูลขนาดใหญ่ภาครัฐ ภายใต้การกำกับดูแลของ สำนักงานพัฒนารัฐบาลดิจิทัล (สพร.) ซึ่งจะนำเสนอในส่วนของการตั้งทีมเพื่อพัฒนา Big Data แนวทางการพัฒนาทั้งข้อมูลและกลุ่มคนที่จะดำเนินการพัฒนาระบบให้บริการข้อมูล เพื่อประยุกร์ใช้กับการนำข้อมูลไปประกอบการพัฒนามหาวิทยาลัยของเราในรูปแบบ (Data Driven Organization)

    ภาพที่ 1 กลุ่มเป้าหมายการพัฒนาบุคลากรด้านการใช้ประโยชน์ข้อมูลขนาดใหญ่

    1) กลุ่มผู้ใช้ข้อมูล (Business Domain) ได้แก่ ผู้บริหารระดับสูง ผู้อำนวยการกอง ผู้ทำงานด้านนโยบายและวิชาการ ผู้ทำงานด้านบริการ มีหน้าที่กำหนดโจทย์หรือประเด็น ที่ต้องการวิเคราะห์ข้อมูล และนำสารสนเทศที่เป็นผลจากการวิเคราะห์และนำเสนอข้อมูล มาใช้ประกอบการดำเนินงาน

    2) กลุ่มผู้วิเคราะห์ ประมวลและแสดงผลข้อมูล ได้แก่ นักวิทยาศาสตร์ข้อมูล (Data Scientist) นักวิเคราะห์ข้อมูล (Data Analyst) และนักนิทัศน์ข้อมูล (Data Visualizer) มีหน้าที่ในการนำข้อมูลมาจัดกลุ่ม วิเคราะห์และประมวลผล พร้อมทั้งพัฒนาภาพแบบ แสดงผลข้อมูลหรือ Dashboard สำหรับการนำเสนอข้อมูล

    3) กลุ่มผู้สร้างและพัฒนาระบบ ได้แก่ วิศวกรข้อมูล (Data Engineer) สถาปนิก ข้อมูล(Data Architect) นักวิเคราะห์ธุรกิจ(Business Analyst)ผู้จัดการโครงการ (Project Manager) และเจ้าหน้าที่เทคโนโลยีสารสนเทศด้านความปลอดภัยไซเบอร์ (Corporate Security IT Operator) มีหน้าที่ในการออกแบบและพัฒนาโครงสร้างพื้นฐานด้านข้อมูล รวมทั้งดูแลและบริหารจัดการข้อมูลให้อยู่ในสภาพที่พร้อมใช้งานอย่างต่อเนื่องและปลอดภัย

    นอกจากกรอบเรื่องของคนแล้วก็ยังมีกรอบเรื่องระยะเวลาด้วย

    ภาพที่ 2 กรอบระยะการดำเนินการ 3 ระยะ

    ระยะสั้น :  การพัฒนาแพลตฟอร์ม (Platform) เสริมสร้างทักษะที่เรียกว่า Sandbox สำหรับการพัฒนาบุคลากรในระยะสั้น เริ่มตั้งแต่การกำหนดโจทย์การพัฒนาโครงสร้าง และระบบข้อมูล การวิเคราะห์และประมวลผลข้อมูล การแสดงผลข้อมูลเชิงประจักษ์ ตลอดไปจนถึงการนำสารสนเทศและองค์ความรู้ที่ได้จากการวิเคราะห์และประมวลผลมาใช้ ประกอบการตัดสินใจและการดำเนินงานในรูปแบบต่างๆแพลตฟอร์มดังกล่าวเน้นการพัฒนา บุคลากรผ่านหลักสูตรที่นำรูปแบบการพัฒนาแบบการเรียนแบบใช้โครงงานเป็นฐาน (Project Based Learning) มาปรับใช้เพื่อให้ผู้เข้ารับการฝึกอบรมสามารถ “ทำได้ ทำเป็น” มากกว่า เรียนรู้จากทฤษฎีโดยการดำเนินงานร่วมกับหลักสูตรนักบริหารภาครัฐเพื่อการบูรณาการ การพัฒนาประเทศไทย ตามกรอบการปฏิรูปประเทศ ยุทธศาสตร์ชาติและการสร้าง ความสามัคคีปรองดอง (ป.ย.ป.) โดยมีหน่วยงานหลักที่เกี่ยวข้อง ได้แก่ กระทรวงดิจิทัล เพื่อเศรษฐกิจและสังคม (ดศ.)สำนักงานคณะกรรมการดิจิทัลเพื่อเศรษฐกิจและสังคมแห่งชาติ (สดช.) สำนักงานคณะกรรมการข้าราชการพลเรือน (สกพ.) สำนักงานพัฒนารัฐบาลดิจิทัล (องค์กรมหาชน) (สพร.)และสถาบันสถาบันส่งเสริมการวิเคราะห์และบริหารข้อมูลขนาดใหญ่ ภาครัฐ (GBDi) 

    ระยะกลาง : การวางแผนการบริหารจัดการกำลังคนเพื่อการใช้ประโยชน์ข้อมูล ขนาดใหญ่ที่มีความคล่องตัว สามารถสนับสนุนการพัฒนานโยบาย การตัดสินใจ การบริหาร จัดการ การให้บริการ และการพัฒนานวัตกรรมภาครัฐ มีกรอบการดำเนินงานดังนี้ 

    • วางระบบการบริหารจัดการกำลังคนแบ่งเป็น 3 กลุ่มหลัก ดังนี้
      1) กลุ่มหน่วยงานที่มีความพร้อมด้านบุคลากรที่สามารถดูแลบริหารจัดการระบบข้อมูลและมีบุคลากรที่มีความสามารถด้านการวิเคราะห์ประมวลและแสดงผลข้อมูล แต่ยังคงมีความต้องการการสนับสนุนเชิงเทคนิคหรือการดำเนินการในบางประการ

      2) กลุ่มหน่วยงานที่อยู่ระหว่างการพัฒนามีบุคลากรที่มีความเข้าใจและสามารถให้ข้อมูลความต้องการได้ชัดเจน       ระดับหนึ่ง ต้องการการสนับสนุนเชิงเทคนิคในการสร้างและพัฒนาระบบและการวิเคราะห์ ประมวลและแสดงผลข้อมูล

      3) กลุ่มหน่วยงานที่ขาดแคลนบุคลากรด้านข้อมูล แต่มีความจำเป็นต้องนำข้อมูลมาใช้ประโยชน์เพื่อการตัดสินใจ การกำหนดนโยบาย หรือการบริหารจัดการต่าง ๆ
    • นำบุคลากรที่มีทักษะและความเชี่ยวชาญเฉพาะทางจากหน่วยงานต่าง ๆ       มารวมไว้ภายในหน่วยงานเดียว เช่นพัฒนารูปแบบการทำงานในลักษณะเป็น “ทีมที่ปรึกษา” (Agile Team) เพื่อให้บริการหน่วยงานภาครัฐโดยอาจนำที่ปรึกษาภายนอกหรือหน่วยงานเอกชนมาร่วมดำเนินงานในรูปแบบต่าง ๆ หรือให้มีการพัฒนารูปแบบการจ้างงานใหม่นอกเหนือจาก “ข้าราชการ/พนักงานราชการ” เพื่อดึงดูด/จูงใจ และอาจมีการเพิ่ม “สายงานเฉพาะทาง” สำหรับผู้ปฏิบัติงานที่ต้องใช้องค์ความรู้เกี่ยวกับการวิเคราะห์ข้อมูล มีการดูแลความก้าวหน้าในอาชีพ มีการสร้างโอกาสการพัฒนาที่ต่อเนื่อง มีการให้ค่าตอบแทนที่เหมาะสม มีการปรับกรอบอัตรากำลังให้สอดคล้องกับลักษณะงานที่มีความซับซ้อนและความต้องการบุคลากรที่มีสมรรถนะสูงและมีความเป็นมืออาชีพ ทั้งนี้อาจมีการนำ       วุฒิบัตรหรือประกาศนียบัตรรับรองมาตรฐานหรือสมรรถนะด้านการวิเคราะห์ข้อมูลมาใช้ในการบริหารจัดการกำลังคนด้วย
    • พัฒนาขีดความสามารถของผู้ใช้ข้อมูลกลุ่มต่างๆได้แก่ผู้บริหารระดับสูงผู้อำนวยการกอง ผู้ทำงานด้านนโยบายและวิชาการ และผู้ทำงานด้านบริการให้สามารถกำหนดโจทย์หรือประเด็นที่ต้องการวิเคราะห์ข้อมูลและนำสารสนเทศที่เป็นผลจากการวิเคราะห์และนำเสนอข้อมูลมาใช้ประกอบการดำเนินงานได้อย่างเหมาะสม รวมทั้งยกระดับศักยภาพผู้ปฏิบัติงานด้านเทคโนโลยีสารสนเทศของหน่วยงาน โดยอย่างน้อยให้มีความสามารถในการกำกับควบคุมงานจ้างที่ปรึกษา (Project Management) และในการบริหารจัดการข้อมูลอย่างปลอดภัยและมีธรรมาภิบาล (Data Governance) 
    • นำกลไกการให้ทุนรัฐบาลมาใช้สนับสนุนการสร้างและพัฒนากำลังคนด้านการวิเคราะห์และใช้ประโยชน์ข้อมูลขนาดใหญ่ทั้งในระยะสั้นและระยะยาว
    • วางระบบการบริหารองค์ความรู้และเก็บรวบรวมข้อมูลการดำเนินงานเพื่อสร้างความต่อเนื่องในการดำเนินงาน

    ระยะยาว : การต่อยอดขยายผลโดยมีเป้าหมายเพื่อให้เกิดการแบ่งปันและสร้าง ประโยชน์ในทรัพยากรข้อมูลของทุกภาคส่วน เพื่อการพัฒนาต่อยอดการสร้างมูลค่าเพิ่ม ให้กับระบบเศรษฐกิจ สร้างความมั่นคงให้กับสังคม และสร้างการพัฒนาที่ยั่งยืน โดยเน้นส่งเสริมสนับสนุนการพัฒนาพันธมิตรธุรกิจระหว่างภาครัฐและเอกชน ทั้งภายในและ ระหว่างประเทศภายใต้เจตจำนงค์ร่วมกัน โดยร่วมสร้าง Open Government DataPlatform for Business and Citizen ให้ความรู้และสร้างภูมิคุ้มกันเพื่อให้ประชาชนมีความเข้าใจ ที่ถูกต้องเกี่ยวกับการดูแลความปลอดภัยของข้อมูลส่วนบุคคล และการนำข้อมูลเปิดภาครัฐ มาใช้เพื่อพัฒนาต่อยอดและสร้างมูลค่าเพิ่ม

    ภาพที่ 3 ขั้นตอนการทำโครงการบิ๊กดาต้า

    โดยรวมแล้ว Big Data จะเกิดมาได้จากโจทย์ที่ต้องการใช้ข้อมูลจากผู้บริหารหรือโจทย์ทางเป้าหมายขององค์กร แต่เท่าที่ได้ยิน รับรู้และประสบมาองค์กรเช่น มหาวิทยาลัยมีโจทย์หลายด้านไม่เหมือนภาคเอกชนที่โจทย์จะชัดเจนมากและถูกกำหนดมาโดยผู้บริหารอย่างชัดเจน ดังนั้นการที่จะเกิดการเอาข้อมูลมาใช้งานในองค์กรเพื่อการบริหารเช่น มหาวิทยาลัยนั้น อาจจะต้องอาศัยอีกทางเลือกนึ่งมาเสริมแรงเข้าไปคือ ผู้ที่เกี่ยวข้องกับข้อมูลโดยตรงฝึกมองข้อมูลที่มีอยู่ในมุมมองใหม่ๆ การเอาข้อมูลมาเปรียบเทียบให้หลากหลายแบบ จนเจอข้อมูลอะไรที่น่าสนใจ เรื่องมุมมองที่แตกต่างนี้ถ้าได้คุยกับคนหลากหลายอาชีพก็จะได้มุมมองที่กว้างขึ้นได้และจะช่วยเปิดแนวคิดในการดูข้อมูลแบบใหม่ๆขึ้นมาก็เป็นไปได้ อันนี้เป็นความคิดเห็นส่วนตัวของผมนะครับ

    ทั้งหมดนี้เป็นแนวทางโดยภาพรวมที่องค์กรพึ่งดำเนินการถ้าต้องการพัฒนาเป็นองค์กรที่ใช้ข้อมูลเพื่อการดำเนินงาน Data Driven Organization และต้องการมี Big Data เพื่อการพยากรณ์ความเป็นไปได้ในอนาคตและเพิ่มทางเลือกที่อาจจะซ่อนอยู่ในข้อมูลที่มีแต่ยังมองไม่เห็น ขอบคุณครับ