ขั้นตอนการสร้างโมเดล สำหรับนักวิทยาศาสตร์ข้อมูล

Datascientist

สรุปการฝึกอบรมหลักสูตร Data Scientist Essentials (ตอนที่ 3) :
อธิบายขั้นตอนการสร้างโมเดลสำหรับนักวิทยาศาสตร์ข้อมูล 1) ทำความเข้าใจข้อมูล (Data Understanding) 2) การเตรียมข้อมูล (Data Preprocessing) 3) การสร้างโมเดลและการประเมินโมเดล (Model Training and Model Evaluation) สนใจอ่านรายละเอียดเพิ่มเติม

ขั้นตอนการสร้างโมเดล สำหรับนักวิทยาศาสตร์ข้อมูล

1. ทำความเข้าใจข้อมูล (Data Understanding)

อธิบายตัวอย่างข้อมูลที่เหมาะสมสำหรับสร้างโมเดล ประเภทของข้อมูล และแสดงผลข้อมูลในรูปแบบของกราฟ

2.การเตรียมข้อมูล (Data Preprocessing)

การเตรียมข้อมูลให้พร้อมสำหรับทำ Model โดยทำ Data Cleansing การจัดการกับข้อมูลที่ขาดหายไป และมีการจัดการกับข้อมูลที่ผิดปกติ (Outlier)

การจัดการกับข้อมูลเพื่อให้สามารถนำไปวิเคราะห์ได้ เช่น การแปลงข้อมูลแบบ Nominal โดยการนับ

การแปลงข้อมูลตัวเลขแบบต่อเนื่องให้เป็นแบบ Ordinal แบ่งข้อมูลเป็นช่วงๆ ช่วงที่เท่ากัน หรือนับความถี่ของแต่ละช่วง

ข้อมูลบางอย่าง อาจจะต้องมีการปรับ scale ข้อมูลให้อยู่ในช่วงที่เราต้องการ เช่น [0, 1] หรือ [-1, +1]

ประโยชน์ของการปรับ scale ข้อมูลทำให้สร้างโมเดลได้เร็วขึ้น และทำให้ตัวแปรแต่ละตัวมีความสำคัญเท่ากัน

3.การสร้างโมเดลและการประเมินโมเดล (Model Training and Model Evaluation)

การสร้างโมเดล Machine Learning แบบมีผู้สอน และแบบไม่มีผู้สอน แตกต่างกันตรงที่แบบมีผู้สอน จะต้องมีข้อมูลจริงและระบุสิ่งที่ต้องการทำนายไว้ก่อนล่วงหน้า และสร้างโมเดลขึ้นมาจากข้อมูลเหล่านั้น เช่น ถ้าต้องการทำนายรูปภาพแมวก็จะต้องมีรูปภาพแมวจำนวนมาก เพื่อมาใช้ในการสร้างโมเดล และระบุว่ารูปแต่ละรูปคือแมว แล้วรูปอื่นๆ ที่ไม่ใช่แมว จากนั้นเมื่อมีรูปภาพแมวใหม่ เข้ามาโมเดลจะสามารถทำนายได้ว่าใช่แมวหรือไม่ ส่วนโมเดลแบบไม่มีผู้สอน คือ ข้อมูลที่เรามีอยู่ไม่สามารถระบุ target ได้ จึงสร้างโมเดลแบบไม่มีผู้สอน เป็นต้น

การสร้างโมเดลที่ดี ควรแบ่งข้อมูลเป็น training set , test set เพื่อใช้สำหรับสร้างโมเดล และทดสอบโมเดล การแบ่ง training set, test set ควรเป็นการสุ่มข้อมูลขึ้นมาและสร้างโมเดล ไม่ควรใช้ข้อมูลทั้งหมดมาสร้างโมเดล เพราะจะทำให้เกิดการจดจำรูปแบบของข้อมูลมากเกินไป และมีผลทำให้โมเดลที่สร้างมาไม่สามารถพยากรณ์ได้จริง

การสร้างโมเดลมี 2 แบบหลักๆ ถ้าข้อมูลแบบไม่มี target จะใช้เทคนิคแบบไม่มีผู้สอน (Unsupervised Machine Learning) และถ้ามี target จะใช้เทคนิคแบบมีผู้สอน (Supervised Machine Learning)

การสร้างโมเดลมีหลายเทคนิค อ.ไพรสันต์เลือกบางเทคนิคมาสอนพร้อมแนะนำโดยใช้ excel, weka, python และ spark เพื่อให้ทราบวิธีการในการสร้างโมเดลจากหลากหลาย software เพื่อให้เห็นภาพขั้นตอนการวิเคราะห์ข้อมูลอย่างชัดเจน

วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด
เรียบเรียงโดย Nuchanat Rongroang
www.rdbi.co.th
#Consultants
#Data Scientist
#Big Data Analytics