
สรุปการอบรมหลักสูตร Data Scientist Essentials ตอนที่ 1
วันที่จัดอบรม : วันที่ 14 -15, 21-22 และ 28-29 พฤศจิกายน 2562 ( จำนวน 6 วัน )
Introduction to Data Science and Machine Learning, Introduction to Hadoop, HDFS, YARN, MapReduce, Spark, Spark Platform, งานของนักวิทยาศาสตร์ข้อมูล, งานของนักวิศวกรข้อมูล สนใจอ่านรายละเอียดเพิ่มเติม
จุดประสงค์หลักสูตร
– เข้าใจหลักการทำงานและพฤติกรรมของตัวแบบการเรียนรู้ของเครื่อง (Machine leaning model) ทั้งแบบมีผู้สอนและไม่มีผู้สอน
– สามารถเลือกใช้ตัวแบบการเรียนรู้ของเครื่องให้เหมาะสมกับงานได้
– สามารถเลือกใช้เครื่องมือที่เหมาะสมกับข้อมูลที่จะวิเคราะห์ได้ (ข้อมูลทั่วไป และ Big data)
– สามารถเตรียมข้อมูลให้เหมาะสมสำหรับการฝึกการเรียนรู้ของเครื่องได้
– สามารถตรวจหาจำนวนกลุ่มที่เหมาะสมและจัดกลุ่มลูกค้าตามพฤติกรรมที่เหมือนกันในแต่ละกลุ่มอย่างอัตโนมัติได้
– สามารถนำข้อมูลหลายรูปแบบมาช่วยสร้างตัวแบบเพื่อใช้ในการทำนายได้
– สามารถนำข้อมูลจากการใช้งานของผู้ใช้อื่นที่คล้ายกันมาช่วยแนะนำผู้ใช้งานได้
Introduction to Data Science and Machine Learning
แนะนำทักษะที่จำเป็นของนักวิทยาศาสตร์ข้อมูล และตัวอย่าง Machine Learning แอพพลิเคชัน
Big Data คือ
Big Data คือ ข้อมูลที่มีโครงสร้าง (Structured data) ไม่มีโครงสร้าง (Unstructured data) และกึ่งมีโครงสร้าง ข้อมูลมีขนาดใหญ่ จำนวนเรคอร์ดเยอะมาก เรคอร์ดมากกว่า 1 ล้านเรคอร์ดต่อวัน และมีความซับซ้อนมาก ไม่สามารถจัดการข้อมูลเหล่านี้ได้ โดยใช้เครื่องคอมพิวเตอร์เครื่องเดียว ทั้งการจัดเก็บข้อมูล การประมวลผล การค้นหา และการวิเคราะห์
ตัวอย่างข้อมูลที่มีโครงสร้าง (Structured data) เช่น ข้อมูลที่อยู่ในรูปแบบตาราง ฐานข้อมูล ข้อมูลในระบบ ERP CRM
ตัวอย่างข้อมูลไม่มีโครงสร้าง (Unstructured data) เช่น ข้อความ (text file) รูปภาพ เสียง วีดีโอต่างๆ
ข้อมูลไม่มีโครงสร้าง จะจัดการยากกว่าข้อมูลแบบมีโครงสร้าง และต้องใช้ทักษะในการจัดการกับข้อมูลแบบไม่มีโครงสร้างมากกว่าแบบมีโครงสร้าง
การสร้างโมเดล Machine Learning แบบมีผู้สอน และแบบไม่มีผู้สอน แตกต่างกันตรงที่แบบมีผู้สอน จะต้องมีข้อมูลจริงและระบุสิ่งที่ต้องการทำนายไว้ก่อนล่วงหน้า และสร้างโมเดลขึ้นมาจากข้อมูลเหล่านั้น เช่น ถ้าต้องการทำนายรูปภาพแมวก็จะต้องมีรูปภาพแมวจำนวนมาก เพื่อมาใช้ในการสร้างโมเดล และระบุว่ารูปแต่ละรูปคือแมว แล้วรูปอื่นๆ ที่ไม่ใช่แมว จากนั้นเมื่อมีรูปภาพแมวใหม่ เข้ามาโมเดลจะสามารถทำนายได้ว่าใช่แมวหรือไม่ ส่วนโมเดลแบบไม่มีผู้สอน คือ ข้อมูลที่เรามีอยู่ไม่สามารถระบุ target ได้ จึงสร้างโมเดลแบบไม่มีผู้สอน เป็นต้น
การสร้างโมเดลที่ดี ควรแบ่งข้อมูลเป็น training set , test set เพื่อใช้สำหรับสร้างโมเดล และทดสอบโมเดล การแบ่ง training set, test set ควรเป็นการสุ่มข้อมูลขึ้นมาและสร้างโมเดล ไม่ควรใช้ข้อมูลทั้งหมดมาสร้างโมเดล เพราะจะทำให้เกิดการจดจำรูปแบบของข้อมูลมากเกินไป และมีผลทำให้โมเดลที่สร้างมาไม่สามารถพยากรณ์ได้จริง
Introduction to Hadoop
Hadoop เป็นซอฟต์แวร์ไลบารี่ที่ช่วยในการจัดการข้อมูลขนาดใหญ่ แบ่งข้อมูลเป็นคลัสเตอร์ย่อย
Hadoop Components (v. 2.x ขึ้นไป) ประกอบด้วย
– Hadoop Distributed File System: HDFS ช่วยในการแบ่งไฟล์ขนาดใหญ่ให้เป็นบล็อค ขนาดของบล็อคปกติมีค่าเท่ากับ 128 MB โดยปกติแบ่งออกเป็น 3 บล็อค มีการทำซ้ำและเก็บไว้หลายเครื่อง
– Yet Another Resource Negotiator: YARN ช่วยในการคำนวณ (Computation)
– MapReduce เป็นโปรแกรมมิ่งโมเดล และใช้สำหรับประมวลผล (processing) และก่อให้เกิด (generating) ชุดข้อมูลขนาดใหญ่ แบบขนานและมีอัลกอลิทึมที่ช่วยให้เกิดครัสเตอร์
– MapReduce Program ช่วยในการฟิลเตอร์ จัดเรียงข้อมูล และสรุปข้อมูล
– LAB: Hadoop as a service on cloud providers
ทีมวิทยากรของ R&D BI แนะนำวิธีสมัคร Google Cloud Platform และสร้าง Hadoop คลัสเตอร์บน Google DataProc
– Introduction to Python and Spark for big data analytics
Introduction to Python แนะนำพื้นฐานการเขียน python และแนะนำ python สำหรับ data science
The Spark Platform มีรายละเอียดดังภาพ
หากใช้ Spark platform ลักษณะงานของนักวิทยาศาสตร์ข้อมูล มีดังนี้
– งานหลัก คือ การวิเคราะห์และสร้างโมเดล ซึ่งควรจะมีประสบการณ์ในการเขียน SQL สถิติ โมเดลการพยากรณ์ และการเขียนโปรแกรม โดยใช้ python / Matlab หรือ R และจะต้องมีประสบการณ์ทางด้านเทคนิค ในการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปวิเคราะห์ข้อมูลได้
– Workflow ในการวิเคราะห์ข้อมูล การใช้งาน Spark Shell, Jupyter notebook, Zepperlin note book
ลักษณะงานของนักวิศวกรข้อมูล มีดังนี้
– งานหลัก คือ สร้าง production data processing applications
หลังจากนี้ อ.ไพรสันต์ อธิบายและแนะนำตาม Lab โดยเปิดดูไฟล์ Lab และอธิบายการเขียน Script python และ Spark
เรียบเรียงและเพิ่มเติมข้อมูลโดย คุณนุชนาฏ รงรอง
วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด