สรุปเนื้อหาในหลักสูตร Data Scientist Essentials ตอนที่ 1 แนะนำ Big Data, Machine Learning และ Hadoop เบื้องต้น

December 27, 2019

by Nuchanat Rongroang

DS1

วันที่จัดอบรม : วันที่ 14 -15, 21-22 และ 28-29 พฤศจิกายน 2562 ( จำนวน 6 วัน )
Introduction to Data Science and Machine Learning, Introduction to Hadoop, HDFS, YARN, MapReduce, Spark, Spark Platform, งานของนักวิทยาศาสตร์ข้อมูล, งานของนักวิศวกรข้อมูล สนใจอ่านรายละเอียดเพิ่มเติม

จุดประสงค์หลักสูตร

– เข้าใจหลักการทำงานและพฤติกรรมของตัวแบบการเรียนรู้ของเครื่อง (Machine leaning model) ทั้งแบบมีผู้สอนและไม่มีผู้สอน
– สามารถเลือกใช้ตัวแบบการเรียนรู้ของเครื่องให้เหมาะสมกับงานได้
– สามารถเลือกใช้เครื่องมือที่เหมาะสมกับข้อมูลที่จะวิเคราะห์ได้ (ข้อมูลทั่วไป และ Big data)
– สามารถเตรียมข้อมูลให้เหมาะสมสำหรับการฝึกการเรียนรู้ของเครื่องได้
– สามารถตรวจหาจำนวนกลุ่มที่เหมาะสมและจัดกลุ่มลูกค้าตามพฤติกรรมที่เหมือนกันในแต่ละกลุ่มอย่างอัตโนมัติได้
– สามารถนำข้อมูลหลายรูปแบบมาช่วยสร้างตัวแบบเพื่อใช้ในการทำนายได้
– สามารถนำข้อมูลจากการใช้งานของผู้ใช้อื่นที่คล้ายกันมาช่วยแนะนำผู้ใช้งานได้

Introduction to Data Science and Machine Learning

แนะนำทักษะที่จำเป็นของนักวิทยาศาสตร์ข้อมูล และตัวอย่าง Machine Learning แอพพลิเคชัน

Big Data คือ

ข้อมูลที่มีโครงสร้าง (Structured data) ไม่มีโครงสร้าง (Unstructured data) และกึ่งมีโครงสร้าง ข้อมูลมีขนาดใหญ่ จำนวนเรคอร์ดเยอะมาก เรคอร์ดมากกว่า 1 ล้านเรคอร์ดต่อวัน และมีความซับซ้อนมาก ไม่สามารถจัดการข้อมูลเหล่านี้ได้ โดยใช้เครื่องคอมพิวเตอร์เครื่องเดียว ทั้งการจัดเก็บข้อมูล การประมวลผล การค้นหา และการวิเคราะห์

ตัวอย่างข้อมูลที่มีโครงสร้าง (Structured data) เช่น ข้อมูลที่อยู่ในรูปแบบตาราง ฐานข้อมูล ข้อมูลในระบบ ERP CRM

ตัวอย่างข้อมูลไม่มีโครงสร้าง (Unstructured data) เช่น ข้อความ (text file) รูปภาพ เสียง วีดีโอต่างๆ

ข้อมูลไม่มีโครงสร้าง จะจัดการยากกว่าข้อมูลแบบมีโครงสร้าง และต้องใช้ทักษะในการจัดการกับข้อมูลแบบไม่มีโครงสร้างมากกว่าแบบมีโครงสร้าง

การสร้างโมเดล Machine Learning แบบมีผู้สอน และแบบไม่มีผู้สอน แตกต่างกันตรงที่แบบมีผู้สอน จะต้องมีข้อมูลจริงและระบุสิ่งที่ต้องการทำนายไว้ก่อนล่วงหน้า และสร้างโมเดลขึ้นมาจากข้อมูลเหล่านั้น เช่น ถ้าต้องการทำนายรูปภาพแมวก็จะต้องมีรูปภาพแมวจำนวนมาก เพื่อมาใช้ในการสร้างโมเดล และระบุว่ารูปแต่ละรูปคือแมว แล้วรูปอื่นๆ ที่ไม่ใช่แมว จากนั้นเมื่อมีรูปภาพแมวใหม่ เข้ามาโมเดลจะสามารถทำนายได้ว่าใช่แมวหรือไม่ ส่วนโมเดลแบบไม่มีผู้สอน คือ ข้อมูลที่เรามีอยู่ไม่สามารถระบุ target ได้ จึงสร้างโมเดลแบบไม่มีผู้สอน เป็นต้น

การสร้างโมเดลที่ดี ควรแบ่งข้อมูลเป็น training set , test set เพื่อใช้สำหรับสร้างโมเดล และทดสอบโมเดล การแบ่ง training set, test set ควรเป็นการสุ่มข้อมูลขึ้นมาและสร้างโมเดล ไม่ควรใช้ข้อมูลทั้งหมดมาสร้างโมเดล เพราะจะทำให้เกิดการจดจำรูปแบบของข้อมูลมากเกินไป และมีผลทำให้โมเดลที่สร้างมาไม่สามารถพยากรณ์ได้จริง

Introduction to Hadoop

Hadoop เป็นซอฟต์แวร์ไลบารี่ที่ช่วยในการจัดการข้อมูลขนาดใหญ่ แบ่งข้อมูลเป็นคลัสเตอร์ย่อย

Hadoop Components (v. 2.x ขึ้นไป) ประกอบด้วย

– Hadoop Distributed File System: HDFS ช่วยในการแบ่งไฟล์ขนาดใหญ่ให้เป็นบล็อค ขนาดของบล็อคปกติมีค่าเท่ากับ 128 MB โดยปกติแบ่งออกเป็น 3 บล็อค มีการทำซ้ำและเก็บไว้หลายเครื่อง

– Yet Another Resource Negotiator: YARN ช่วยในการคำนวณ (Computation)

– MapReduce เป็นโปรแกรมมิ่งโมเดล และใช้สำหรับประมวลผล (processing) และก่อให้เกิด (generating) ชุดข้อมูลขนาดใหญ่ แบบขนานและมีอัลกอลิทึมที่ช่วยให้เกิดครัสเตอร์

– MapReduce Program ช่วยในการฟิลเตอร์ จัดเรียงข้อมูล และสรุปข้อมูล

– LAB: Hadoop as a service on cloud providers

ทีมวิทยากรของ R&D BI แนะนำวิธีสมัคร Google Cloud Platform และสร้าง Hadoop คลัสเตอร์บน Google DataProc

– Introduction to Python and Spark for big data analytics

Introduction to Python แนะนำพื้นฐานการเขียน python และแนะนำ python สำหรับ data science

The Spark Platform มีรายละเอียดดังภาพ

หากใช้ Spark platform ลักษณะงานของนักวิทยาศาสตร์ข้อมูล มีดังนี้

– งานหลัก คือ การวิเคราะห์และสร้างโมเดล ซึ่งควรจะมีประสบการณ์ในการเขียน SQL สถิติ โมเดลการพยากรณ์ และการเขียนโปรแกรม โดยใช้ python / Matlab หรือ R และจะต้องมีประสบการณ์ทางด้านเทคนิค ในการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปวิเคราะห์ข้อมูลได้

– Workflow ในการวิเคราะห์ข้อมูล การใช้งาน Spark Shell, Jupyter notebook, Zepperlin note book

ลักษณะงานของนักวิศวกรข้อมูล มีดังนี้

– งานหลัก คือ สร้าง production data processing applications

หลังจากนี้ อ.ไพรสันต์ อธิบายและแนะนำตาม Lab โดยเปิดดูไฟล์ Lab และอธิบายการเขียน Script python และ Spark

เรียบเรียงและเพิ่มเติมข้อมูลโดย คุณนุชนาฏ รงรอง
วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด

รวมบทความ Big Data Analytics
วมบทความ Data Science Essential

ต้องการสอบถามข้อมูลเพิ่มเติม สามารถติดต่อได้ที่ https://rdbi.co.th/contact/
สอบถามเพิ่มเติมที่เพจ http://bit.ly/rdbipage
Line official Account : @rdbi
อีเมล์ sales@rdbi.co.th

Share this post:
Facebook
Twitter
LinkedIn
WhatsApp

Discover more articles