ชื่อหลักสูตร : Data Scientist Essentials : Big-Data-C
จำนวนวันที่อบรม : 5 วัน
จุดประสงค์หลักสูตร
– เข้าใจหลักการทำงานและพฤติกรรมของตัวแบบการเรียนรู้ของเครื่อง
(Machine leaning model) ทั้งแบบมีผู้สอนและไม่มีผู้สอน
– สามารถเลือกใช้ตัวแบบการเรียนรู้ของเครื่องให้เหมาะสมกับงานได้
– สามารถเลือกใช้เครื่องมือที่เหมาะสมกับข้อมูลที่จะวิเคราะห์ได้
(ข้อมูลทั่วไป และ Big data)
– สามารถเตรียมข้อมูลให้เหมาะสมสำหรับการฝึกการเรียนรู้ของเครื่องได้
– สามารถตรวจหาจำนวนกลุ่มที่เหมาะสมและจัดกลุ่มลูกค้าตามพฤติกรรมที่เหมือนกันในแต่ละกลุ่มอย่างอัตโนมัติได้
– สามารถนำข้อมูลหลายรูปแบบมาช่วยสร้างตัวแบบเพื่อใช้ในการทำนายได้
– สามารถนำข้อมูลจากการใช้งานของผู้ใช้อื่นที่คล้ายกันมาช่วยแนะนำผู้ใช้งานได้
ข้อมูลที่ใช้เป็นกรณีศึกษา
– ข้อมูลการทำธุรกรรมของลูกค้าธนาคาร
– ข้อมูลทางสำมโนประชากรของลูกค้า
– ข้อมูลประวัติการเข้าใช้เว็บของลูกค้า
– ข้อมูลผู้ถือบัตรเครดิต
– ข้อมูลจริงจากแหล่งอื่นที่เกี่ยวข้องกับเรื่องที่อบรม เช่น
— ข้อมูลราคาหุ้นเพื่อใช้เป็นตัวอย่างการทำนายค่าแบบต่อเนื่อง
— ข้อมูลผู้ใช้ที่รีวิวสินค้าบนอินเทอร์เน็ตสำหรับใช้เป็นตัวอย่างในการวิเคราะห์
อารมณ์จากข้อความได้
— ข้อมูลการย้ายค่ายของบริษัทเทเลคอมมาใช้เป็นตัวอย่างเพื่อสร้างโมเดลทำนาย
การย้ายค่าย
— ข้อมูลจากความชื่นชอบภาพยนตร์มาใช้เป็นตัวอย่างสำหรับระบบแนะนำ
— ข้อมูลภาพถ่ายเพื่อเป็นตัวอย่าง deep leaning เป็นต้น
หมายเหตุ
ข้อมูลของลูกค้าเป็นข้อมูลจำลองเสมือนจริงไม่สามารถระบุตัวตนผู้ใช้ได้
เครื่องมือที่ใช้ในการวิเคราะห์ใช้ทั้งสองแบบคือเครื่องมือสำหรับข้อมูลทั่วไปและเครื่องมือสำหรับ Big data โดยเฉพาะ
หลักสูตรนี้เหมาะสำหรับ
ทีมงานด้าน Data Analytics
พื้นฐานของผู้เข้าอบรม :
ควรมีความรู้และทักษะในการเขียนโปรแกรมอย่างน้อย 1 ภาษา
ผู้สอน :
ดร.ไพรสันต์ ผดุงเวียง (Profile)
# ผู้เข้าอบรมต้องเตรียมคอมพิวเตอร์มาเอง
Course Outline
Day 1 / 5 ……………………….. ………………….. | |
Time | Title |
09.00 – 10.30 น. | Introduction to Data Science and Machine Learning – Application of Machine Learning Techniques – Machine Learning in the Big Data era – Understanding Supervised and Unsupervised Learning Techniques |
10.30 – 10.45 น. | Break |
10.45 – 12.00 น. | Spark Machine Learning – Introduction Spark MLlib – Introduction to Spark ML Pipeline – Machine Learning using Spark ML Pipeline |
12.00 – 13.00 น. | Lunch |
13.00 – 14.30 น. | Data Preprocessing – Standardizing data – Principal component analysis (PCA) – Big Data Visualization and Tools |
14.30 – 14.45 น. | Break |
14.45 – 16.30 น. | LAB: Customer data preprocessing and visualization on small and Big data |
Day 2 / 5 | |
Time | Title |
09.00 – 10.30 น. | Descriptive analytics – Similarity and Distance – Data segmentation (Clustering) – Clustering model learning and model selection – Results interpretation |
10.30 – 10.45 น. | Break |
10.45 – 12.00 น. | LAB: Customer segmentation based on their activities |
12.00 – 13.00 น. | Lunch |
13.00 – 14.30 น. | – Anomaly/Outlier detection on multiple attributes LAB: Customer anomaly detection and visualization |
14.30 – 14.45 น. | Break |
14.45 – 16.30 น. | LAB: Customer anomaly detection and visualization (cont.) |
Day 3 / 5 | |
Time | Title |
09.00 – 10.30 น. | Predictive analytics – Machine learning models for predicting categorical values – Naïve Bayes – Logistic regression – Support Vector Machine – Decision tree – Neural network |
10.30 – 10.45 น. | Break |
10.45 – 12.00 น. | – Model evaluation and selection – Plain Accuracy and Its Problems – The Confusion Matrix – Problems with Unbalanced Classes – Problems with Unequal Costs and Benefits |
12.00 – 13.00 น. | Lunch |
13.00 – 14.30 น. | LAB: Credit risk modeling |
14.30 – 14.45 น. | Break |
14.45 – 16.30 น. | LAB: Customer churn prediction based on historical data |
Day 4 / 5 | |
Time | Title |
09.00 – 10.30 น. | Sentiment analysis on text data – Text representation – Bag of Words – Binary representation – Term Frequency – TFIDF – N-gram Sequences – Advance topics – Word to vector concept – Topic Models concept |
10.30 – 10.45 น. | Break |
10.45 – 12.00 น. | LAB: Machine leaning model for sentiment analysis using customer reviews data |
12.00 – 13.00 น. | Lunch |
13.00 – 14.30 น. | Predictive analytics – Machine learning models for predicting continuous values – Linear regression – Polynomial regression – Neural network – Effect of outlier data – Model evaluation and selection |
14.30 – 14.45 น. | Break |
14.45 – 16.30 น. | LAB: Predict continuous values on small dataset and big dataset (Stock prediction use case) LAB: Machine learning model for missing values replacement |
Day 5 / 5 | |
Time | Title |
09.00 – 10.30 น. | Recommender system – Association rules – Basic Setting – Metrics – Post processing and application – Collaborative filtering for recommender system – User-based recommendation – Item-based recommendation – Model-based recommender system on big data |
10.30 – 10.45 น. | Break |
10.45 – 12.00 น. | LAB: Recommendation from customer transactions (Available data: Bank product, Web access log, Customer purchasing history) LAB: Model-based recommender system based on customer rating |
12.00 – 13.00 น. | Lunch |
13.00 – 14.30 น. | Introduction to deep learning – Deep learning model and application |
14.30 – 14.45 น. | Break |
14.45 – 16.30 น. | Introduction to deep learning (cont.) – Deep learning model and application |
หมายเหตุ
กำหนดการอาจมีการปรับเปลี่ยนตามความเหมาะสม
ทุกขั้นตอนที่ฝึกปฏิบัติจะมีตัวอย่างประกอบ พร้อมมีวิทยากรให้คำแนะนำตลอดการสัมมนาเชิงปฏิบัติการ
รายละเอียดเพิ่มเติม : ติดต่อสอบถามได้ที่ sales@rdbi.co.th หรือโทร. 064-798-4192