Data Scientist Essentials : Big Data Analytics Module C

You are here:

ชื่อหลักสูตร : Data Scientist Essentials : Big-Data-C

จำนวนวันที่อบรม : 5 วัน

จุดประสงค์หลักสูตร

– เข้าใจหลักการทำงานและพฤติกรรมของตัวแบบการเรียนรู้ของเครื่อง (Machine leaning model) ทั้งแบบมีผู้สอนและไม่มีผู้สอน
– สามารถเลือกใช้ตัวแบบการเรียนรู้ของเครื่องให้เหมาะสมกับงานได้
– สามารถเลือกใช้เครื่องมือที่เหมาะสมกับข้อมูลที่จะวิเคราะห์ได้ (ข้อมูลทั่วไป และ Big data)
– สามารถเตรียมข้อมูลให้เหมาะสมสำหรับการฝึกการเรียนรู้ของเครื่องได้
– สามารถตรวจหาจำนวนกลุ่มที่เหมาะสมและจัดกลุ่มลูกค้าตามพฤติกรรมที่เหมือนกันในแต่ละกลุ่มอย่างอัตโนมัติได้
– สามารถนำข้อมูลหลายรูปแบบมาช่วยสร้างตัวแบบเพื่อใช้ในการทำนายได้
– สามารถนำข้อมูลจากการใช้งานของผู้ใช้อื่นที่คล้ายกันมาช่วยแนะนำผู้ใช้งานได้

ข้อมูลที่ใช้เป็นกรณีศึกษา

– ข้อมูลการทำธุรกรรมของลูกค้าธนาคาร
– ข้อมูลทางสำมโนประชากรของลูกค้า
– ข้อมูลประวัติการเข้าใช้เว็บของลูกค้า
– ข้อมูลผู้ถือบัตรเครดิต
– ข้อมูลจริงจากแหล่งอื่นที่เกี่ยวข้องกับเรื่องที่อบรม เช่น

— ข้อมูลราคาหุ้นเพื่อใช้เป็นตัวอย่างการทำนายค่าแบบต่อเนื่อง
— ข้อมูลผู้ใช้ที่รีวิวสินค้าบนอินเทอร์เน็ตสำหรับใช้เป็นตัวอย่างในการวิเคราะห์
อารมณ์จากข้อความได้
— ข้อมูลการย้ายค่ายของบริษัทเทเลคอมมาใช้เป็นตัวอย่างเพื่อสร้างโมเดลทำนาย
การย้ายค่าย
— ข้อมูลจากความชื่นชอบภาพยนตร์มาใช้เป็นตัวอย่างสำหรับระบบแนะนำ
— ข้อมูลภาพถ่ายเพื่อเป็นตัวอย่าง deep leaning เป็นต้น

หมายเหตุ

ข้อมูลของลูกค้าเป็นข้อมูลจำลองเสมือนจริงไม่สามารถระบุตัวตนผู้ใช้ได้

เครื่องมือที่ใช้ในการวิเคราะห์ใช้ทั้งสองแบบคือเครื่องมือสำหรับข้อมูลทั่วไปและเครื่องมือสำหรับ Big data โดยเฉพาะ

หลักสูตรนี้เหมาะสำหรับ

ทีมงานด้าน Data Analytics

พื้นฐานของผู้เข้าอบรม :

ควรมีความรู้และทักษะในการเขียนโปรแกรมอย่างน้อย 1 ภาษา

ผู้สอน :

ดร.ไพรสันต์  ผดุงเวียง (Profile)

# ผู้เข้าอบรมต้องเตรียมคอมพิวเตอร์มาเอง

Course Outline

Day 1 / 5 ………………………..
…………………..
 
Time Title
09.00 – 10.30 น. Introduction to Data Science and Machine Learning
– Application of Machine Learning Techniques
–  Machine Learning in the Big Data era
–  Understanding Supervised and Unsupervised Learning Techniques
10.30 – 10.45 น. Break
10.45 – 12.00 น. Spark Machine Learning
–  Introduction Spark MLlib
–  Introduction to Spark ML Pipeline
–  Machine Learning using Spark ML Pipeline
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. Data Preprocessing
– Standardizing data
– Principal component analysis (PCA)
– Big Data Visualization and Tools
14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Customer data preprocessing and visualization on small and Big data
Day 2 / 5  
Time Title
09.00 – 10.30 น. Descriptive analytics
– Similarity and Distance
– Data segmentation (Clustering)
– Clustering model learning and model selection
– Results interpretation
10.30 – 10.45 น. Break
10.45 – 12.00 น. LAB: Customer segmentation based on their activities
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. – Anomaly/Outlier detection on multiple attributes
LAB: Customer anomaly detection and visualization
14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Customer anomaly detection and visualization (cont.)
Day 3 / 5  
Time Title
09.00 – 10.30 น. Predictive analytics
– Machine learning models for predicting categorical  values    
– Naïve Bayes    
– Logistic regression    
– Support Vector Machine    
– Decision tree    
– Neural network
10.30 – 10.45 น. Break
10.45 – 12.00 น. – Model evaluation and selection      
– Plain Accuracy and Its Problems      
– The Confusion Matrix      
– Problems with Unbalanced Classes      
– Problems with Unequal Costs and Benefits
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. LAB: Credit risk modeling
14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Customer churn prediction based on historical data
Day 4 / 5  
Time Title
09.00 – 10.30 น. Sentiment analysis on text data
– Text representation      
– Bag of Words      
– Binary representation      
– Term Frequency      
– TFIDF      
– N-gram Sequences
– Advance topics        
– Word to vector concept        
– Topic Models concept
10.30 – 10.45 น. Break
10.45 – 12.00 น. LAB: Machine leaning model for sentiment analysis using customer reviews data
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. Predictive analytics
– Machine learning models for predicting continuous values
– Linear regression
– Polynomial regression
– Neural network
– Effect of outlier data
– Model evaluation and selection
14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Predict continuous values on small dataset and big dataset (Stock prediction use case)
LAB: Machine learning model for missing values replacement
Day 5 / 5  
Time Title
09.00 – 10.30 น. Recommender system
– Association rules      
– Basic Setting      
– Metrics      
– Post processing and application
– Collaborative filtering for recommender system      
– User-based recommendation      
– Item-based recommendation      
– Model-based recommender system on big data
10.30 – 10.45 น. Break
10.45 – 12.00 น. LAB: Recommendation from customer transactions (Available data: Bank product, Web access log, Customer purchasing history) 
LAB: Model-based recommender system based on customer rating
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. Introduction to deep learning
– Deep learning model and application
14.30 – 14.45 น. Break
14.45 – 16.30 น. Introduction to deep learning (cont.)
– Deep learning model and application

Download กำหนดการ

หมายเหตุ

กำหนดการอาจมีการปรับเปลี่ยนตามความเหมาะสม

ทุกขั้นตอนที่ฝึกปฏิบัติจะมีตัวอย่างประกอบ พร้อมมีวิทยากรให้คำแนะนำตลอดการสัมมนาเชิงปฏิบัติการ

รายละเอียดเพิ่มเติม : ติดต่อสอบถามได้ที่ sales@rdbi.co.th หรือโทร. 064-798-4192