หลักสูตร Data Mining Essential with RapidMiner Studio 9
วันที่ 4-7 เมษายน 2562
ณ อาคาร KX (BTS วงเวียนใหญ่)
ดำเนินการสอนโดย ผศ.ดร.โษฑศ์รัตต ธรรมบุษดี (อ.โอม) มหาวิทยาลัยมหิดล และ RapidMiner Certified Analyst
ในยุคที่ข้อมูลมีความสำคัญ
มีความหลากหลาย มีจำนวนมาก
องค์กรต้องการการวิเคราะห์ข้อมูลที่สามารถนำไปต่อยอดในเชิงธุรกิจ อุตสาหกรรม
หรืองานวิจัยได้อย่างมีคุณค่า จึงทำให้ Data
Scienceหรือวิทยาการข้อมูล
เป็นสาขาที่ได้รับความสนใจในหลากหลายภาคส่วน และ Data Mining หรือการทำเหมืองข้อมูลก็ถือว่าเป็นทักษะสำคัญที่ Data Scientist จำเป็นต้องมี
ในหลักสูตรนี้จะปูพื้นฐานให้ผู้อบรมได้เห็นภาพรวมของ
Data Science และการวิเคราะห์ข้อมูลในมุมมองของการทำ
Data Mining ด้วยโปรแกรม RapidMiner Studio โดยจะเรียนนรู้ตั้งแต่การเข้าใจกระบวนการทางธุรกิจในกรณีศึกษาที่ยกมา
การนำเข้าข้อมูล การรวมข้อมูลจากหลายแหล่งข้อมูล การคัดเลือกและแปลงข้อมูล
การใช้เทคนิค Data Mining และ Machine Learning ในการทำ Predictive Modeling เพื่อการทำนายผลลัพธ์ที่คาดว่าจะเกิดขึ้นในอนาคต
การทำ Classification และ Regression การแบ่งกลุ่มข้อมูลโดยวิธี
Clustering การหาความสัมพันธ์ของข้อมูลด้วยวิธี Association
Rules การวิเคราะห์ข้อมูลที่ผิดปกติโดยวิธี Outlier Analysis
ไปจนถึงการวิเคราะห์ข้อมูลที่เป็นข้อความและเว็บเพจด้วยกระบวนการ Text
Mining และ Web Mining โดยทั้งหมดนี้
ผู้อบรมไม่จำเป็นต้องเขียนโค้ดโปรแกรมสักบรรทัด เพราะเราเชื่อว่า Mindset ของการวิเคราะห์ข้อมูล สร้างยากและสำคัญกว่า Mindsetในการเขียนโปรแกรม
เนื้อหาหลักสูตร
วันที่ |
เวลา |
หัวข้อ |
4 เมษายน 2562 |
09.00-10.00 |
Data Science Essential, Machine Learning and Data Mining Process |
10.00-10.30 |
Introduction to
RapidMiner Studio |
|
10.30-10.45 |
Break |
|
10.45-11.00 |
Data and Data Format |
|
11.00-12.00 |
Data Exploration and
Visualization |
|
12.00-13.00 |
Lunch |
|
13.00-14.30 |
Data Blending and
Transformation |
|
14.30-14.45 |
Break |
|
14.45-16.00 |
Data Quality
Essentials: Basic and Intermediate ETL |
|
5 เมษายน 2562 |
09.00-10.30 |
Machine Learning and Basic
Classification Technique: Decision Tree, Naïve Bayes, k-Nearest Neighbors |
10.30-10.45 |
Break |
|
10.30-11.00 |
Regression Methods |
|
11.00-12.00 |
Classification
Evaluation: Confusion Matrix, ROC Curve, and Cost Matrix |
|
12.00-13.00 |
Lunch |
|
13.00-14.30 |
Advanced Data
Analytics Control Flows Ensemble method and
model integration |
|
14.30-14.45 |
Break |
|
14.45-16.00 |
Advanced
Machine Learning: Neural Network, Random Forest,
Gradient Boosted Tree and Hyper parameter Tuning |
|
6 เมษายน 2562 |
09.00-10.00 |
Predictive Modeling
Operationalization |
10.00-10.30 |
Clustering Methods |
|
10.30-10.45 |
Break |
|
10.30-11.00 |
Advanced Clustering
Process |
|
11.00-12.00 |
Association Rules
Discovery |
|
12.00-13.00 |
Lunch |
|
13.00-14.30 |
Feature Subset
Selection / Missing Values Imputation / Principal
Components Analysis |
|
14.30-14.45 |
Break |
|
14.45-16.00 |
Outlier Analysis |
|
7 เมษายน 2562 |
09.00-09.30 |
Advanced ETL Process |
10.30-10.45 |
Break |
|
10.45-12.00 |
Advanced Data
Analytics Process |
|
12.00-13.00 |
Lunch |
|
13.00-13.30 |
Introduction to Text
Mining and Web Mining |
|
13.30-14.30 |
Text Classification
Use Cases |
|
14.30-14.45 |
Break |
|
14.45-16.00 |
Web Mining Use Cases |