ขั้นตอนการทำงาน (Workflow)
หลักฐานลำดับงานแบบ Before -> After และสถิติที่ตรวจสอบย้อนกลับได้
Workflow Evidence: Before -> After
Step 1
Ingest Raw Dataโหลดข้อมูลดิบ บันทึก schema, primary key และ baseline quality metrics
Step 2
Data Quality Checksตรวจ completeness, id format, duplicate, outlier และโดเมนค่าที่ถูกต้อง
Step 3
Cleaning & Standardizationแปลงชนิดข้อมูล, parse วันที่, มาตรฐานโค้ด, ลบซ้ำ, จัดการ missing/outlier
Step 4
EDA & Insightสรุปตามประเทศ/หมวด/เวลา, correlation matrix และ insight เชิงตัดสินใจ
Step 5
Prepare Artifactsสร้างไฟล์ส่งออกสำหรับ dashboard, data dictionary และไฟล์หลักฐานการประเมิน
ก่อนทำความสะอาด
จำนวนแถว: 176,750
Duplicate (business key): 1.26%
Missing Key สูงสุด:
- record_id: 0.0%
- prov: 0.123%
- adate: 0.0%
- hdate: 0.0%
- cause: 0.0%
- injby: 0.188%
หลังทำความสะอาด
จำนวนแถว: 173,983
Duplicate (business key): 0.0%
Missing Key สูงสุด:
- record_id: 0.0%
- prov: 0.0%
- adate: 0.0%
- hdate: 0.0%
- cause: 0.0%
- injby: 0.0%
ผลการทำความสะอาดและปรับมาตรฐาน
Rows dropped (missing key): 549
Exact duplicates removed: 0
Business-key duplicates removed: 2218
ขั้นตอนที่ดำเนินการ:
- ตัดช่องว่างและปรับค่า text สำคัญเป็นค่าว่างมาตรฐาน
- แปลงคอลัมน์วันที่หลัก (adate, hdate) เป็น datetime (day-first locale)
- ปรับชนิดข้อมูลคอลัมน์เชิงตัวเลขด้วย pd.to_numeric
- มาตรฐานรหัสอำเภอ aampur ให้เป็น 2 หลัก
- สร้างฟิลด์คำนวณ time_to_hospital_min (นาที)
- ลบแถวซ้ำทั้งแบบ exact และ business key พร้อมรายงานก่อน-หลัง
- จัดการ outlier ด้วย IQR capping ในคอลัมน์ตัวเลขหลัก
Timeline การทำงาน
| # | ขั้นตอน | เวลา (วินาที) | เสร็จเมื่อ |
|---|---|---|---|
| 1 | Step 1: Ingest Raw Data | 2.007 | 2026-05-18T14:03:38 |
| 2 | Step 2: Capture Schema & Baseline Metadata | 0.233 | 2026-05-18T14:03:38 |
| 3 | Step 3: Data Quality Checks (Before) | 1.178 | 2026-05-18T14:03:39 |
| 4 | Step 4: Cleaning & Standardization | 6.698 | 2026-05-18T14:03:46 |
| 5 | Step 5: Data Quality Checks (After) | 1.207 | 2026-05-18T14:03:47 |
| 6 | Step 6: EDA & Insight Extraction | 0.841 | 2026-05-18T14:03:48 |
| 7 | Step 7: Build What-So What-Now What | 0.042 | 2026-05-18T14:03:48 |
| 8 | Step 8: Prepare Dashboard Data | 0.822 | 2026-05-18T14:03:49 |
| 9 | Step 9: Build Data Dictionary | 0.456 | 2026-05-18T14:03:50 |
| 10 | Step 10: Create Sample Data (1,000 rows) | 0.107 | 2026-05-18T14:03:50 |
| 11 | Step 11: Export Artifacts | 4.219 | 2026-05-18T14:03:54 |