ขั้นตอนการทำงาน (Workflow)
หลักฐานลำดับงานแบบ Before -> After และสถิติที่ตรวจสอบย้อนกลับได้
Workflow Evidence: Before -> After
Step 1
Ingest Raw Dataโหลดข้อมูลดิบ บันทึก schema, primary key และ baseline quality metrics
Step 2
Data Quality Checksตรวจ completeness, id format, duplicate, outlier และโดเมนค่าที่ถูกต้อง
Step 3
Cleaning & Standardizationแปลงชนิดข้อมูล, parse วันที่, มาตรฐานโค้ด, ลบซ้ำ, จัดการ missing/outlier
Step 4
EDA & Insightสรุปตามประเทศ/หมวด/เวลา, correlation matrix และ insight เชิงตัดสินใจ
Step 5
Prepare Artifactsสร้างไฟล์ส่งออกสำหรับ dashboard, data dictionary และไฟล์หลักฐานการประเมิน
ก่อนทำความสะอาด
จำนวนแถว: 176,750
Duplicate (business key): 1.26%
Missing Key สูงสุด:
- record_id: 0.0%
- prov: 0.123%
- adate: 0.0%
- hdate: 0.0%
- cause: 0.0%
- injby: 0.188%
หลังทำความสะอาด
จำนวนแถว: 173,983
Duplicate (business key): 0.0%
Missing Key สูงสุด:
- record_id: 0.0%
- prov: 0.0%
- adate: 0.0%
- hdate: 0.0%
- cause: 0.0%
- injby: 0.0%
ผลการทำความสะอาดและปรับมาตรฐาน
Rows dropped (missing key): 549
Exact duplicates removed: 0
Business-key duplicates removed: 2218
ขั้นตอนที่ดำเนินการ:
- ตัดช่องว่างและปรับค่า text สำคัญเป็นค่าว่างมาตรฐาน
- แปลงคอลัมน์วันที่หลัก (adate, hdate) เป็น datetime (day-first locale)
- ปรับชนิดข้อมูลคอลัมน์เชิงตัวเลขด้วย pd.to_numeric
- มาตรฐานรหัสอำเภอ aampur ให้เป็น 2 หลัก
- สร้างฟิลด์คำนวณ time_to_hospital_min (นาที)
- ลบแถวซ้ำทั้งแบบ exact และ business key พร้อมรายงานก่อน-หลัง
- จัดการ outlier ด้วย IQR capping ในคอลัมน์ตัวเลขหลัก
Timeline การทำงาน
| # | ขั้นตอน | เวลา (วินาที) | เสร็จเมื่อ |
|---|---|---|---|
| 1 | Step 1: Ingest Raw Data | 1.94 | 2026-03-18T13:54:40 |
| 2 | Step 2: Capture Schema & Baseline Metadata | 0.239 | 2026-03-18T13:54:41 |
| 3 | Step 3: Data Quality Checks (Before) | 1.175 | 2026-03-18T13:54:42 |
| 4 | Step 4: Cleaning & Standardization | 6.552 | 2026-03-18T13:54:48 |
| 5 | Step 5: Data Quality Checks (After) | 1.187 | 2026-03-18T13:54:50 |
| 6 | Step 6: EDA & Insight Extraction | 0.814 | 2026-03-18T13:54:50 |
| 7 | Step 7: Build What-So What-Now What | 0.042 | 2026-03-18T13:54:50 |
| 8 | Step 8: Prepare Dashboard Data | 0.793 | 2026-03-18T13:54:51 |
| 9 | Step 9: Build Data Dictionary | 0.455 | 2026-03-18T13:54:52 |
| 10 | Step 10: Create Sample Data (1,000 rows) | 0.104 | 2026-03-18T13:54:52 |
| 11 | Step 11: Export Artifacts | 4.069 | 2026-03-18T13:54:56 |