ขั้นตอนการทำงาน (Workflow)
หลักฐานลำดับงานแบบ Before -> After และสถิติที่ตรวจสอบย้อนกลับได้
Workflow Evidence: Before -> After
Step 1
Ingest Raw Dataโหลดข้อมูลดิบ บันทึก schema, primary key และ baseline quality metrics
Step 2
Data Quality Checksตรวจ completeness, id format, duplicate, outlier และโดเมนค่าที่ถูกต้อง
Step 3
Cleaning & Standardizationแปลงชนิดข้อมูล, parse วันที่, มาตรฐานโค้ด, ลบซ้ำ, จัดการ missing/outlier
Step 4
EDA & Insightสรุปตามประเทศ/หมวด/เวลา, correlation matrix และ insight เชิงตัดสินใจ
Step 5
Prepare Artifactsสร้างไฟล์ส่งออกสำหรับ dashboard, data dictionary และไฟล์หลักฐานการประเมิน
ก่อนทำความสะอาด
จำนวนแถว: 1,000
Duplicate (business key): 0.0%
Missing Key สูงสุด:
- record_id: 0.0%
- prov: 0.2%
- adate: 0.0%
- hdate: 0.0%
- cause: 0.0%
- injby: 0.3%
หลังทำความสะอาด
จำนวนแถว: 995
Duplicate (business key): 0.0%
Missing Key สูงสุด:
- record_id: 0.0%
- prov: 0.0%
- adate: 0.0%
- hdate: 0.0%
- cause: 0.0%
- injby: 0.0%
ผลการทำความสะอาดและปรับมาตรฐาน
Rows dropped (missing key): 5
Exact duplicates removed: 0
Business-key duplicates removed: 0
ขั้นตอนที่ดำเนินการ:
- ตัดช่องว่างและปรับค่า text สำคัญเป็นค่าว่างมาตรฐาน
- แปลงคอลัมน์วันที่หลัก (adate, hdate) เป็น datetime (day-first locale)
- ปรับชนิดข้อมูลคอลัมน์เชิงตัวเลขด้วย pd.to_numeric
- มาตรฐานรหัสอำเภอ aampur ให้เป็น 2 หลัก
- สร้างฟิลด์คำนวณ time_to_hospital_min (นาที)
- ลบแถวซ้ำทั้งแบบ exact และ business key พร้อมรายงานก่อน-หลัง
- จัดการ outlier ด้วย IQR capping ในคอลัมน์ตัวเลขหลัก
Timeline การทำงาน
| # | ขั้นตอน | เวลา (วินาที) | เสร็จเมื่อ |
|---|---|---|---|
| 1 | Step 1: Ingest Raw Data | 0.009 | 2026-02-16T13:42:02 |
| 2 | Step 2: Capture Schema & Baseline Metadata | 0.01 | 2026-02-16T13:42:02 |
| 3 | Step 3: Data Quality Checks (Before) | 0.031 | 2026-02-16T13:42:02 |
| 4 | Step 4: Cleaning & Standardization | 0.08 | 2026-02-16T13:42:02 |
| 5 | Step 5: Data Quality Checks (After) | 0.034 | 2026-02-16T13:42:02 |
| 6 | Step 6: EDA & Insight Extraction | 0.039 | 2026-02-16T13:42:02 |
| 7 | Step 7: Build What-So What-Now What | 0.005 | 2026-02-16T13:42:02 |
| 8 | Step 8: Prepare Dashboard Data | 0.016 | 2026-02-16T13:42:02 |
| 9 | Step 9: Build Data Dictionary | 0.013 | 2026-02-16T13:42:02 |
| 10 | Step 10: Create Sample Data (1,000 rows) | 0.035 | 2026-02-16T13:42:02 |
| 11 | Step 11: Export Artifacts | 0.025 | 2026-02-16T13:42:02 |