ขั้นตอนการทำงาน (Workflow)

หลักฐานลำดับงานแบบ Before -> After และสถิติที่ตรวจสอบย้อนกลับได้

Workflow Evidence: Before -> After
Step 1
Ingest Raw Data

โหลดข้อมูลดิบ บันทึก schema, primary key และ baseline quality metrics

Step 2
Data Quality Checks

ตรวจ completeness, id format, duplicate, outlier และโดเมนค่าที่ถูกต้อง

Step 3
Cleaning & Standardization

แปลงชนิดข้อมูล, parse วันที่, มาตรฐานโค้ด, ลบซ้ำ, จัดการ missing/outlier

Step 4
EDA & Insight

สรุปตามประเทศ/หมวด/เวลา, correlation matrix และ insight เชิงตัดสินใจ

Step 5
Prepare Artifacts

สร้างไฟล์ส่งออกสำหรับ dashboard, data dictionary และไฟล์หลักฐานการประเมิน

ก่อนทำความสะอาด

จำนวนแถว: 176,750

Duplicate (business key): 1.26%

Missing Key สูงสุด:

  • record_id: 0.0%
  • prov: 0.123%
  • adate: 0.0%
  • hdate: 0.0%
  • cause: 0.0%
  • injby: 0.188%
หลังทำความสะอาด

จำนวนแถว: 173,983

Duplicate (business key): 0.0%

Missing Key สูงสุด:

  • record_id: 0.0%
  • prov: 0.0%
  • adate: 0.0%
  • hdate: 0.0%
  • cause: 0.0%
  • injby: 0.0%
ผลการทำความสะอาดและปรับมาตรฐาน

Rows dropped (missing key): 549

Exact duplicates removed: 0

Business-key duplicates removed: 2218

ขั้นตอนที่ดำเนินการ:

  • ตัดช่องว่างและปรับค่า text สำคัญเป็นค่าว่างมาตรฐาน
  • แปลงคอลัมน์วันที่หลัก (adate, hdate) เป็น datetime (day-first locale)
  • ปรับชนิดข้อมูลคอลัมน์เชิงตัวเลขด้วย pd.to_numeric
  • มาตรฐานรหัสอำเภอ aampur ให้เป็น 2 หลัก
  • สร้างฟิลด์คำนวณ time_to_hospital_min (นาที)
  • ลบแถวซ้ำทั้งแบบ exact และ business key พร้อมรายงานก่อน-หลัง
  • จัดการ outlier ด้วย IQR capping ในคอลัมน์ตัวเลขหลัก
Timeline การทำงาน
#ขั้นตอนเวลา (วินาที)เสร็จเมื่อ
1 Step 1: Ingest Raw Data 1.94 2026-03-18T13:54:40
2 Step 2: Capture Schema & Baseline Metadata 0.239 2026-03-18T13:54:41
3 Step 3: Data Quality Checks (Before) 1.175 2026-03-18T13:54:42
4 Step 4: Cleaning & Standardization 6.552 2026-03-18T13:54:48
5 Step 5: Data Quality Checks (After) 1.187 2026-03-18T13:54:50
6 Step 6: EDA & Insight Extraction 0.814 2026-03-18T13:54:50
7 Step 7: Build What-So What-Now What 0.042 2026-03-18T13:54:50
8 Step 8: Prepare Dashboard Data 0.793 2026-03-18T13:54:51
9 Step 9: Build Data Dictionary 0.455 2026-03-18T13:54:52
10 Step 10: Create Sample Data (1,000 rows) 0.104 2026-03-18T13:54:52
11 Step 11: Export Artifacts 4.069 2026-03-18T13:54:56