Post

2023년 제 3회 소방안전 빅데이터 플랫폼 활용 및 아이디어 경진대회 | 화재사고 대응을 위한 소방 인력 최적화 시스템


부산광역시 화재 사고 출동 데이터 기반의 소방 인력 최적화를 통한 화재 사고 피해 감소 방안 제시

개요

이 프로젝트는 소방안전 빅데이터 플랫폼 활용 및 아이디어 경진대회의 주제입니다.
최근 수년간 화재 사고로 인한 인명 및 재산 피해가 꾸준히 발생하고 있으며, 이에 따라 신속한 대응과 효율적인 자원 배치의 필요성이 커지고 있습니다. 기존의 소방 인력 배치는 관할 면적, 인구, 환경적 요소 등을 기준으로 이루어지고 있으나 실제 사고 양상과의 괴리로 인해 효율성에 한계가 있었습니다. 따라서 본 프로젝트는 데이터 기반 분석을 통해 소방 인력을 최적으로 재배치하여 피해를 최소화할 수 있는 방안을 제시하고자 하였습니다.

주제선정

본프로젝트는 단순히 인력을 늘리는 것이 아니라, 기존 자원을 어떻게 배치해야 피해를 최소화할 수 있을지에 초점을 맞춰 진행하였습니다.

소방안전 빅데이터 플랫폼의 데이터에 따르면, 부산광역시의 화재 사고 건수는 최근 10년간 연평균 2,000건 이상으로 꾸준히 발생하며 특히 2017년에는 2,600건을 넘어서는 등 여전히 높은 수준을 유지하고 있다. 반면 같은 기간 동안 소방 인력과 장비는 점차 늘어나는 추세이지만 사고 발생 건수와 피해 규모가 뚜렷하게 줄어들지 않고 있다는 점에서 현재의 인력 배치 방식이 효율적이지 않다는 한계가 드러났다.

이러한 배경 속에서 본 프로젝트는 단순히 인력을 늘리는 것이 아니라 기존 자원을 어떻게 배치해야 피해를 최소화할 수 있을지에 초점을 맞추었다. 따라서 화재 발생 데이터와 소방 인력 데이터를 결합하여 상관관계를 분석하고 최적화 기법을 통해 효율적인 배치를 도출하는 것을 연구 주제로 선정하였다.

주제선정

프로세스 플로우차트

프로세스 플로우차트

설계과정

활용 데이터

  • 부산광역시 화재 사고 출동 데이터 [소방 빅데이터 플랫폼]
  • 부산광역시 소방인력 배치 데이터 [부산시 소방 재난 본부]

데이터 전처리

불필요한 컬럼을 제거하고(IQR 기준 이상치 포함), 범주형 데이터를 인코딩하여 수치화했습니다. NaN 값은 평균·최빈값 대체 또는 컬럼 삭제로 처리한 뒤, 정규화를 통해 분석에 적합한 형태로 변환했습니다.

소방안전 빅데이터 플랫폼 화재출동 현황 데이터 중 화재 사고와 연관이 없는 컬럼(조사서번호, 신고요일 등등)을 삭제하고 부산광역시 소방 재난 본부에서 제공하는 119 안전 센터별 인력 데이터를 이용하여 화재출동 현황 데이터에 소방력 컬럼을 추가하였습니다.
중복된 내용과 같이 이상 컬럼은 제거한 뒤, IQR에 1.5를 곱하여 범위를 지정해 이상치를 제거하였습니다. 다음으로 분석을 위해 범주형 데이터를 숫자형 데이터로 변환하는 인코딩 작업이 필요하여 각 컬럼의 특성에 맞는 인코딩(레이블 인코딩, 더미화) 작업 후 컬럼별 최고 빈도수나 평균값 대체 혹은 컬럼 삭제로 NaN 값을 처리하고 마지막 정규화 과정을 수행하였습니다.

상관분석

전처리된 데이터를 바탕으로 화재 사고의 인명·재산 피해와 관련 요인들을 분석하여 사고 피해를 최소화할 수 있는 전략을 도출하고자 하였습니다. 분석 결과, 인명 피해는 소방안전 빅데이터 플랫폼의 특성상 피해가 없는 사례가 대부분이어서 뚜렷한 상관관계를 도출하기는 어려웠습니다. 그러나 재산 피해에서는 화재 진압 시간과 강한 양의 상관관계가 확인되었으며, 이는 화재 진압 속도가 빨라질수록 재산 피해를 줄일 수 있음을 의미하였습니다. 또한 소방 인력 수와 화재 진압 시간, 재산 피해 간에도 뚜렷한 연관성이 나타났음을 확인하였습니다. 반면 건물 구조나 발화 원인과 같은 요인들은 실제 정책적으로 조정하기 어려운 부분이므로, 직접적인 개선 지표로 활용하기에는 한계가 있었습니다.

재산 피해는 화재 진압 시간과 소방 인력 수와 밀접한 관련이 있음을 확인할 수 있었습니다. 건물 구조나 발화 원인과 같은 요인은 정책적으로 조정하기 어려다는 한계가 있었습니다.

  • 소방 인력 ↔ 화재 진압 시간: 0.55
  • 화재 진압 시간 ↔ 재산 피해금액: 0.40
Element1Element2Corr
소방 인력화재진압시간0.55
소방 인력재산피해금액0.40
소방 인력건물구조조 철골조0.53
재산피해금액화재진압시간0.55
재산피해금액건물구조조 샌드위치0.73
재산피해금액건물구조조 합성수지0.69
재산피해금액건물구조조 슬라브가0.63
출동소요시간안전센터거리0.81

군집분석

회귀 분석 전 성능 향상을 위해 화재 사고 데이터를 기준별로 군집화하였습니다. 건물 정보, 피해 규모, 수행 시간, 지역별 특성, 좌표·거리, 화재 요인, 법규, 환경 정보 등 유사성이 있는 항목들을 묶어 분석하였습니다. 그중 지역별 요인, 환경 정보, 요일별 항목에서 비교적 균일한 군집 결과가 나타났으며, 엘보우 기법을 통해 모두 3개의 군집으로 분류하는 것이 적절하다는 결론을 얻었습니다.

건물 정보, 피해 규모, 수행 시간, 지역 및 환경 요인 등을 묶어 분석한 결과 지역별 요인, 환경 정보, 요일별 항목에서 3개의 군집이 가장 적절하는 결론을 얻었습니다.

군집분석(Cluster) vs 주성분분석(PCA) 비교

기법특징한계
Cluster- 유사한 데이터끼리 그룹화
- 조절 불가한 특성을 기준으로 사용
- Elbow 기법 기반 그룹 수 결정
- 군집별 데이터 불균형 발생 가능
PCA- Principle Component Analysis (주성분 분석)
- 다차원 축소
- 상관분석 기반 컴포넌트 결정
- 교차 검증 정확도가 낮아 활용도 제한

선형 회귀

회귀분석은 화재 사고 발생 시 재산 피해 금액을 종속 변수로 두고, 이를 제외한 모든 변수를 독립 변수로 설정하여 수행하였습니다. 특히 데이터 중 일부 변수(현장 소방서 거리와 재산 피해금액)는 선형적 관계를 보였으나, 복잡한 특성과 비선형적 패턴도 존재하였기에 선형 회귀와 비선형 회귀를 모두 적용하였습니다.

딥러닝 선형회귀에서 R²=0.9388으로 높은 예측력을 확인할 수 있었습니다.

구분릿지 (Ridge)라쏘 (Lasso)엘라스틱넷 (Elastic Net)딥러닝 선형회귀XGBoost랜덤포레스트RNNGRULSTM의사결정나무
R² 값0.530.000.000.93880.990.920.340.340.321.00
비고성능 낮음설명력 없음설명력 없음안정적/우수과적합 의심해석 용이낮음낮음낮음과적합 발생

유전 알고리즘

소방 인력을 최적으로 배치하기 위해 유전 알고리즘을 적용하였습니다. 초기 해를 무작위로 생성한 뒤, 적합도 평가 → 선택 → 교차 → 변이 과정을 반복하여 더 나은 해를 탐색하였습니다. 총 300세대 동안 진화를 수행한 결과, 소방력 재배치 이후 회귀 예측 실험에서 재산 피해 규모가 감소하는 효과를 확인할 수 있었습니다.

유전 알고리즘으로 적합도 평가 → 선택 → 교차 → 변이 과정을 300세대 반복하여 최적 해를 탐색하였고, 그 결과 소방력 재배치 후 회귀 예측에서 재산 피해 규모 감소 효과를 확인할 수 있었습니다.

  • 초기 해: 무작위 100개 생성
  • 선택: 상위 20개 생존
  • 교차: 부모 해 2개씩 교차 연산
  • 변이: 확률 0.001로 돌연변이 발생
  • 반복: 300세대 진행 → 최적 해 도출

산출물

상관관계

인력 재배치 결과

소방력 재배치 및 효과 검증 결과

실험 결과

상관분석을 통해 소방 인력과 화재 진압 시간, 출동 거리와 출동 소요 시간 등이 높은 연관성을 가지는 것을 기반으로 데이터를 전처리할 수 있었습니다. 전처리된 데이터를 기반으로 유전 알고리즘을 적용하여 인력 재배치를 한 결과, 재산 피해 예측값이 전반적으로 감소하는 효과를 얻을 수 있었고 이를 기반으로 회귀분석으로 직접 시뮬레이션을 돌려 유의미한 결과를 가진다는 것을 검증할 수 있었습니다. 이러한 분석 과정을 통해 최적화의 효과를 확인할 수 있었고, 본 프로젝트는 대회에서도 수상이라는 값진 성과를 얻을 수 있었습니다.

상관분석과 유전 알고리즘 기반 최적화를 통해 재산 피해 감소 효과를 검증하였으며, 실제 대회에서 수상 성과로 이어졌습니다.

수상

고찰

이번 프로젝트를 통해 단순한 데이터 분석을 넘어 데이터 기반 의사결정이 실제 문제 해결에 어떤 영향을 줄 수 있는지를 깊이 이해할 수 있었습니다. 데이터 품질을 높이는 과정을 통해 모델 성능과 해석력에 직접적인 영향을 준다는 것을 깨달을 수 있었으며, 상관분석과 회귀분석 단계에서 전처리의 질에 따라 결과의 신뢰도가 크게 달라지는 것을 체감할 수 있었습니다. 이러한 노력이 모여 결국 경진대회에서 수상이라는 값진 성과로 이어졌으며, 데이터 기반 분석이 실제 문제 해결에 기여할 수 있다는 확신을 얻을 수 있었습니다.

This post is licensed under CC BY 4.0 by the author.