산재 대체 인력 매칭 플랫폼 ‘급구당’
요양 기간 예측과 AI 인력 매칭을 결합한 산재 대응 솔루션
개요
본프로젝트는 제4회 고용노동 공공데이터 활용 공모전의 주제입니다.
산업재해로 인한 장기 요양 발생 시 기업이 겪는 인력 공백 문제를 해결하기 위해 개발한 AI 기반 서비스 플랫폼입니다. 근로자의 요양 기간을 회귀 모델을 활용해 정밀하게 예측하고 기업과 구직자 간 직무 적합성을 문장 임베딩 기반 유사도 분석으로 평가하여 양방향 자동 매칭 기능을 제공합니다. 이를 통해 기업은 생산성 손실을 최소화하면서 대체 인력을 빠르게 확보할 수 있고 구직자는 자신의 역량에 적합한 채용 기회를 탐색할 수 있도록 설계하였습니다.
주제선정
산업재해로 인한 인력 공백과 경제적 손실 문제를 해결하기 위해, 요양 기간 예측과 AI 기반 인력 매칭을 결합한 솔루션을 제안합니다.
산업재해는 단순한 인명 피해를 넘어 기업 내 업무 공백, 생산성 저하, 그리고 사회적·경제적 손실로 이어지는 구조적 문제입니다. 최근 5년간 산업재해로 인한 경제적 손실은 150조 원을 초과했으며 특히 중소기업은 장기 결근으로 인한 부담이 더 심각하게 나타납니다. 그러나 기존 채용 플랫폼은 일반적인 구인·구직 연결에 머물러 있어 산재 상황에 특화된 대응이 부족한 상황입니다. 이러한 문제 인식에서 출발해 본 프로젝트는 산재 발생 시 즉시 활용 가능한 요양 기간 예측 기능과 AI 기반 대체 인력 매칭 기능을 결합한 새로운 솔루션을 제안하게 되었습니다.
설계과정
플랫폼 서비스 구조
활용 데이터
- 산재병원별 환자진료실적20231231 [근로복지공단]
- 데이터마이닝 기법을 활용한 상병별 산재요양 실태 분석 부록 [고용노동부]
데이터 전처리
OCR과 정규식을 활용해 텍스트를 구조화한 뒤, 범주형 데이터를 인코딩하고 출력값을 정규화하였습니다.
근로복지공단과 고용노동부에서 제공하는 산재 관련 공공데이터는 이미지 형태의 부록 파일로 제공되었기 때문에 우선 OCR 기술을 통해 텍스트로 변환한 뒤, 정규식을 활용하여 불필요한 기호와 노이즈를 제거하였습니다. 이후 병명, 성별, 수술 여부, 연령대, 지역본부 등의 조건을 조합하여 데이터셋을 정형화하였으며 그 과정에서 중복되거나 의미 없는 컬럼은 삭제하였습니다.
범주형 변수는 모델 학습이 가능하도록 Label Encoding을 적용하여 수치형 값으로 변환하였고 출력 변수인 요양일수는 Min-Max Scaling을 통해 0~1 범위로 정규화하였습니다. 이를 통해 변수 간 스케일 차이를 줄이고 모델 학습 안정성을 높였습니다.
요양 기간 예측
다층 퍼셉트론(MLP) 기반 회귀 모델을 활용하여 근로자의 요양 기간을 단일 값으로 예측하였으며 Stratified Split과 EarlyStopping 등을 적용해 학습 안정성과 성능을 확보했습니다.
근로자의 요양 기간을 정밀하게 예측하기 위해 다층 퍼셉트론(MLP) 기반 회귀 모델을 설계하였습니다. 입력값으로는 병명, 성별, 수술 여부, 연령대, 지역본부 등의 조건을 활용하였으며 모델은 이를 통해 최종적으로 단일 요양일수를 출력하도록 구성하였습니다.
모델 학습 과정에서는 데이터셋의 병명 분포가 훈련·검증·테스트에 고르게 반영되도록 Stratified Split을 적용하였습니다. 단순 랜덤 분할만 적용할 경우 특정 병명이 과소·과대 대표되는 문제가 발생할 수 있는데, Stratified Split을 통해 전체 데이터의 분포를 유지함으로써 안정적인 학습과 평가가 가능하도록 하였습니다.
또한 학습의 안정성을 높이기 위해 EarlyStopping을 적용하여 불필요한 과적합을 방지하고, ReduceLROnPlateau를 통해 학습이 정체되는 경우 학습률을 자동으로 조정하였습니다. 이를 통해 모델이 실제 현장에 적용 가능한 수준의 예측 성능을 확보할 수 있었습니다.
예측 모델을 통해 측정된 요양 기간은 기업의 인력 운용 계획 수립 및 대체 인력 투입 시점 산정에 활용됩니다.
대체 인력 매칭
BERT 기반 문장 임베딩 모델을 활용하여 기업의 채용 공고와 구직자의 자기소개서를 의미 단위로 비교하고 직무 적합도가 높은 양방향 추천 결과를 제공합니다.
본 프로젝트에서는 단순 키워드 매칭을 넘어 의미 기반 문장 유사도 분석을 활용한 대체 인력 매칭 기능을 설계하였습니다. 기업 측에서는 채용 공고를 입력하면 유사한 이력을 가진 구직자 리스트를 확인할 수 있고 구직자는 자기소개서를 입력하면 적합한 채용 공고를 추천받을 수 있도록 양방향 추천 구조를 적용하였습니다.
이를 위해 Sentence Transformer(roberta-ko-small-tsdae) 모델을 사용하여 문장을 임베딩 벡터로 변환한 뒤 채용 공고와 자기소개서를 문장 단위로 분할하여 모든 조합을 Pairwise 비교하였습니다. 각 문장 간 의미 유사도를 계산하고 가중치를 적용함으로써 단순 키워드가 아닌 맥락적 의미에 기반한 직무 적합성을 평가할 수 있었습니다.
API 연동 및 서비스화
FastAPI를 활용해 모델의 예측 및 추천 결과를 API로 구현하고, 웹 서비스와 연동하여 기업과 구직자가 직접 활용할 수 있는 형태로 제공하였습니다.
프로젝트의 마지막 단계에서는 구축한 모델을 실제 서비스에서 활용할 수 있도록 API 연동 및 서비스화 작업을 진행하였습니다. 모델이 산출한 요양 기간 예측 결과와 인력 매칭 추천 결과는 단순히 연구 수준에서 머무르는 것이 아니라 실제 사용자들이 웹 환경에서 바로 확인할 수 있어야 했습니다.
이를 위해 FastAPI를 사용하여 모델을 API 형태로 구현하였으며 클라우드 환경에서 배포 가능한 구조로 설계하였습니다. 기업은 채용 공고를 입력하면 예측된 요양 기간과 함께 적합한 구직자 리스트를 받아볼 수 있고 구직자는 자기소개서를 업로드하면 관련성이 높은 채용 공고를 추천받을 수 있습니다.
산출물
실험결과
제안한 플랫폼은 요양 기간을 안정적으로 예측하고 키워드 중심 검색보다 더 정밀한 의미 기반 인력 매칭 성능을 보여주었습니다.
실험에서는 공공데이터 기반으로 구축한 데이터셋을 활용하여 MLP 회귀 모델의 성능을 평가하였습니다. 그 결과, 요양 기간 예측은 실제 값과 비교했을 때 안정적인 오차 범위 내에서 결과를 산출하였으며 특히 Stratified Split을 적용한 경우 병명 분포 불균형에 따른 성능 저하를 효과적으로 방지할 수 있었습니다.
또한 Sentence Transformer를 활용한 대체 인력 매칭 실험에서는 단순 키워드 검색 대비 의미 기반 추천 정확도가 향상됨을 확인하였습니다. 이를 통해 플랫폼은 단순한 예측·추천 기능을 넘어 산재 발생 시 기업이 즉시 활용할 수 있는 의사결정 지원 도구로서의 가능성을 보여주었습니다.
고찰
산업재해라는 사회적 문제를 AI 기술로 풀어내고자 한 시도로 공공데이터를 직접 수집·정제하여 모델을 설계하고 이를 실제 서비스 형태로 구현하면서 데이터의 전 과정을 경험할 수 있었습니다. 특히 요양 기간 예측과 인력 매칭이라는 두 가지 기능을 하나의 플랫폼 안에 통합함으로써 단순한 연구 수준을 넘어 실제 산업 현장에서 활용 가능한 서비스로 발전시킬 수 있다는 가능성을 확인한 점이 큰 성과라고 생각합니다.
그러나 데이터의 한계로 인해 보다 세밀한 예측 결과를 측정하기가 어려웠으며 매칭 결과 또한 입력 데이터 품질에 크게 의존하는 약점이 있었습니다. 또한 대회에서는 끝내 수상으로 이어지지 못해 아쉬움이 있었지만 그 과정에서 얻은 경험은 값진 자산이 되었습니다.
무엇보다도 이번 경험을 통해 아이디어를 구체적인 서비스로 구현해내는 과정 자체가 큰 배움이었고 부족했던 점은 이후 프로젝트에서 반드시 보완해야 할 과제로 남긴 것 같습니다.


