논문·Working paper · 2026 (arXiv 준비 중)·
FINRCA: 이상 전파를 고려한 계보 그래프 기반 금융 리스크 파이프라인 원인 분석
리스크 파이프라인에서 이상값이 나왔을 때, 그게 어느 단계에서 시작됐는지 자동으로 되짚는다. 값이 이상한지 아닌지가 아니라, 어디서 태어났는지를 푸는 문제다.
Top-5 91.9%Top-1 59.5%Real-Source Top-5 82.4%
문제 정의
리스크 보고 체계는 원천 데이터 수집 → ETL → 피처 생성 → 리스크 계산 → 보고서 산출이 연쇄적으로 연결된다. 이 구조에서는 하나의 오류가 후속 계산 단계 전체로 전파된다. 최종 리스크 수치가 이상해도, 그 원인이 어느 단계·어느 컬럼에서 시작됐는지 사람이 손으로 역추적해야 한다.
값이 이상한 걸 잡아내는 건 어렵지 않다. 진짜 어려운 건 그 이상값이 어느 컬럼에서 시작돼 어떻게 번졌는지 되짚는 일이다. FINRCA는 이 되짚기를 데이터 계보 위의 탐색 문제로 푼다.
접근
- FRLG (Column-level Financial Risk Lineage Graph): 파이프라인을 컬럼 단위 계보 그래프로 구성한다. 노드는 데이터 컬럼, 엣지는 계산 의존 관계다.
- APA-RCA (Anomaly-Propagation-Aware Root Cause Analysis): 이상 점수 기반 Random Walk with Restart를 확장한 알고리즘. 이상값이 계보 그래프를 따라 전파되는 방향성을 반영해, 최종 리스크 수치에 실제로 영향을 준 원인 후보를 순위화한다.
차별점은 이상값이 그래프를 타고 번지는 방향을 탐색에 직접 반영했다는 점이다. 그래서 단순히 상관이 높은 컬럼이 아니라, 전파 경로에서 실제로 원인 노릇을 한 컬럼이 위로 올라온다.
결과
- SYNFRP 벤치마크 630회 실험: Hybrid 방식 기준 Top-5 91.9%, Top-1 59.5%.
- Real-Source Hybrid Benchmark: 12개 금융상품, 756거래일 데이터 기반. fat-tail 및 cross-market 조건에서도 Top-5 82.4% 기록.
fat-tail과 cross-market은 금융 데이터에서 가장 원인 추적이 어려워지는 조건이다. 그 조건에서도 상위 5개 후보 안에 진짜 원인이 82.4%로 포함된다는 것이 이 연구의 실용적 함의다.
왜 이 연구인가
리스크 시스템에서 "숫자가 틀렸다"는 사실을 아는 것만으로는 부족하다. 규제·감사·책임의 관점에서는 "왜, 어디서 틀렸는가"를 복원할 수 있어야 한다. FINRCA는 금융 AI를 예측 정확도의 문제가 아니라 추적 가능성(Traceability)의 문제로 다룬 작업이다.