메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

IT/모바일

데이터 과학자에게 가장 중요한 접근법, 인과추론

한빛미디어

|

2024-03-08

|

by 마테우스 파쿠레

9,422

 

당신은 빠르게 성장하는 유망한 스타트업에 이제 막 입사한 신입 데이터 과학자입니다.

머신러닝을 완전히 마스터하지는 못했지만, 기술과 방법론에는 자신이 있습니다. 이 분야의 여러 온라인 강좌를 수강했고, 예측 대회에서 몇 차례 좋은 성적도 거두었습니다. 이제 그 모든 지식을 실제 업무에 적용할 준비가 되었고, 시작할 때를 기다리는 중이죠. 모든 것이 순조롭습니다.  그러던 어느 날, 팀 리더가 다음과 같은 그래프를 가져옵니다.그리고 그래프와 함께 질문을 던집니다.

 

 

“들어봐, 우리가 유료 마케팅paid marketing을 통해 실제로 얼마나 많은 추가 고객을 유치했는지 알고 싶어. 유료 마케팅을 시작했을 때 유료 마케팅 채널을 통한 고객 유입이 있었던 건 사실이지만, 동시에 자연 유입이 줄어든 것 같거든. 유료 마케팅을 통해 유입된 고객 중 일부는 유료 마케팅 없이도 어차피 우리를 찾아왔을 것 같은데 말이지.

 

그동안 도전을 기대하기는 했지만, 이건 무슨 상황일까요? 

 

유료 마케팅이 없었다면 무슨 일이 벌어졌을지 어떻게 알 수 있을까요? 아마도 마케팅 캠페인을 시작하기 전과 후의 자연유입organic과 유료 마케팅을 포함한 고객 총수를 비교해볼 수 있겠죠. 하지만 빠르게 성장하고 변화가 많은 회사에서 캠페인을 시작할 때 다른 요인들이 변하지 않았다는 걸 어떻게 알 수 있을까요?

 

이번에는 업계를 조금 바꿔서 뛰어난 리스크 분석가의 입장이 되어 상황을 생각해보겠습니다. 

 

당신은 최근 대출 회사에 입사했고, 첫 번째 임무는 회사의 신용 위험 모델을 개선하는 것입니 다. 목표는 고객의 신용을 평가(심사)하고, 회사가 높은 대출 한도를 설정할 수 있을지 결정하는 효율적인 자동 의사결정 시스템을 구축하는 것이죠. 말할 필요도 없이, 이 시스템에서 발생 하는 오류는 특히 대출 한도가 높을때 매우 큰 비용을 초래할 수 있습니다. 

 

이 자동 의사결정 시스템의 핵심은 더 높은 신용 한도가 고객의 채무불이행 가능성에 어떤 영향을 미치는 지를 이해하는 것입니다. 고객들이 막대한 금액의 신용 한도를 잘 관리하고 상환할 수 있을까요? 아니면 과도한 지출과 감당하기 어려운 부채 때문에 문제가 생길까요? 이러한 행동 패턴을 분석하기 위해, 먼저 주어진 신용 한도에 따른 평균 채무불이행률을 차트로 만들기 시작합니다. 놀랍게도 데이터는 당신이 예상하지 못한 패턴을 보여줍니다.

신용 한도와 대출 채무불이행률은 음의 상관관계를 보입니다. 더 높은 신용 한도를 설정하는 것이 채무불이행 가능성을 줄인다는 건 어떻게 된 일일까요? 의문을 가진 채, 이 상황에 대해 이해하고자 다른 분석가들과 대화를 나눕니다. 

 

답은 의외로 간단합니다. 대출 회사는 채무불이행 가능성이 작은 고객에게 더 많은 신용을 설정한다는 것이죠. 따라서 높은 신용 한도가 채무 불이행 위험을 줄이는 게 아니라, 낮은 채무불이행 위험이 더 높은 신용 한도를 가능하게 합니다. 

 

이건 설명이 되지만, 여전히 초기의 문제는 해결되지 않았습니다. 이 데이터를 바탕으로 신용 위험과 신용 한도 간의 관계를 어떻게 모델링할까요? 물론 더 높은 신용 한도가 채무불이행 가능성이 작다고 시스템이 판단하도록 만들고 싶지는 않을 것입니다. 또한, 잘못된 신용 결정에 따른 높은 비용 때문에 A/B 테스트에서 신용 한도를 무작위로 배정하는 것도 사실상 불가능합니다. 

이 두 가지 문제의 공통점은 통제 가능한 요소(마케팅 예산과 신용 한도)들을 변경했을 때, 원하는 비즈니스 결과(유입 사용자 수와 채무불이행 위험)에 어떤 영향을 미치는지 알아야 한다는 것입니다. 

 

효과 추정은 지난 수 세기 동안 현대 과학의 기둥이었지만, 최근에야 인과추론 causal inference이라는 분야로 체계화되어 큰 진전을 이루었습니다. 또한, 머신러닝의 발전과 데이터를 활용한 의사결정 자동화에 대한 관심이 증가하면서 산업과 공공기관에서의 인과추론이 점점 중요해지고 있습니다. 하지만 인과추론은 아직 의사결정자나 데이터 과학자들에게 널리 알려지지 않았습니다.

 


위 내용은 도서 『실무로 통하는 인과추론 with 파이썬』에서 발췌하여 정리하였습니다.

 

책 『실무로 통하는 인과추론 with 파이썬』의 저자 마테우스 파쿠레는 인과추론에 대한 인식을 변화시키고자 『Causal Inference for the Brave and True』라는 웹북을 집필했습니다. 오픈소스인 이 자료는 파이썬을 활용해 인과추론의 전통적인 방법과 최근 발전을 까다롭지만 재미있게 다룹니다. 더 나아가 업계 관점에서 인과추론을 다시 검토하고, 최신화된 예시와 더욱 직관적인 설명을 도서에 담아 글에 소개된 신입 데이터 과학자는 물론 데이터를 다루는 모든 이들이 가진 데이터 기반의 의사결정에 대한 궁금증을 해결하고자 하였습니다.

 

인과추론을 통해 더욱 통찰력 있는 데이터 분석을 실행하고, 지금보다 더 나은 결과를 얻고자 한다면 아래 도서를 확인해 보세요.

실무로 통하는 인과추론 with 파이썬

댓글 입력
자료실

최근 본 책0