다변량 테스트에서 AI 의사 결정으로

게시 날짜 2025년 9월 30일/마지막 편집 날짜 2025년 9월 30일/5 최소 읽기

다변량 테스트에서 AI 의사 결정으로
저자
Victor Kostyuk
엔지니어링, AI 의사 결정 및 RL 책임자, Braze

A/B 테스트가 너무 느려, 두 가지 배리언트를 동시에 테스트하는 대신 여러 배리언트를 동시에 테스트하는 다변량 테스트로 업그레이드했습니다. 다변량 테스트는 실제로 A/B 테스트보다 빠르지만, 그걸 제외하고는 A/B 테스트의 모든 단점을 그대로 가지고 있습니다: A/B 테스트보다는 빠르지만 여전히 느리고, 변화하는 고객 행동에 적응하지 못하며, 고객별로 맞춤화되지 않습니다. 마케팅 캠페인을 최적화하는 근본적으로 더 나은 방법이 있습니다. 바로 상황별 밴딧을 사용한 AI 의사 결정입니다.

이 게시물에서는 A/B 테스트부터 다변량 테스트, 다중 밴딧, 상황별 밴딧까지, 마케팅 실험 방법의 진화를 설명합니다. 각 방법의 장점과 각 접근 방식의 단점을 이해할 수 있습니다. 마지막으로, 상황별 밴딧을 사용하고 개선하기 위해 진정한 1:1 개인화를 달성하는 Braze의 비법을 소개합니다.

다변량 테스트

A/B 테스트 시에는 고객 오디언스의 절반을 각 배리언트에 무작위로 할당하고 해당 마케팅 메시지를 발송한 다음, 결과 지표(예: 전환율)와 관련한 배리언트의 성과를 대조하면서 두 가지 배리언트를 비교합니다. 이메일 추천에 어떤 신발을 포함할지 알고자 하는 경우를 예로 들어보겠습니다.

보라색 배경에 신발 한 켤레와 하이힐 한 켤레

두 가지 이상의 신발을 제공할 수 있으므로 A/B 테스트 접근 방식을 사용하면 더 많은 신발을 서로 비교하면서 테스트해야 하는데, 이는 매우 느리고 힘든 과정입니다. 다변량 테스트를 사용하면 모든 배리언트를 한 번에 테스트할 수 있습니다.

보라색 배경에 남성용 및 여성용 신발

기본적으로 다변량 테스트는 순차적으로 수행되는 것이 아니라 병렬로 수행되는 A/B 테스트입니다. 이 병렬 접근 방식은 각각의 테스트를 하나씩 실행하는 것이 아니라 여러 변수를 동시에 테스트할 수 있어 기존 A/B 테스트에 비해 시간이 대폭 단축됩니다.

하지만 이러한 효율성에는 대가가 따릅니다. 전체 오디언스가 모든 배리언트의 조합(위 예시에서 성별 x 3 스타일 = 6 조합)에서 일정한 부분을 차지하도록 나뉘기 때문에 조합이 많으면 통계적 유의성을 달성하기 어려울 수 있습니다.

이는 마케터들에게 딜레마를 안겨줍니다.

  • 결과가 무작위 변동(노이즈)뿐만 아니라 신뢰할 수 있는(신호) 데이터까지 충분히 수집하기 위해 더 오래 기다립니다.
  • 초기에 신뢰도가 낮을 수도 있는 데이터를 바탕으로, 가장 좋아 보이는 옵션을 신속하게 실행에 옮깁니다.

테스트하는 조합이 늘어날수록 각 그룹이 작아져 이 문제가 더욱 악화됩니다. 예를 들어 60,000명의 고객이 있고 6가지 조합을 테스트하는 경우 각 조합은 10,000명의 고객에게만 테스트되는 셈입니다. 12개의 조합으로 늘리면 조합당 5,000명의 고객이 줄어 합리적인 시간 내에 통계적 유의성을 달성하기가 더욱 어려워집니다.

이러한 제약으로 인해 다변량 테스트는 마케팅 카피나 제품의 모든 가능한 조합보다는 마케터가 테스트하고자 하는 일부 소수의 배리언트에만 주로 사용됩니다. 이는 그룹 크기를 더 크게 유지하고 통계적 유의성을 더 빠르게 달성하는 데 유리하지만, 테스트된 배리언트의 양이 줄기 때문에 기술의 유용성도 그만큼 낮아집니다.

다변량 테스트의 또 다른 중요한 한계는 정적인 특성입니다. 테스트를 실행하고 "위너"를 결정한 후에는 그 결과가 고정됩니다. 하지만 고객의 기호와 행동은 시간이 지남에 따라 변합니다. 지금 잘 작동하는 배리언트라도 한두 달 안에 최적의 선택이 아니게 될 수도 있습니다. 전통적인 다변량 테스트의 경우, 많은 시간과 자원을 들여 새로운 테스트를 지속적으로 실행하지 않는 한 이러한 변화를 반영하지 못합니다.

다중 밴딧이나 상황별 밴딧 같은 더 발전된 방법들은 이 상황에 효과적입니다.

다중 밴딧

다변량 테스트는 오디언스를 다양한 배리언트에 걸쳐 균등하게 나누기 때문에 전환율을 극대화하는 측면에서 실험이 상당히 비효율적일 수 있습니다. 특정 배리언트가 다른 배리언트보다 훨씬 효과가 떨어진다는 것이 처음 1,000명에게 보낸 시점에서 이미 명확하더라도, 각 배리언트는 동일한 수의 고객(위 예시의 경우 10,000명)에게 발송됩니다. 다중 밴딧(줄여서 MAB)은 각 배리언트가 가장 적합할 가능성에 따라 발송 비중을 효율적으로 조정하는 알고리즘입니다. 따라서 MAB는 최상의 조합을 찾아내는 데 다변량 테스트보다 훨씬 더 효율적입니다. 그렇다고 해서 MAB가 현재 가장 좋다고 판단한 배리언트만 발송하는 것은아닙니다. MAB는 현재 가장 효과적이라고 추정되는 배리언트를 보내는 것을 의미하는 활용과 다른 배리언트를 보내 그 성과에 대한 추정을 개선하는 것을 의미하는 탐색 사이의 균형을 유지합니다.

이는 다변량 테스트에 비해 MAB가 가지는 또 다른 이점, 즉 지속적인 실험을 나타냅니다. MAB는 시간이 지남에 따라 처음에는 성과가 저조했던 배리언트가 갈수록 효과적으로 변하는지 확인하고, 해당 배리언트의 성과가 높아짐에 따라 해당 배리언트를 더 자주 발송하기 시작합니다. 따라서 MAB가 가장 좋다고 판단하는 배리언트와 전송하는 배리언트의 분포는 시간이 지남에 따라 바뀔 수 있습니다.

8월이라고 적힌 보라색 캘린더

MAB는 전체 고객층 또는 세그먼트에 가장 적합한 글로벌 위너, 즉 성과가 가장 뛰어난 배리언트를 찾고 시간이 지나면서 "위너"가 변화함에 따라 조정하는 능력이 탁월합니다. 하지만 MAB에는 개인화할 수 없다는 근본적인 한계가 있습니다. MAB는 실험하는 각 배리언트를 블랙박스로 취급하며(예: 한 신발이 다른 신발과 비슷하다는 사실을 모르기 때문에, 두 제품이 비슷한 성과를 낼 가능성이 높다는 점도 인식하지 못함) 모든 고객을 동일하게 취급합니다. 하지만 어느 고객이나 배리언트도 동일하지 않습니다.

상황별 밴딧

MAB와 달리 상황별 밴딧은 고객, 배리언트, 환경에 대한 컨텍스트를 사용하여 의사 결정을 내리는 알고리즘입니다(예: 오늘은 휴일인가, 아니면 주말인가?). 예를 들어 상황별 밴딧은 신발의 스타일이 무엇인지, 남성용 신발인지 여성용 신발인지 인식할 수 있습니다. 또한 밴딧은 고객의 구매 이력(과거에 어떤 스타일의 신발을 구매했는지)을 알 수 있습니다. 따라서 상황별 밴딧은 어떤 제안이 어떤 고객에게 효과적인지를 빠르게 학습할 수 있습니다.

상황별 밴딧과 러닝화가 표시된 휴대폰 화면

상황별 밴딧은 단순히 해당 배리언트가 평균적으로 전환될 가능성이 얼마나 되는지를 기준으로 배리언트를 선택하는 것이 아니라, 주어진 환경(예: 토요일 아침)에서 특정 고객이 전환할 가능성이 얼마나 되는지를 기준으로 합니다.

아울러 상황별 밴딧은 다양한 배리언트에 걸쳐 일반화할 수 있습니다. 예를 들어 새로운 러닝화가 출시되어 옵션으로 추가되면 알고리즘은 그 신발의 스타일이 "러닝화"라는 사실을 근거로 러닝화에 대한 학습 내용을 활용하여 새 신발을 추천합니다. 따라서 새로운 배리언트가 계속 등장하는 마케팅 사용 사례에 훨씬 더 적합합니다.

상황별 밴딧은 MAB보다 구현하고 유지 관리하기가 더 복잡하고, 고객에 대한 최신 데이터를 필요로 하며, 이전의 다른 방법들보다 훨씬 더 많은 배리언트를 처리할 수 있지만 여전히 배리언트 컬렉션의 규모가 클 경우 속도가 느려진다는 단점이 있습니다.

AI 의사 결정: Braze가 상황별 밴딧을 사용하고 개선하는 방법

샘플 효율성, 즉 제한된 데이터로 모델이 학습하는 속도를 높이기 위해, 저희 Braze에서는 "밴딧 커뮤니티"를 사용합니다. 이는 추천을 여러 차원(예: 요일, 시간, 채널, 크리에이티브 요소, 오퍼)으로 나누고, 각 차원마다 별도의 상황별 밴딧이 의사 결정을 내리도록 하는 AI 결정 에이전트입니다.

AI 의사결정에 대해 자세히 알아보려면 밴딧 커뮤니티에 대한 백서를 참조하세요.

관련 태그

관련 콘텐츠

블로그 보기

더 나은 마케터가 될 때입니다.