Skip to content

다변량 및 A/B 테스트 FAQ

테스트 기본 사항

A/B 테스트와 다변량 테스트의 차이점은 무엇인가요?

A/B 테스트

A/B 테스트에서 마케터는 캠페인 내에서 단일 변수(예: 이메일 제목란 또는 메시지 전송 시간)로 실험을 진행합니다. 여기에는 오디언스의 하위 집합을 무작위로 두 개 이상의 그룹으로 나누고 각 그룹에 서로 다른 변형을 제시하고 어떤 변형이 가장 높은 전환율을 보이는지 관찰하는 것이 포함됩니다. 일반적으로 가장 성능/성과가 좋은 변형을 나머지 오디언스에게 전송합니다.

다변량 테스트

다변량 테스트는 A/B 테스트의 확장으로, 마케터가 여러 변수를 한 번에 테스트하여 가장 효과적인 조합을 결정할 수 있습니다. 예를 들어 이메일 메시지의 제목란, 텍스트와 함께 제공되는 이미지, CTA 버튼의 색상을 테스트할 수 있습니다. 이러한 유형의 테스트를 사용하면 단일 실험 내에서 더 많은 변수와 변형 조합을 탐색하고 A/B 테스트보다 더 빠르고 포괄적으로 인사이트를 얻을 수 있습니다. 그러나 단일 실험 내에서 더 많은 변수와 조합을 테스트하려면 통계적으로 유의미한 결과를 얻기 위해 더 많은 오디언스가 필요합니다.

A/B 테스트 결과는 어떻게 계산되나요?

Braze는 유의 수준 p < 0.05(95% 유의 수준)에서 한 배리언트가 다른 모든 배리언트보다 통계적으로 우수한지 여부를 측정하는 Pearson의 카이제곱 테스트를 사용하여 모든 배리언트를 서로 비교합니다. 이 중요도 임계값을 초과하는 모든 배리언트 중에서 성능/성과가 가장 우수한 배리언트가 ‘승자’로 결정됩니다.

이는 0~100% 사이의 수치로 대조군과 비교한 배리언트의 성능/성과만을 설명하는 신뢰도 점수와는 별개의 테스트입니다. 구체적으로, 배리언트와 대조군 간의 표준화된 전환율 차이가 우연보다 훨씬 크다는 담당자의 확신을 나타냅니다.

배리언트 배포가 균일하지 않은 이유는 무엇인가요?

배리언트 상품 간의 분포가 항상 균일한 것은 아닙니다. 배리언트 상품 배포 방식은 다음과 같습니다.

다변량 캠페인에서 메시지가 전송될 때마다 시스템은 설정한 비율에 따라 무작위 옵션을 독립적으로 선택하고 결과에 따라 배리언트를 할당합니다. 동전 던지기와 같이 예외적인 상황이 발생할 수 있습니다. 동전을 100번 던져본 적이 있다면, 선택지가 두 개뿐인데도 매번 앞면과 뒷면이 정확히 50대 50으로 나뉘지 않는다는 것을 알고 있을 것입니다. 52개의 머리와 48개의 꼬리를 얻을 수 있습니다.

균등하게 분할하려는 이형 상품이 여러 개 있는 경우 이형 상품의 수가 100의 배수인지도 확인해야 합니다. 그렇지 않으면 일부 이형 상품은 다른 이형 상품에 비해 해당 이형 상품에 배포되는 사용자 비율이 더 높아집니다. 예를 들어 캠페인에 7개의 배리언트 상품이 있는 경우 7이 정수로 100으로 균등하게 나뉘지 않으므로 배리언트 상품 분포가 짝수일 수 없습니다. 이 경우 15%의 배리언트 상품 2개와 14%의 배리언트 상품 5개를 보유하게 됩니다.

인앱 메시지 관련 참고 사항

앱 내 메시지에 대한 A/B 테스트를 실행할 때, 분석 결과는 두 배리언트 간의 분포가 더 높게 나타날 수 있습니다. 비율이 동일하더라도 말입니다. 예를 들어, 배리언트 A와 배리언트 C에 대한 다음 고유 수신자 그래프를 생각해 보겠습니다.

배리언트 A와 배리언트 C의 모양이 비슷한 두 가지 배리언트에 대한 고유 수신자 그래프(여기서 배리언트 A의 일일 고유 수신자 수가 더 높음)

이는 배리언트 분포 때문이 아니라 인앱 메시지의 고유 수신자 수가 계산되는 방식 때문이며, 배리언트 A가 배리언트 C보다 고유 수신자 수가 지속적으로 더 많습니다. 인앱 메시지의 경우, 고유 수신자는 실제로 인앱 메시지를 수신하고 본 총 사용자 수인 고유 노출 횟수입니다. 즉, 사용자가 어떤 이유로든 메시지를 받지 못하거나 보지 않기로 결정한 경우 고유 수신자 수에 포함되지 않으며 변형 분포가 왜곡되어 나타날 수 있습니다.

테스트 실행 및 종료

초기 테스트는 언제 끝나나요?

단일 전송 캠페인에 배리언트를 사용하는 경우, 배리언트 전송 시간이 도착하면 테스트가 종료됩니다. Braze는 통계적으로 유의미한 차이로 가장 높은 전환율을 보인 배리언트를 승자로 간주합니다.

반복, 액션 기반 및 API 트리거 캠페인의 경우 지능형 선택을 사용하여 각 배리언트의 성능/성과 데이터를 지속적으로 추적하고 실적이 가장 우수한 배리언트를 향해 캠페인 트래픽을 지속적으로 최적화할 수 있습니다. 지능형 선택을 사용하면 사용자가 무작위 배리언트를 받는 실험 그룹을 명시적으로 정의하는 대신 Braze 알고리즘이 지속적으로 가장 성능이 좋은 배리언트에 대한 추정치를 개선하여 잠재적으로 최고 성능의 배리언트를 더 빠르게 선택할 수 있습니다.

반복 캠페인 또는 캔버스 입력 단계에서 캠페인 배리언트를 수신한 사용자를 어떻게 처리하나요?

사용자는 캠페인을 처음 받기 전에 특정 배리언트에 무작위로 배정됩니다. 캠페인을 연속해서 수신할 때마다(또는 사용자가 캔버스 배리언트를 다시 입력할 때마다) 배리언트 비율을 수정하지 않는 한 동일한 배리언트를 수신하게 됩니다. 배리언트 비율이 변경되면 사용자는 다른 배리언트로 재배포될 수 있습니다. 사용자는 백분율이 다시 수정될 때까지 이러한 배리언트를 유지합니다. 사용자는 편집된 배리언트에 대해서만 재배포됩니다.

예를 들어 세 가지 배리언트가 있는 캠페인 또는 캔버스가 있다고 가정해 보겠습니다. 배리언트 A와 배리언트 B만 변경되거나 업데이트되는 경우 배리언트 C의 배리언트 비율은 변경되지 않았으므로 배리언트 C에 속한 사용자는 재배포되지 않습니다. 배리언트 비율이 변경되지 않은 경우 대조군은 일관성을 유지합니다. 이전에 메시지를 받은 사용자는 나중에 메시지를 보낼 때 대조군에 들어갈 수 없으며, 대조군의 어떤 사용자도 메시지를 받을 수 없습니다.

실험 경로는 어떻게 되나요?

실험에 따른 캔버스 경로도 배리언트이므로 동일하게 적용됩니다.

캠페인과 캔버스에서 사용자를 재분배하는 조치를 취할 수 있나요?

캔버스에서 사용자를 재분배하는 유일한 방법은 실험 경로에서 무작위 경로를 사용하는 것으로, 사용자가 캔버스에 다시 들어갈 때 항상 경로 할당을 무작위로 지정합니다. 그러나 이는 표준 실험이 아니며 대조군이 치료 사용자로 오염될 수 있기 때문에 실험 결과가 무효화될 수 있습니다.

신뢰와 편견

시간이 지남에 따라 자신감이 증가하나요?

다른 모든 것이 일정하다면 신뢰도는 시간이 지남에 따라 증가합니다. 상수를 유지한다는 것은 배리언트 A가 테스트 도중에 종료되는 25% 할인 판매에 대해 이야기하는 것과 같이 배리언트에 영향을 줄 수 있는 다른 마케팅 요소가 없다는 것을 의미합니다.

신뢰도는 배리언트가 대조군과 다르다는 것을 얼마나 확신하는지를 측정한 값입니다. 더 많은 메시징이 전송될수록 테스트의 통계적 파워가 증가하여 측정된 성능/성과의 차이가 무작위적인 우연에 의한 것이 아니라는 신뢰도가 높아집니다. 일반적으로 샘플 크기가 클수록 배리언트와 대조군 간의 성능/성과의 작은 차이를 식별할 수 있는 신뢰도가 높아집니다.

대조군과 테스트군 할당이 테스트에 편향을 가져올 수 있나요?

특정 캠페인이나 캔버스를 만들기 전 사용자의 속성이나 행동이 배리언트와 제어 간에 체계적으로 달라질 수 있는 실질적인 방법은 없습니다.

사용자를 캠페인 배리언트, 캔버스 배리언트 또는 각각의 대조군에 할당하려면 먼저 무작위로 생성된 사용자 ID를 무작위로 생성된 캠페인 또는 캔버스 ID와 연결합니다. 다음으로, sha256 해싱 알고리즘을 적용하고 그 결과를 100으로 나눈 후 나머지를 유지합니다(100을 갖는 계수라고도 함). 마지막으로, 대시보드에서 선택한 배리언트(및 선택적 제어)에 대한 할당 비율에 해당하는 슬라이스로 사용자를 정렬합니다.

대조군으로 속도 제한을 사용할 수 없는 이유는 무엇인가요?

현재 Braze는 대조군이 있는 A/B 테스트를 통한 속도 제한을 지원하지 않습니다. 배리언트와 같은 방식으로 속도 제한이 대조군에는 적용되지 않아 편향이 발생할 수 있기 때문입니다. 대신 분석 및 캠페인의 성능/성과에 따라 각 배리언트를 수신할 사용자 비율을 자동으로 조정하는 지능형 선택을 사용하는 것을 고려해 보세요.

New Stuff!