다변량 및 A/B 테스트 분석
이 문서에서는 다변량 또는 A/B 테스트의 결과를 확인하는 방법을 설명합니다. 아직 테스트를 설정하지 않았다면 다변량 및 A/B 테스트 생성에서 단계를 참조하세요.
캠페인이 시작된 후 대시보드의 캠페인 섹션에서 캠페인을 선택하여 각 배리언트의 성과를 확인할 수 있습니다.
최적화 옵션별 분석
분석 보기는 초기 설정 시 최적화를 선택했는지에 따라 달라집니다.
최적화 없음
캠페인 설정 시 최적화 없음을 선택한 경우 분석 보기는 동일하게 유지됩니다. 캠페인의 캠페인 분석 페이지에서 대조군을 포함한 경우 대조군 대비 배리언트의 성과를 확인할 수 있습니다.

자세한 내용은 메시징 채널에 대한 캠페인 분석 문서를 참조하세요.
우승 배리언트
캠페인 설정 시 최적화로 우승 배리언트를 선택한 경우, 캠페인 분석에 A/B 테스트 결과라는 추가 탭에 접근할 수 있습니다. 우승 배리언트가 테스트의 나머지 사용자에게 발송된 후 이 탭에 해당 발송 결과가 표시됩니다.
A/B 테스트 결과는 초기 테스트와 우승 배리언트 두 개의 탭으로 나뉩니다.
초기 테스트 탭에는 타겟 세그먼트의 일부에게 발송된 초기 A/B 테스트의 각 배리언트에 대한 측정기준이 표시됩니다. 모든 배리언트의 성과 요약과 테스트 중 우승자가 있었는지 여부를 확인할 수 있습니다.
하나의 배리언트가 95% 신뢰도 이상으로 다른 모든 배리언트보다 우수한 성과를 보인 경우, Braze는 해당 배리언트에 “우승” 라벨을 표시합니다.
95% 신뢰도로 다른 모든 배리언트를 이기는 배리언트가 없고 최고 성과 배리언트를 그래도 발송하기로 선택한 경우, 최고 성과 배리언트가 여전히 발송되며 “우승” 라벨이 표시됩니다.

우승 배리언트 선택 방법
Braze는 피어슨 카이제곱 검정을 사용하여 모든 배리언트를 서로 비교합니다. 이 검정은 하나의 배리언트가 p < 0.05의 유의 수준, 즉 95% 유의성이라고 하는 수준에서 다른 모든 배리언트보다 통계적으로 우수한 성과를 보이는지 측정합니다. 그렇다면 우승 배리언트에 “우승” 라벨이 표시됩니다.
이것은 신뢰도 점수와는 별개의 검정입니다. 신뢰도 점수는 대조군과 비교한 배리언트의 성과를 0에서 100% 사이의 숫자 값으로만 설명합니다.
배리언트가 대조군보다 더 나은 성과를 보일 수 있지만, 카이제곱 검정은 하나의 배리언트가 나머지 모든 배리언트보다 더 나은지를 확인합니다. 후속 테스트를 통해 더 자세한 내용을 확인할 수 있습니다.
우승 배리언트 탭에는 나머지 각 사용자에게 초기 테스트에서 최고 성과를 보인 배리언트를 발송한 두 번째 발송 결과가 표시됩니다. 오디언스 %는 우승 배리언트 그룹을 위해 예약한 타겟 세그먼트의 비율을 합산합니다.

A/B 테스트 발송을 포함하여 캠페인 전체에서 우승 배리언트의 성과를 확인하려면 캠페인 분석 페이지를 확인하세요.
개인화된 배리언트
캠페인 설정 시 최적화로 개인화된 배리언트를 선택한 경우, A/B 테스트 결과는 초기 테스트와 개인화된 배리언트 두 개의 탭으로 나뉩니다.
초기 테스트 탭에는 타겟 세그먼트의 일부에게 발송된 초기 A/B 테스트의 각 배리언트에 대한 측정기준이 표시됩니다.

기본적으로 테스트는 사용자의 커스텀 이벤트와 메시지 배리언트 선호도 간의 연관성을 찾습니다. 이 분석은 커스텀 이벤트가 특정 메시지 배리언트에 대한 응답 가능성을 높이거나 낮추는지 감지합니다. 이러한 관계는 최종 발송에서 어떤 사용자가 어떤 메시지 배리언트를 받을지 결정하는 데 사용됩니다.
커스텀 이벤트와 메시지 선호도 간의 관계는 초기 발송 탭의 표에 표시됩니다.

테스트에서 커스텀 이벤트와 경로 선호도 간의 의미 있는 관계를 찾지 못하면 세션 기반 분석 방법으로 대체되며, 커스텀 이벤트 데이터 표는 표시되지 않습니다.
대체 분석 방법
세션 기반 분석 방법
대체 방법을 사용하여 개인화된 배리언트를 결정하는 경우, 초기 테스트 탭에는 특정 특성의 조합을 기반으로 사용자의 선호 배리언트 분류가 표시됩니다.
이러한 특성은 다음과 같습니다:
- 최근성: 마지막으로 세션을 가진 시점
- 빈도: 세션을 가지는 빈도
- 사용 기간: 사용자가 된 기간
예를 들어, 테스트에서 대부분의 사용자가 배리언트 A를 선호하지만, 약 3~12일 전에 세션을 가졌고, 세션 간격이 1~12일이며, 최근 67~577일 이내에 생성된 사용자는 배리언트 B를 선호하는 경향이 있다고 발견할 수 있습니다. 따라서 해당 하위 집단의 사용자는 두 번째 발송에서 배리언트 B를 받았고, 나머지는 배리언트 A를 받았습니다.

개인화된 배리언트 선택 방법
이 방법에서 개별 사용자의 추천 메시지는 해당 사용자의 특정 최근성, 빈도, 사용 기간의 효과를 합산한 것입니다. 최근성, 빈도, 사용 기간은 사용자 특성 표에 표시된 것처럼 버킷으로 나뉩니다. 각 버킷의 시간 범위는 각 개별 캠페인의 사용자 데이터에 의해 결정되며 캠페인마다 달라집니다.
각 버킷은 각 메시지 배리언트에 대해 서로 다른 기여도 또는 “추진력”을 가질 수 있습니다. 각 버킷의 추진력 강도는 로지스틱 회귀를 사용하여 초기 발송에서의 사용자 응답으로부터 결정됩니다. 이 표는 각 버킷의 사용자가 어떤 배리언트에 참여하는 경향이 있었는지를 보여주는 결과만 요약합니다. 개별 사용자의 실제 개인화된 배리언트는 해당 사용자가 속한 세 가지 버킷(각 특성당 하나)의 효과를 합산하여 결정됩니다.
개인화된 배리언트 탭에는 나머지 각 사용자에게 가장 참여할 가능성이 높은 배리언트를 발송한 두 번째 발송 결과가 표시됩니다.
이 페이지의 세 개 카드는 예상 상승률, 전체 결과, 그리고 우승 배리언트만 발송했을 경우의 예상 결과를 보여줍니다. 상승이 없는 경우도 있을 수 있으며, 이 경우 결과는 우승 배리언트만 발송하는 것(기존 A/B 테스트)과 동일합니다.
- 예상 상승률: 표준 A/B 테스트(나머지 사용자가 우승 배리언트만 받는 경우) 대신 개인화된 배리언트를 사용하여 이 발송에서 선택한 최적화 측정기준의 개선 정도입니다.
- 전체 결과: 선택한 최적화 측정기준(고유 열람, 고유 클릭, 또는 주요 전환 이벤트)을 기반으로 한 두 번째 발송의 결과입니다.
- 예상 결과: 우승 배리언트만 발송했을 경우 선택한 최적화 측정기준을 기반으로 한 두 번째 발송의 예상 결과입니다.

이 페이지의 표에는 개인화된 배리언트 발송의 각 배리언트에 대한 측정기준이 표시됩니다. 오디언스 %는 개인화된 배리언트 그룹을 위해 예약한 타겟 세그먼트의 비율을 합산합니다.

신뢰도 이해하기
신뢰도는 전환율과 같은 데이터의 차이가 실제로 존재하며 단순히 무작위 우연에 의한 것이 아닌지를 나타내는 통계적 측정값입니다.
결과에서 신뢰도가 보이지 않나요? 신뢰도는 대조군이 있는 경우에만 표시됩니다.
결과에서 중요한 부분은 결과의 신뢰도입니다. 예를 들어, 대조군의 전환율이 20%이고 배리언트 A의 전환율이 25%라면 어떨까요? 이는 배리언트 A를 발송하는 것이 메시지를 보내지 않는 것보다 더 효과적임을 나타내는 것처럼 보입니다. 95%의 신뢰도를 갖는다는 것은 두 전환율 간의 차이가 사용자 응답의 실제 차이에 의한 것일 가능성이 높으며, 우연에 의해 차이가 발생했을 가능성이 5%에 불과하다는 것을 의미합니다.
Braze는 Z 검정이라는 통계적 절차를 사용하여 각 배리언트의 전환율을 대조군의 전환율과 비교합니다. 앞의 예시처럼 95% 이상의 신뢰도 결과는 차이가 통계적으로 의미 있음을 나타냅니다. 이는 Braze 대시보드에서 두 메시지 또는 사용자 집단 간의 차이를 설명하는 신뢰도 측정기준이 표시되는 모든 곳에서 동일하게 적용됩니다.
일반적으로 결과가 우연이 아닌 사용자의 실제 선호도를 반영하고 있음을 보여주려면 최소 95%의 신뢰도가 필요합니다. 엄격한 과학적 테스트에서 95% 신뢰도(또는 일반적으로 “p” 값이 0.05 미만이라고 하는 것)는 통계적 유의성을 결정하는 데 사용되는 일반적인 기준입니다. 지속적으로 95% 신뢰도를 달성하지 못하는 경우 표본 크기를 늘리거나 배리언트 수를 줄여 보세요.
신뢰도는 하나의 배리언트가 다른 배리언트보다 더 나은지를 설명하지 않습니다. 이는 순수하게 두 개(또는 그 이상)의 전환율이 실제로 서로 다른지에 대한 확신의 정도를 측정하는 것입니다. 이는 표본 크기와 겉보기 전환율 간의 차이에만 의존합니다. 전체 비율이 높든 낮든 신뢰도 측정의 강도에는 영향을 미치지 않습니다. 하나의 배리언트가 다른 배리언트와 매우 다른 전환율을 가지면서도 95% 이상의 신뢰도를 갖지 못할 수 있습니다. 또한 두 세트의 배리언트가 유사한 전환율/상승률을 가지면서도 서로 다른 신뢰도를 가질 수도 있습니다.
통계적으로 유의하지 않은 결과
95% 신뢰도를 갖지 못하는 테스트도 여전히 중요한 인사이트를 제공할 수 있습니다. 통계적으로 유의하지 않은 결과를 가진 테스트에서 배울 수 있는 몇 가지 사항은 다음과 같습니다:
- 모든 배리언트가 대략 동일한 효과를 가졌을 수 있습니다. 이를 알면 이러한 변경을 하는 데 소요되었을 시간을 절약할 수 있습니다. 때로는 행동 유도 문구를 반복하는 것과 같은 기존 마케팅 전략이 반드시 오디언스에게 효과적이지 않다는 것을 발견할 수 있습니다.
- 결과가 우연에 의한 것일 수 있지만, 다음 테스트의 가설을 세우는 데 도움이 될 수 있습니다. 여러 배리언트가 대략 동일한 결과를 보이는 것 같다면, 새로운 배리언트와 함께 일부를 다시 실행하여 더 효과적인 대안을 찾을 수 있는지 확인하세요. 하나의 배리언트가 더 나은 성과를 보이지만 유의미한 수준은 아닌 경우, 해당 배리언트의 차이를 더 과장하여 다른 테스트를 수행할 수 있습니다.
- 계속 테스트하세요! 유의하지 않은 결과를 가진 테스트는 특정 질문으로 이어져야 합니다. 배리언트 간에 정말 차이가 없었나요? 테스트를 다르게 구성했어야 했나요? 후속 테스트를 실행하여 이러한 질문에 답할 수 있습니다.
- 테스트는 어떤 유형의 메시징이 오디언스로부터 가장 많은 반응을 이끌어내는지 발견하는 데 유용하지만, 메시징의 어떤 변경이 미미한 효과만 가지는지 이해하는 것도 중요합니다. 이를 통해 다른 더 효과적인 대안을 계속 테스트하거나, 두 가지 대체 메시지 사이에서 결정하는 데 소요되었을 시간을 절약할 수 있습니다.
테스트에 명확한 우승자가 있든 없든, 후속 테스트를 실행하여 결과를 확인하거나 약간 다른 시나리오에 발견한 내용을 적용하는 것이 도움이 될 수 있습니다.
대조군과 배리언트 간의 불일치
인앱 메시지 캠페인에서는 사용자가 추적되는 방식과 노출 횟수가 기록되는 방식으로 인해 대조군과 배리언트 간의 예상 분할에 불일치가 발생할 수 있습니다. 이는 실제로 기록된 노출 횟수가 이 분할을 반영하지 않을 수 있으며, Braze는 궁극적으로 트리거를 수행할 개별 사용자의 행동을 제어할 수 없기 때문입니다.
예를 들어, 캠페인의 타겟 오디언스가 시작 시 200명의 사용자이고, 대조군에 100명, 배리언트에 100명이 있다고 가정해 보겠습니다.
배리언트의 100명의 사용자가 인앱 메시지 페이로드를 받고, 그 중 50명이 트리거 동작을 수행하여 인앱 메시지를 봅니다. 대조군의 100명의 사용자는 캠페인의 트리거 동작을 수행한 경우에만 추적되며, 75명이 트리거 동작을 수행하여 노출 횟수를 기록하지만 인앱 메시지를 보지는 않습니다.
초기 50/50 분할에도 불구하고 기록된 고유 노출 횟수는 균형이 맞지 않습니다. 배리언트 그룹은 50회의 노출 횟수를, 대조군은 75회의 노출 횟수를 가집니다.
인앱 메시지 지연
지연 표시를 포함하는 트리거된 인앱 메시지 캠페인의 경우, 대조군 노출 횟수는 최종 사용자가 원래 인앱 메시지를 받았을 시점에 기록됩니다. 예를 들어, 캠페인이 표시를 1시간 지연하도록 설정된 경우, 대조군 노출 횟수는 1시간 지연이 경과한 후에야 기록됩니다. 이는 메시지 전달의 의도된 타이밍과 관련된 노출 횟수의 정확한 추적에 도움이 됩니다.
권장 후속 조치
하나의 다변량 및 A/B 테스트는 향후 테스트에 대한 아이디어를 영감을 줄 수 있으며(그래야 합니다!), 메시징 전략의 변경을 안내할 수 있습니다. 가능한 후속 조치는 다음과 같습니다:
테스트 결과를 기반으로 메시징 전략 변경
다변량 결과를 통해 메시징의 문구나 형식을 변경하게 될 수 있습니다.
사용자에 대한 이해 방식 변경
각 테스트는 사용자의 행동, 사용자가 다양한 메시징 채널에 어떻게 반응하는지, 세그먼트 간의 차이점(및 유사점)에 대한 인사이트를 제공합니다.
향후 테스트 구성 방식 개선
표본 크기가 너무 작았나요? 배리언트 간의 차이가 너무 미묘했나요? 각 테스트는 향후 테스트를 개선하는 방법을 배울 수 있는 기회를 제공합니다. 신뢰도가 낮다면 표본 크기가 너무 작으므로 향후 테스트에서 확대해야 합니다. 배리언트의 성과 간에 명확한 차이가 없다면, 차이가 너무 미묘하여 사용자의 응답에 식별 가능한 효과를 미치지 못했을 수 있습니다.
더 큰 표본 크기로 후속 테스트 실행
더 큰 표본은 배리언트 간의 작은 차이를 감지할 가능성을 높입니다.
다른 메시징 채널을 사용하여 후속 테스트 실행
특정 전략이 하나의 채널에서 매우 효과적이라면, 다른 채널에서도 해당 전략을 테스트해 볼 수 있습니다. 한 유형의 메시지가 하나의 채널에서는 효과적이지만 다른 채널에서는 효과적이지 않다면, 특정 채널이 특정 유형의 메시지에 더 적합하다는 결론을 내릴 수 있습니다. 또는 푸시 알림을 활성화할 가능성이 더 높은 사용자와 인앱 메시지에 더 주의를 기울일 가능성이 더 높은 사용자 간에 차이가 있을 수 있습니다. 궁극적으로 이러한 종류의 테스트를 실행하면 오디언스가 다양한 커뮤니케이션 채널과 어떻게 상호작용하는지 배우는 데 도움이 됩니다.
다른 사용자 세그먼트에서 후속 테스트 실행
이를 위해 동일한 메시징 채널과 배리언트로 다른 테스트를 생성하되, 다른 사용자 세그먼트를 선택하세요. 예를 들어, 한 유형의 메시징이 참여도가 높은 사용자에게 매우 효과적이었다면, 이탈한 사용자에 대한 효과를 조사하는 것이 유용할 수 있습니다. 이탈한 사용자가 유사하게 반응할 수도 있고, 다른 배리언트 중 하나를 선호할 수도 있습니다. 이 테스트는 다양한 세그먼트와 그들이 다양한 유형의 메시지에 어떻게 반응하는지에 대해 더 많이 배우는 데 도움이 됩니다. 데이터를 기반으로 전략을 세울 수 있는데 왜 세그먼트에 대해 가정을 하나요?
이전 테스트의 인사이트를 기반으로 후속 테스트 실행
과거 테스트에서 수집한 인사이트를 활용하여 향후 테스트를 안내하세요. 이전 테스트에서 하나의 메시징 기법이 더 효과적이라는 힌트가 있었나요? 배리언트를 더 좋게 만든 특정 측면이 무엇인지 확실하지 않나요? 이러한 질문을 기반으로 후속 테스트를 실행하면 사용자에 대한 통찰력 있는 발견을 생성하는 데 도움이 됩니다.
다양한 배리언트의 장기적 영향 비교
재참여 메시지에 대해 A/B 테스트를 하는 경우, 리텐션 보고서를 사용하여 다양한 배리언트의 장기적 영향을 비교하는 것을 잊지 마세요. 리텐션 보고서를 사용하여 각 배리언트가 메시지 수신 후 며칠, 몇 주, 한 달 후에 선택한 사용자 행동에 어떤 영향을 미쳤는지 분석하고, 상승이 있는지 확인할 수 있습니다.