多変量テストと AB テストの分析
この記事では、多変量テストまたは AB テストの結果を表示する方法について説明します。テストをまだ設定していない場合は、多変量テストと AB テストの作成の手順を参照してください。
キャンペーンを起動した後、ダッシュボードのキャンペーンセクションからキャンペーンを選択して、各バリアントのパフォーマンスを確認できます。
最適化オプション別の分析
分析ビューは、初期設定時に選択した最適化によって異なります。
最適化なし
キャンペーンの設定時に最適化なしを選択した場合、分析ビューは変わりません。キャンペーンのキャンペーン分析ページには、コントロールグループを含めた場合、コントロールグループに対するバリアントのパフォーマンスが表示されます。

詳細については、お使いのメッセージングチャネルのキャンペーン分析の記事を参照してください。
勝者バリアント
キャンペーンの設定時に最適化として勝者バリアントを選択した場合、キャンペーン分析に AB テスト結果という追加タブにアクセスできます。勝者バリアントがテストの残りのユーザーに送信された後、このタブにはその送信の結果が表示されます。
AB テスト結果は、初期テストと勝者バリアントの2つのタブに分かれています。
初期テストタブには、ターゲットセグメントの一部に送信された初期 AB テストの各バリアントの指標が表示されます。すべてのバリアントのパフォーマンスの概要と、テスト中に勝者が出たかどうかを確認できます。
あるバリアントが95%の信頼度で他のすべてのバリアントを上回った場合、Braze はそのバリアントに「Winner」ラベルを付けます。
95%の信頼度で他のすべてのバリアントを上回るバリアントがなく、それでも最もパフォーマンスの高いバリアントを送信することを選択した場合、最もパフォーマンスの高いバリアントが送信され、「Winner」ラベルが付けられます。

勝者バリアントの選択方法
Braze は、すべてのバリアントをピアソンのカイ二乗検定を使用して相互に比較します。これは、あるバリアントが p < 0.05 の有意水準(95%の有意性と呼ばれるもの)で他のすべてのバリアントを統計的に上回っているかどうかを測定します。該当する場合、勝者バリアントに「Winner」ラベルが付けられます。
これは信頼度スコアとは別のテストです。信頼度スコアは、コントロールと比較したバリアントのパフォーマンスを0から100%の数値で表すものです。
バリアントがコントロールグループよりも優れたパフォーマンスを示しても、カイ二乗検定では、あるバリアントが他のすべてのバリアントよりも優れているかどうかを確認します。フォローアップテストにより、より詳細な情報が得られる場合があります。
勝者バリアントタブには、残りの各ユーザーに初期テストで最もパフォーマンスの高いバリアントが送信された2回目の送信結果が表示されます。オーディエンス % は、勝者バリアントグループ用に予約したターゲットセグメントの割合の合計になります。

AB テスト送信を含むキャンペーン全体での勝者バリアントのパフォーマンスを確認するには、キャンペーン分析ページを確認してください。
パーソナライズ済みバリアント
キャンペーンの設定時に最適化としてパーソナライズ済みバリアントを選択した場合、AB テスト結果は初期テストとパーソナライズ済みバリアントの2つのタブに分かれています。
初期テストタブには、ターゲットセグメントの一部に送信された初期 AB テストの各バリアントの指標が表示されます。

デフォルトでは、テストはユーザーのカスタムイベントとメッセージバリアントの好みとの関連性を探します。この分析では、カスタムイベントが特定のメッセージバリアントへの反応の可能性を高めるか低めるかを検出します。これらの関係性は、最終送信でどのユーザーにどのメッセージバリアントを送信するかを決定するために使用されます。
カスタムイベントとメッセージの好みとの関係性は、初期送信タブのテーブルに表示されます。

テストでカスタムイベントとパスの好みとの間に意味のある関係性が見つからない場合、テストはセッションベースの分析方法にフォールバックし、カスタムイベントのデータテーブルは表示されません。
フォールバック分析方法
セッションベースの分析方法
パーソナライズ済みバリアントの決定にフォールバック方法が使用される場合、初期テストタブには、特定の特性の組み合わせに基づくユーザーの好みのバリアントの内訳が表示されます。
これらの特性は以下のとおりです。
- 最新性: 最後にセッションを行った時期
- 頻度: セッションの頻度
- 利用期間: ユーザーになってからの期間
たとえば、テストでほとんどのユーザーがバリアント A を好むが、約3〜12日前にセッションを行い、セッション間隔が1〜12日で、過去67〜577日以内に作成されたユーザーはバリアント B を好む傾向があることがわかる場合があります。そのため、そのサブポピュレーションのユーザーは2回目の送信でバリアント B を受信し、残りのユーザーはバリアント A を受信しました。

パーソナライズ済みバリアントの選択方法
この方法では、個々のユーザーに推奨されるメッセージは、そのユーザー固有の最新性、頻度、利用期間の効果の合計です。最新性、頻度、利用期間は、ユーザー特性テーブルに示されているようにバケットに分割されます。各バケットの時間範囲は、各キャンペーンのユーザーデータによって決定され、キャンペーンごとに異なります。
各バケットは、各メッセージバリアントに対して異なる寄与度または「プッシュ」を持つことができます。各バケットのプッシュの強さは、ロジスティック回帰を使用して初期送信でのユーザーの反応から決定されます。このテーブルは、各バケットのユーザーがどのバリアントにエンゲージする傾向があったかを表示することで、結果を要約しているだけです。個々のユーザーの実際のパーソナライズ済みバリアントは、各特性に1つずつ、合計3つのバケットの効果の合計によって決まります。
パーソナライズ済みバリアントタブには、残りの各ユーザーに最もエンゲージする可能性の高いバリアントが送信された2回目の送信結果が表示されます。
このページの3つのカードには、予測リフト、全体的な結果、および勝者バリアントのみを送信した場合の予測結果が表示されます。リフトがない場合もありますが(これは時々発生します)、結果は勝者バリアントのみを送信した場合(従来の AB テスト)と同じになります。
- 予測リフト: 標準的な AB テスト(残りのユーザーが勝者バリアントのみを受信した場合)の代わりにパーソナライズ済みバリアントを使用したことによる、選択した最適化指標の改善度。
- 全体的な結果: 選択した最適化指標(ユニーク開封数、ユニーククリック数、または1次コンバージョンイベント)に基づく2回目の送信結果。
- 予測結果: 勝者バリアントのみを送信した場合の、選択した最適化指標に基づく2回目の送信の予測結果。

このページのテーブルには、パーソナライズ済みバリアント送信の各バリアントの指標が表示されます。オーディエンス % は、パーソナライズ済みバリアントグループ用に予約したターゲットセグメントの割合の合計になります。

信頼度について
信頼度とは、コンバージョン率などのデータの差異が実際のものであり、単なるランダムな偶然によるものではないことをどの程度確信できるかを示す統計的尺度です。
結果に信頼度が表示されませんか?信頼度は、コントロールグループがある場合にのみ表示されます。
結果の重要な部分は、結果の信頼度です。たとえば、コントロールグループのコンバージョン率が20%で、バリアント A のコンバージョン率が25%だった場合はどうでしょうか?これは、バリアント A を送信する方がメッセージを送信しないよりも効果的であることを示しているように見えます。95%の信頼度があるということは、2つのコンバージョン率の差がユーザーの反応の実際の違いによるものである可能性が高く、偶然によって差が生じた可能性はわずか5%であることを意味します。
Braze は、各バリアントのコンバージョン率をコントロールのコンバージョン率と Z 検定と呼ばれる統計的手法で比較します。前述の例のように、95%以上の信頼度の結果は、その差が統計的に意味があることを示しています。これは、Braze ダッシュボードで2つのメッセージまたはユーザー集団の差を表す信頼度指標が表示されるすべての場所に当てはまります。
一般的に、結果がユーザーの実際の好みを反映しており、偶然によるものではないことを示すには、少なくとも95%の信頼度が必要です。厳密な科学的テストでは、95%の信頼度(一般的に「p」値が0.05未満と呼ばれるもの)が統計的有意性を判断するための一般的な基準として使用されます。95%の信頼度を継続的に達成できない場合は、サンプルサイズを増やすか、バリアントの数を減らしてみてください。
信頼度は、あるバリアントが他のバリアントよりも優れているかどうかを示すものではありません。2つ(またはそれ以上)のコンバージョン率が実際に互いに異なるかどうかについて、どの程度確信できるかを純粋に測定するものです。これはサンプルサイズと見かけ上のコンバージョン率の差のみの関数です。全体的な率が高いか低いかは、信頼度の強さに影響しません。あるバリアントが別のバリアントと非常に異なるコンバージョン率を持っていても、95%以上の信頼度がない場合があります。また、2つのバリアントセットが類似のコンバージョン率/リフト率を持っていても、信頼度が異なる場合もあります。
統計的に有意でない結果
95%の信頼度がないテストでも、重要なインサイトを含んでいる場合があります。統計的に有意でない結果のテストから学べることをいくつか紹介します。
- すべてのバリアントがほぼ同じ効果を持っていた可能性があります。これを知ることで、これらの変更を行うために費やしたであろう時間を節約できます。行動喚起を繰り返すなどの従来のマーケティング手法が、必ずしもオーディエンスに効果的ではないことがわかる場合もあります。
- 結果が偶然によるものであった可能性がありますが、次のテストの仮説を立てるのに役立ちます。複数のバリアントがほぼ同じ結果を示しているように見える場合は、それらのいくつかを新しいバリアントと一緒に再度実行して、より効果的な代替案を見つけられるかどうかを確認してください。あるバリアントがわずかに優れているが有意な差ではない場合は、そのバリアントの差がより顕著になるように別のテストを実行できます。
- テストを続けましょう!有意でない結果のテストは、特定の疑問につながるはずです。バリアント間に本当に差がなかったのでしょうか?テストの構成を変えるべきだったのでしょうか?フォローアップテストを実行することで、これらの疑問に答えることができます。
- テストは、オーディエンスから最も反応を得られるメッセージの種類を発見するのに役立ちますが、メッセージングのどの変更がわずかな効果しかないかを理解することも重要です。これにより、より効果的な代替案を引き続きテストするか、2つの代替メッセージの間で決定するために費やしたであろう時間を節約できます。
テストに明確な勝者がいるかどうかにかかわらず、結果を確認したり、少し異なるシナリオに発見を適用したりするために、フォローアップテストを実行することが役立つ場合があります。
コントロールグループとバリアント間の不一致
アプリ内メッセージキャンペーンでは、ユーザーのトラッキング方法とインプレッションの記録方法により、コントロールグループとバリアント間の予想される分割に不一致が生じる場合があります。これは、実際に記録されたインプレッションがこの分割を反映していない場合があり、Braze はトリガーを実行する個々のユーザーの行動を最終的にコントロールできないためです。
たとえば、キャンペーンの起動時にターゲットオーディエンスが200ユーザーで、コントロールグループに100ユーザー、バリアントに100ユーザーがいるとします。
バリアントの100ユーザーはアプリ内メッセージのペイロードを受信し、そのうち50人がトリガーアクションを実行してアプリ内メッセージを表示します。コントロールグループの100ユーザーは、キャンペーンのトリガーアクションを実行した場合にのみトラッキングされ、75人がトリガーアクションを実行してインプレッションを記録しますが、アプリ内メッセージは表示されません。
最初の50/50の分割にもかかわらず、記録されたユニークインプレッションはバランスが取れていません。バリアントグループには50インプレッション、コントロールグループには75インプレッションがあります。
アプリ内メッセージの遅延
表示遅延を含むトリガーされたアプリ内メッセージキャンペーンの場合、コントロールグループのインプレッションは、エンドユーザーが本来アプリ内メッセージを受信するはずだったタイミングで記録されます。たとえば、キャンペーンが表示を1時間遅延するように設定されている場合、コントロールグループのインプレッションは1時間の遅延が経過するまで記録されません。これにより、メッセージ配信の意図されたタイミングに関連するインプレッションの正確なトラッキングが可能になります。
推奨されるフォローアップ
1回の多変量テストと AB テストは、将来のテストのアイデアを刺激し(そうすべきです!)、メッセージング戦略の変更を導くことができます。考えられるフォローアップアクションには以下が含まれます。
テスト結果に基づいてメッセージング戦略を変更する
多変量テストの結果により、メッセージの文言やフォーマットの方法を変更することになる場合があります。
ユーザーの理解方法を変更する
各テストは、ユーザーの行動、ユーザーがさまざまなメッセージングチャネルにどのように反応するか、セグメント間の違い(および類似点)を明らかにします。
将来のテストの構成方法を改善する
サンプルサイズが小さすぎましたか?バリアント間の差が微妙すぎましたか?各テストは、将来のテストを改善する方法を学ぶ機会を提供します。信頼度が低い場合は、サンプルサイズが小さすぎるため、将来のテストでは拡大する必要があります。バリアントのパフォーマンスに明確な差が見られない場合は、差が微妙すぎてユーザーの反応に識別可能な効果を与えられなかった可能性があります。
より大きなサンプルサイズでフォローアップテストを実行する
サンプルが大きいほど、バリアント間の小さな差を検出できる可能性が高くなります。
異なるメッセージングチャネルを使用してフォローアップテストを実行する
特定の戦略があるチャネルで非常に効果的であることがわかった場合、その戦略を他のチャネルでもテストしたいと思うかもしれません。あるタイプのメッセージがあるチャネルでは効果的だが別のチャネルでは効果的でない場合、特定のタイプのメッセージに対してより適したチャネルがあると結論付けることができるかもしれません。あるいは、プッシュ通知を有効にする可能性が高いユーザーと、アプリ内メッセージに注意を払う可能性が高いユーザーとの間に違いがあるかもしれません。最終的に、この種のテストを実行することで、オーディエンスがさまざまなコミュニケーションチャネルとどのようにやり取りするかを学ぶのに役立ちます。
異なるユーザーセグメントでフォローアップテストを実行する
これを行うには、同じメッセージングチャネルとバリアントで別のテストを作成しますが、異なるユーザーセグメントを選択します。たとえば、あるタイプのメッセージングがエンゲージメントの高いユーザーに非常に効果的だった場合、休眠ユーザーへの効果を調査することが有用かもしれません。休眠ユーザーが同様に反応する可能性もあれば、他のバリアントのいずれかを好む可能性もあります。このテストは、さまざまなセグメントとそれらがさまざまなタイプのメッセージにどのように反応するかについて、より多くのことを学ぶのに役立ちます。データに基づいて戦略を立てることができるのに、セグメントについて仮定を立てる必要はありません。
以前のテストからのインサイトに基づいてフォローアップテストを実行する
過去のテストから得たインサイトを使用して、将来のテストを導きましょう。以前のテストで、あるメッセージング手法がより効果的であることが示唆されていますか?バリアントのどの特定の側面がより優れていたのか確信が持てませんか?これらの疑問に基づいてフォローアップテストを実行することで、ユーザーに関する洞察に富んだ発見を生み出すのに役立ちます。
異なるバリアントの長期的な影響を比較する
再エンゲージメントメッセージの AB テストを行っている場合は、リテンションレポートを使用して、異なるバリアントの長期的な影響を比較することを忘れないでください。リテンションレポートを使用して、メッセージ受信後の数日、数週間、1か月後に、各バリアントが選択したユーザー行動にどのような影響を与えたかを分析し、リフトがあるかどうかを確認できます。