このページはAIにより自動翻訳されており、不正確な内容が含まれている可能性があります。翻訳の誤りを報告するには、ページ右側の目次の下にあるフィードバックをご利用ください。

多変量テストとABテストの分析

この記事では、多変量テストまたはABテストの結果を表示する方法について説明します。テストをまだ設定していない場合は、多変量テストとABテストの作成の手順を参照してください。

キャンペーンを起動した後、ダッシュボードのキャンペーンセクションからキャンペーンを選択して、各バリアントのパフォーマンスを確認できます。

最適化オプション別の分析

分析ビューは、初期設定時に選択した最適化によって異なります。

最適化なし

キャンペーンの設定時に最適化なしを選択した場合、分析ビューは変わりません。キャンペーンのキャンペーン分析ページには、コントロールグループを含めた場合、コントロールグループに対するバリアントのパフォーマンスが表示されます。

複数のバリアントを持つメールキャンペーンのキャンペーン分析のパフォーマンスセクション。テーブルには、受信者数、バウンス数、クリック数、コンバージョン数など、各バリアントのさまざまなパフォーマンス指標が一覧表示されます。

詳細については、お使いのメッセージングチャネルのキャンペーン分析の記事を参照してください。

BrazeAI^TMバリアントセレクション（プッシュのみ）

BrazeAI^TMバリアントセレクションを使用している場合、単発送信か定期送信かに応じて、実験ウィンドウ（定期送信の場合は最初の期間）が経過すると、キャンペーンのホームページにリフト（ある場合）が表示されます。単発送信のキャンペーンを実行した場合は、以下の勝者バリアントと同様の詳細も表示されます。

BrazeAI^TMバリアントセレクションでのリフトのレポート方法の詳細については、バリアントセレクションを参照してください。

BrazeAIバリアントセレクションによるリフトを示すキャンペーン分析。実験ウィンドウ後の比較指標が含まれています。

勝者バリアント

キャンペーンの設定時に最適化として勝者バリアントを選択した場合、キャンペーン分析のABテスト結果という追加タブにアクセスできます。勝者バリアントがテストの残りのユーザーに送信された後、このタブにはその送信の結果が表示されます。

ABテスト結果は、初期テストと勝者バリアントの2つのタブに分かれています。

初期テスト
勝者バリアント

初期テストタブには、ターゲットセグメントの一部に送信された初期ABテストの各バリアントの指標が表示されます。すべてのバリアントのパフォーマンスの概要と、テスト中に勝者が出たかどうかを確認できます。

あるバリアントが95%の信頼度で他のすべてのバリアントを上回った場合、Brazeはそのバリアントに「Winner」ラベルを付けます。

95%の信頼度で他のすべてのバリアントを上回るバリアントがなく、それでも最もパフォーマンスの高いバリアントを送信することを選択した場合、最もパフォーマンスの高いバリアントが送信され、「Winner」ラベルが付けられます。

勝者バリアントを決定するために送信された初期テストの結果。統計的有意性の95%信頼度しきい値を満たすのに十分な信頼度で、他のバリアントよりも優れたパフォーマンスを示したバリアントがなかった場合。

勝者バリアントの選択方法

Brazeは、すべてのバリアントをピアソンのカイ二乗検定を使用して相互に比較します。これは、あるバリアントがp < 0.05の有意水準（95%の有意性と呼ばれるもの）で他のすべてのバリアントを統計的に上回っているかどうかを測定します。該当する場合、勝者バリアントに「Winner」ラベルが付けられます。

これは信頼度スコアとは別のテストです。信頼度スコアは、コントロールと比較したバリアントのパフォーマンスを0から100%の数値で表すものです。

バリアントがコントロールグループよりも優れたパフォーマンスを示しても、カイ二乗検定では、あるバリアントが他のすべてのバリアントよりも優れているかどうかを確認します。フォローアップテストにより、より詳細な情報が得られる場合があります。

勝者バリアントタブには、残りの各ユーザーに初期テストで最もパフォーマンスの高いバリアントが送信された2回目の送信結果が表示されます。オーディエンス%は、勝者バリアントグループ用に予約したターゲットセグメントの割合の合計になります。

勝者バリアントグループに送信された勝者バリアントの結果。

ABテスト送信を含むキャンペーン全体での勝者バリアントのパフォーマンスを確認するには、キャンペーン分析ページを確認してください。

パーソナライズされたバリアント

キャンペーンの設定時に最適化としてパーソナライズされたバリアントを選択した場合、ABテスト結果は初期テストとパーソナライズされたバリアントの2つのタブに分かれています。

初期テスト
パーソナライズされたバリアント

初期テストタブには、ターゲットセグメントの一部に送信された初期ABテストの各バリアントの指標が表示されます。

各ユーザーに最適なバリアントを決定するために送信された初期テストの結果。テーブルには、ターゲットチャネルのさまざまな指標に基づく各バリアントのパフォーマンスが表示されます。

デフォルトでは、テストはユーザーのカスタムイベントとメッセージバリアントの好みとの関連性を探します。この分析では、カスタムイベントが特定のメッセージバリアントへの反応の可能性を高めるか低めるかを検出します。これらの関係性は、最終送信でどのユーザーにどのメッセージバリアントを送信するかを決定するために使用されます。

カスタムイベントとメッセージの好みとの関係性は、初期送信タブのテーブルに表示されます。

バリアント1とバリアント2のカスタムイベントデータテーブル。各イベントがバリアントの好みにどのように影響するかを示すカスタムイベント影響スコアが表示されています。

テストでカスタムイベントとパスの好みとの間に意味のある関係性が見つからない場合、テストはセッションベースの分析方法にフォールバックし、カスタムイベントのデータテーブルは表示されません。

フォールバック分析方法

セッションベースの分析方法
パーソナライズされたバリアントの決定にフォールバック方法が使用される場合、初期テストタブには、特定の特性の組み合わせに基づくユーザーの好みのバリアントの内訳が表示されます。

これらの特性は以下のとおりです。

最新性: 最後にセッションを行った時期
頻度: セッションの頻度
利用期間: ユーザーになってからの期間

たとえば、テストでほとんどのユーザーがバリアントAを好むが、約3〜12日前にセッションを行い、セッション間隔が1〜12日で、過去67〜577日以内に作成されたユーザーはバリアントBを好む傾向があることがわかる場合があります。そのため、そのサブポピュレーションのユーザーは2回目の送信でバリアントBを受信し、残りのユーザーはバリアントAを受信しました。

ユーザー特性テーブル。最新性、頻度、利用期間の3つのバケットに基づいて、どのユーザーがバリアントAとバリアントBを好むと予測されるかを示しています。

パーソナライズされたバリアントの選択方法
この方法では、個々のユーザーに推奨されるメッセージは、そのユーザー固有の最新性、頻度、利用期間の効果の合計です。最新性、頻度、利用期間は、ユーザー特性テーブルに示されているようにバケットに分割されます。各バケットの時間範囲は、各キャンペーンのユーザーデータによって決定され、キャンペーンごとに異なります。

各バケットは、各メッセージバリアントに対して異なる寄与度または「プッシュ」を持つことができます。各バケットのプッシュの強さは、ロジスティック回帰を使用して初期送信でのユーザーの反応から決定されます。このテーブルは、各バケットのユーザーがどのバリアントにエンゲージする傾向があったかを表示することで、結果を要約しているだけです。個々のユーザーの実際のパーソナライズされたバリアントは、各特性に1つずつ、合計3つのバケットの効果の合計によって決まります。

パーソナライズされたバリアントタブには、残りの各ユーザーに最もエンゲージする可能性の高いバリアントが送信された2回目の送信結果が表示されます。

このページの3つのカードには、予測リフト、全体的な結果、および勝者バリアントのみを送信した場合の予測結果が表示されます。リフトがない場合もありますが（これは時々発生します）、結果は勝者バリアントのみを送信した場合（従来のABテスト）と同じになります。

予測リフト: 標準的なABテスト（残りのユーザーが勝者バリアントのみを受信した場合）の代わりにパーソナライズされたバリアントを使用したことによる、選択した最適化指標の改善度。
全体的な結果: 選択した最適化指標（ユニーク開封数、ユニーククリック数、または1次コンバージョンイベント）に基づく2回目の送信結果。
予測結果: 勝者バリアントのみを送信した場合の、選択した最適化指標に基づく2回目の送信の予測結果。

ユニーク開封数に最適化されたキャンペーンのパーソナライズされたバリアントタブ。カードには、予測リフト、全体的なユニーク開封数（パーソナライズされたバリアント使用時）、予測ユニーク開封数（勝者バリアント使用時）が表示されます。

このページのテーブルには、パーソナライズされたバリアント送信の各バリアントの指標が表示されます。オーディエンス%は、パーソナライズされたバリアントグループ用に予約したターゲットセグメントの割合の合計になります。

パーソナライズされたバリアント送信結果テーブル。バリアントA、バリアントB、およびすべてのバリエーションのオーディエンス割合、送信数、配信数、開封数、クリック数、コンバージョン数などのパフォーマンス指標が表示されています。

信頼度について

信頼度とは、コンバージョン率などのデータの差異が実際のものであり、単なるランダムな偶然によるものではないことをどの程度確信できるかを示す統計的尺度です。

注

結果に信頼度が表示されませんか？信頼度は、コントロールグループがある場合にのみ表示されます。

結果の重要な部分は、結果の信頼度です。たとえば、コントロールグループのコンバージョン率が20%で、バリアントAのコンバージョン率が25%だった場合はどうでしょうか？これは、バリアントAを送信する方がメッセージを送信しないよりも効果的であることを示しているように見えます。95%の信頼度があるということは、2つのコンバージョン率の差がユーザーの反応の実際の違いによるものである可能性が高く、偶然によって差が生じた可能性はわずか5%であることを意味します。

Brazeは、各バリアントのコンバージョン率をコントロールのコンバージョン率とZ検定と呼ばれる統計的手法で比較します。前述の例のように、95%以上の信頼度の結果は、その差が統計的に意味があることを示しています。これは、Brazeダッシュボードで2つのメッセージまたはユーザー集団の差を表す信頼度指標が表示されるすべての場所に当てはまります。

一般的に、結果がユーザーの実際の好みを反映しており、偶然によるものではないことを示すには、少なくとも95%の信頼度が必要です。厳密な科学的テストでは、95%の信頼度（一般的に「p」値が0.05未満と呼ばれるもの）が統計的有意性を判断するための一般的な基準として使用されます。95%の信頼度を継続的に達成できない場合は、サンプルサイズを増やすか、バリアントの数を減らしてみてください。

信頼度は、バリアントとコントロールのコンバージョン率の間に観察された差が、ランダムな偶然ではなく実際のものである可能性がどの程度高いかを反映しています。これはサンプルサイズとコンバージョン率の差の大きさの関数です。全体的なコンバージョン率が高いか低いかは、通常、観察された差とサンプルサイズほど信頼度の強さの判定には重要ではありません。あるバリアントが別のバリアントと非常に異なるコンバージョン率を持っていても、95%以上の信頼度がない場合があります。また、2つのバリアントセットが類似のコンバージョン率やリフト率を持っていても、信頼度が異なる場合もあります。

より多くのデータが到着すると、バリアントとコントロールのコンバージョン率が近づいた場合に信頼度が低下することがあります。測定している差が小さくなり、サンプルサイズが大きくなる効果を上回る場合があるためです。

統計的に有意でない結果

95%の信頼度がないテストでも、重要なインサイトを含んでいる場合があります。統計的に有意でない結果のテストから学べることをいくつか紹介します。

すべてのバリアントがほぼ同じ効果を持っていた可能性があります。これを知ることで、これらの変更を行うために費やしたであろう時間を節約できます。行動喚起を繰り返すなどの従来のマーケティング手法が、必ずしもオーディエンスに効果的ではないことがわかる場合もあります。
結果が偶然によるものであった可能性がありますが、次のテストの仮説を立てるのに役立ちます。複数のバリアントがほぼ同じ結果を示しているように見える場合は、それらのいくつかを新しいバリアントと一緒に再度実行して、より効果的な代替案を見つけられるかどうかを確認してください。あるバリアントがわずかに優れているが有意な差ではない場合は、そのバリアントの差がより顕著になるように別のテストを実行できます。
テストを続けましょう！有意でない結果のテストは、特定の疑問につながるはずです。バリアント間に本当に差がなかったのでしょうか？テストの構成を変えるべきだったのでしょうか？フォローアップテストを実行することで、これらの疑問に答えることができます。
テストは、オーディエンスから最も反応を得られるメッセージの種類を発見するのに役立ちますが、メッセージングのどの変更がわずかな効果しかないかを理解することも重要です。これにより、より効果的な代替案を引き続きテストするか、2つの代替メッセージの間で決定するために費やしたであろう時間を節約できます。

テストに明確な勝者がいるかどうかにかかわらず、結果を確認したり、少し異なるシナリオに発見を適用したりするために、フォローアップテストを実行することが役立つ場合があります。

コントロールグループとバリアントの不一致

ABテストまたは多変量分割を含むアプリ内メッセージキャンペーンでは、設定した割合は割り当てターゲットです。レポートされるインプレッションがこれらの割合と正確に一致することはほとんどありません。これは、トリガーアクションを実行したユーザーのみがインプレッションを記録し、コントロールグループのユーザーはトリガーを実行するとメッセージを表示しなくてもインプレッションが記録されるためです。

たとえば、キャンペーンの起動時にターゲットオーディエンスが200ユーザーで、コントロールグループに100ユーザー、バリアントに100ユーザーがいるとします。

バリアントの100ユーザーはアプリ内メッセージのペイロードを受信し、そのうち50人がトリガーアクションを実行してアプリ内メッセージを表示します。コントロールグループの100ユーザーは、キャンペーンのトリガーアクションを実行した場合にのみトラッキングされ、75人がトリガーアクションを実行してインプレッションを記録しますが、アプリ内メッセージは表示されません。

最初の50/50の分割にもかかわらず、記録されたユニークインプレッションはバランスが取れていません。バリアントグループには50インプレッション、コントロールグループには75インプレッションがあります。

また、大きな画像やテンプレート化されたConnected Contentなど、レンダリング時間が長いバリアントメッセージは、ユーザーがメッセージをトリガーしたがレンダリングが完了する前に離脱した場合、コントロールグループよりもインプレッションが少なくなることがあります。

アプリ内メッセージの遅延

表示遅延を含むトリガーされたアプリ内メッセージキャンペーンの場合、コントロールグループのインプレッションは、エンドユーザーが本来アプリ内メッセージを受信するはずだったタイミングで記録されます。たとえば、キャンペーンが表示を1時間遅延するように設定されている場合、コントロールグループのインプレッションは1時間の遅延が経過するまで記録されません。これにより、メッセージ配信の意図されたタイミングに関連するインプレッションの正確なトラッキングが可能になります。

推奨されるフォローアップ

1回の多変量テストとABテストは、将来のテストのアイデアを刺激し（そうすべきです！）、メッセージング戦略の変更を導くことができます。考えられるフォローアップアクションには以下が含まれます。

テスト結果に基づいてメッセージング戦略を変更する

多変量テストの結果により、メッセージの文言やフォーマットの方法を変更することになる場合があります。

ユーザーの理解方法を変更する

各テストは、ユーザーの行動、ユーザーがさまざまなメッセージングチャネルにどのように反応するか、セグメント間の違い（および類似点）を明らかにします。

将来のテストの構成方法を改善する

サンプルサイズが小さすぎましたか？バリアント間の差が微妙すぎましたか？各テストは、将来のテストを改善する方法を学ぶ機会を提供します。信頼度が低い場合は、サンプルサイズが小さすぎるため、将来のテストでは拡大する必要があります。バリアントのパフォーマンスに明確な差が見られない場合は、差が微妙すぎてユーザーの反応に識別可能な効果を与えられなかった可能性があります。

より大きなサンプルサイズでフォローアップテストを実行する

サンプルが大きいほど、バリアント間の小さな差を検出できる可能性が高くなります。

異なるメッセージングチャネルを使用してフォローアップテストを実行する

特定の戦略があるチャネルで非常に効果的であることがわかった場合、その戦略を他のチャネルでもテストしたいと思うかもしれません。あるタイプのメッセージがあるチャネルでは効果的だが別のチャネルでは効果的でない場合、特定のタイプのメッセージに対してより適したチャネルがあると結論付けることができるかもしれません。あるいは、プッシュ通知を有効にする可能性が高いユーザーとアプリ内メッセージに注意を払う可能性が高いユーザーとの間に違いがあるかもしれません。最終的に、この種のテストを実行することで、オーディエンスがさまざまなコミュニケーションチャネルとどのようにやり取りするかを学ぶのに役立ちます。

異なるユーザーセグメントでフォローアップテストを実行する

これを行うには、同じメッセージングチャネルとバリアントで別のテストを作成しますが、異なるユーザーセグメントを選択します。たとえば、あるタイプのメッセージングがエンゲージメントの高いユーザーに非常に効果的だった場合、休眠ユーザーへの効果を調査することが有用かもしれません。休眠ユーザーが同様に反応する可能性もあれば、他のバリアントのいずれかを好む可能性もあります。このテストは、さまざまなセグメントとそれらがさまざまなタイプのメッセージにどのように反応するかについて、より多くのことを学ぶのに役立ちます。データに基づいて戦略を立てることができるのに、セグメントについて仮定を立てる必要はありません。

以前のテストからのインサイトに基づいてフォローアップテストを実行する

過去のテストから得たインサイトを使用して、将来のテストを導きましょう。以前のテストで、あるメッセージング手法がより効果的であることが示唆されていますか？バリアントのどの特定の側面がより優れていたのか確信が持てませんか？これらの疑問に基づいてフォローアップテストを実行することで、ユーザーに関する洞察に富んだ発見を生み出すのに役立ちます。

異なるバリアントの長期的な影響を比較する

再エンゲージメントメッセージのABテストを行っている場合は、リテンションレポートを使用して、異なるバリアントの長期的な影響を比較することを忘れないでください。リテンションレポートを使用して、メッセージ受信後の数日、数週間、1か月後に、各バリアントが選択したユーザー行動にどのような影響を与えたかを分析し、リフトがあるかどうかを確認できます。

New Stuff!