メインコンテンツまでスキップ

成功の測定と結果の分析

この記事では、以下のことを支援します:

  • 実験を終了する前に十分なデータを収集する。
  • 勝利、敗北、不確定な実験の結果を解釈する。

実験を開始したら、Creative Experiments Detailビューで結果を確認できます。結果をすぐに確認し始めることはできますが、結論を出す前に少なくとも2週間データを受け取ることをお勧めします。結果に対する高い信頼性を得るためには、実験を十分な期間実行して十分なデータを収集する必要があります。

実験の詳細ページを見つける

  1. One Platformで、ホームページのアカウントをクリックします。その後、左側のナビゲーションメニューからCampaigns > Experimentsページに移動します。
  2. Overviewリストで実験を見つけるか検索します。
  3. 実験名をクリックしてDetailsページを表示します。

上部のサマリーカードには以下が表示されます:

  • 実験名と仮説
  • 実験を終了するオプション
  • 実行日数
  • 実験でターゲットとされたオーディエンス

実験設定の詳細や割り当てを編集するには、Settingsをクリックします。

上部のサマリーカードの下には、実験の結果が表示されます。実験が進行するにつれて、元のクリエイティブとそのパフォーマンスを監視および比較できます。これらの結果を確認することで、結果が重要で信頼できるかどうかを判断できます。少なくとも1つのバリアントが元のベースラインバリアントを95%の確率で上回るまで実験を続けることをお勧めします。

experiment-details

Roktは、少なくとも1つのバリアントが元のベースラインバリアントを95%の確率(または5%未満)で上回るまで実験を続けることを推奨します。

実験結果の解釈

結果表の上部には、選択されたメトリックが表示されます。このメトリックは、各バリアントが元のベースラインバリアントを上回る確率を計算するために使用されます。また、他のメトリックに対する各バリアントの結果を確認することもできます。追加のメトリックは、エクスペリエンスに対する意図しない影響を特定するのに役立ちます。

measuring-success-3

結果表の上部にある**+ メトリックを追加**をクリックすることで、他のメトリックを表示できます。表示したい追加のメトリックを選択し、保存をクリックします。表示したくないメトリックを削除するには、メトリックを削除をクリックします。

measuring-success-4

一般的に、他のメトリックに悪影響を与えていないか警告を確認するために、すべての二次メトリックを評価することをお勧めします。

改善

このメトリックは、選択されたメトリックに対するテストバリアントとオリジナルのパフォーマンスの相対的な差を測定します。結果表の上部にあるタブを使用して、メトリック間を切り替えます。

ベースラインを上回る確率

この指標は、あるバリアントがベースラインバリアントよりも優れたパフォーマンスを発揮する確率を示します。あるバリアントがオリジナルを95%以上上回る場合、その結果は信頼性が高いと考えられ、そのバリアントを勝者として選択することができます。ベースラインを上回るバリアントが複数存在することもあります。

実験的なバリアントを展開する前に、ベースラインを上回る確率が95%に達するまで待つことをお勧めします。より早く展開することも可能ですが、不完全なデータで作業することになるためリスクがあります。

信頼区間 (Credible interval)

信頼区間は改善に対する不確実性を測定し、選択された指標のパフォーマンスが実際にどの範囲にあるかを示します。実験のデータと分析の下には、各バリアントの信頼区間を示すグラフがあります。これにより、結果テーブルで選択された指標に対して、これまでのバリアントのパフォーマンスがどのようであったかを視覚化します。どの指標が選択されているかは、グラフのタイトルを見ればわかります。

measuring-success-1

グラフは広く始まり、各バリアントのパフォーマンスの不確実性が大きいことを示しています。実験が時間とともにデータを収集するにつれて、区間は狭まり、確実性が増していることを示します。グラフ上の異なる線(バリアント)間で重なりが最小限またはないことを確認し、実験結果に対する信頼性を高めてください。

実験の終了を決定する

実験結果を解釈し、実験を終了する際には、いくつかのルールに従うことをお勧めします。

  • 実験が少なくとも2週間実施されるまで待ちます。これは、十分なデータを収集するために実験が十分な期間実施されていることを確認するためです。
  • 結果を分析し、顧客について学ぶ時間を取ります。結果を深く掘り下げ、データを解釈する時間を多く費やすことで、どのバリアントが全体的に勝つか負けるかを超えて、顧客についてより多くのことを学ぶことができます。

勝者がいる場合はどうしますか?

実験で最もパフォーマンスの良いバリアントを特定する際には、いくつかのシナリオが考えられます。

  1. オリジナルが勝者である場合。すべての実験バリアントがオリジナルのベースラインバリアントよりもパフォーマンスが低い可能性があります(すべてがベースラインを上回る確率が95%未満)。この状況では、現在のエクスペリエンスをそのままにして実験を終了する方が良いです。結果が変わる可能性は低く、新しい実験に時間を費やす方が有益です。

    これは悪い結果や失敗した実験ではないことに注意してください!顧客の行動について貴重な情報を得ることができ、将来のテストに活用できます。

  2. 特定のバリアントが勝者である場合。あるバリアントが主要な成功指標においてオリジナルを上回ることができると結論付けるのに十分なデータがあります(つまり、特定のバリアントがベースラインを上回る確率が95%以上)。実験を終了し、このバリアントをスタンドアロンのバリアントとしてページで実行することを推奨します。実験結果がテストバリアントの方がパフォーマンスが良いことを示している場合、オリジナルのバリアントを一時停止または削除することを検討するかもしれません。より緩やかな移行を希望し、オリジナルのバリアントを一時停止または削除したくない場合、Roktの機械学習アルゴリズムが時間をかけて学習し、各顧客に最適なオプションを表示します。

  3. 複数のバリアントがオリジナルを上回る場合。複数のテストバリアントがオリジナルよりも良いパフォーマンスを示すことがあります(つまり、複数のバリアントがベースラインを上回る確率が95%以上)。いくつかのバリアントがオリジナルよりも良いパフォーマンスを示すと結論付けるのに十分なデータがある場合、絶対的に最良のバリアントを結論付けるのに十分なデータもあるはずです。ベースラインを上回る確率が最も高いバリアントのみを昇格させるか、複数のバリアントを昇格させ、Roktの機械学習に各顧客に最適なオプションを決定させることができます。

この記事は役に立ちましたか?