🌛 ☝🏽 👨🏻‍🏫 اختبار A / B: تحليل خطوة بخطوة 👨🏾‍🍳 🎓 🧔🏽

هذه إعادة نشر لمقال منشور على الموقع الإلكتروني dou.ua. في هذه المقالة ، تشارك آنا بونوماريفا ، محللة الألعاب في بلاريوم خاركيف ، أفضل ممارساتها الشخصية لإجراء اختبار A / B: فهي تصف كل خطوة ، وتسلط الضوء على الصعوبات والمزالق التي يمكن مواجهتها ، وتتحدث عن تجربتها في حلها.

يستثمر الفريق الكثير من العمل والجهد والموارد في كل تغيير في اللعبة: أحيانًا يستغرق تطوير وظيفة أو مستوى جديد عدة أشهر. تتمثل مهمة المحلل في تقليل المخاطر الناتجة عن إدخال مثل هذه التغييرات ومساعدة الفريق على اتخاذ القرار الصحيح بشأن التطوير الإضافي للمشروع.

عند تحليل القرارات ، من المهم الاسترشاد ببيانات ذات دلالة إحصائية تتوافق مع تفضيلات الجمهور ، بدلاً من الافتراضات البديهية. يساعد اختبار A / B في الحصول على هذه البيانات وتقييمها.

6 خطوات "سهلة" لاختبار أ / ب

بالنسبة لمصطلح البحث "اختبار A / B" أو "اختبار الانقسام" ، تقدم معظم المصادر بضع خطوات "بسيطة" لإجراء اختبار ناجح. هناك ست خطوات من هذا القبيل في استراتيجيتي.

للوهلة الأولى ، كل شيء بسيط:

هناك مجموعة أ ، تحكم ، لا تغييرات في اللعبة ؛
هناك المجموعة ب ، اختبار ، مع التغييرات. على سبيل المثال ، تمت إضافة وظائف جديدة ، وزادت صعوبة المستويات ، وتم تغيير البرنامج التعليمي ؛
قم بإجراء الاختبار ومعرفة المتغير الذي يتمتع بأداء أفضل.

في الممارسة العملية ، هو أكثر صعوبة. لكي يقوم الفريق بتنفيذ أفضل الحلول ، فأنا ، كمحلل ، بحاجة إلى الإجابة عن مدى ثقتي في نتائج الاختبار. دعونا نتعامل مع الصعوبات خطوة بخطوة.

الخطوة 1. تحديد الهدف

من ناحية أخرى ، يمكننا اختبار كل ما يتبادر إلى ذهن كل عضو في الفريق - من لون الزر إلى مستويات صعوبة اللعبة. تم دمج القدرة الفنية لإجراء اختبارات الانقسام في منتجاتنا في مرحلة التصميم.

من ناحية أخرى ، من المهم إعطاء الأولوية لجميع المقترحات لتحسين اللعبة وفقًا لمستوى التأثير على المقياس المستهدف. لذلك ، نقوم أولاً بوضع خطة لبدء اختبار الانقسام من الفرضية ذات الأولوية القصوى إلى الفرضية الأقل.

نحاول عدم إجراء اختبارات A / B متعددة على التوازي ، من أجل فهم بالضبط أي من الميزات الجديدة أثرت على المقياس المستهدف. يبدو أنه مع هذه الإستراتيجية سوف يستغرق الأمر وقتًا أطول لاختبار جميع الفرضيات. لكن تحديد الأولويات يساعد على استبعاد الفرضيات غير الواعدة في مرحلة التخطيط.

نحصل على البيانات التي تعكس تأثير تغييرات معينة على أفضل وجه ، ولا نضيع الوقت في إعداد الاختبارات ذات التأثيرات المشكوك فيها.

نناقش بالتأكيد خطة الإطلاق مع الفريق ، نظرًا لأن تركيز الاهتمام يتحول في مراحل مختلفة من دورة حياة المنتج. في بداية المشروع ، عادةً ما يكون هذا هو الاحتفاظ D1 - النسبة المئوية للاعبين الذين عادوا إلى اللعبة في اليوم التالي بعد تثبيتها. في مراحل لاحقة ، يمكن أن تكون هذه مقاييس الاحتفاظ أو تحقيق الدخل: التحويل و ARPU وغيرها.

مثال.تتطلب مقاييس الاستبقاء اهتمامًا خاصًا بعد إطلاق المشروع بشكل بسيط. في هذه المرحلة ، دعنا نسلط الضوء على إحدى المشكلات المحتملة: لا يصل الاحتفاظ D1 إلى مستوى معايير الشركة لنوع معين من الألعاب. من الضروري تحليل مسار اجتياز المستويات الأولى. لنفترض أنك لاحظت انخفاضًا كبيرًا في عدد اللاعبين بين البداية وإكمال المستوى الثالث - معدل إتمام منخفض للمستوى الثالث.

الهدف من اختبار A / B المخطط له : زيادة الاحتفاظ D1 عن طريق زيادة نسبة اللاعبين الذين أتموا المستوى 3 بنجاح.

الخطوة 2. تحديد المقاييس

قبل بدء اختبار A / B ، نحدد المعلمة المراقبة - نختار المقياس ، والتغييرات التي ستظهر ما إذا كانت الوظيفة الجديدة للعبة أكثر نجاحًا من الوظيفة الأصلية.

هناك نوعان من المقاييس:

الكمية - متوسط مدة الجلسة ، وقيمة متوسط الشيك ، والوقت المستغرق لإكمال المستوى ، ومقدار الخبرة ، وما إلى ذلك ؛
الجودة - الاحتفاظ ومعدل التحويل وغيرهما.

يؤثر نوع المقياس على اختيار الطريقة والأدوات لتقييم أهمية النتائج.

من المحتمل ألا تؤثر الوظيفة المختبرة على هدف واحد ، بل على عدد من المقاييس. لذلك ، فإننا ننظر إلى التغييرات بشكل عام ، ولكن لا تحاول العثور على "أي شيء" عندما لا يكون هناك دلالة إحصائية في تقييم المقياس المستهدف.

وفقًا للهدف من الخطوة الأولى ، بالنسبة لاختبار A / B القادم ، سنقوم بتقييم معدل الإكمال للمستوى الثالث - مقياس نوعي.

الخطوة 3. صياغة فرضية

يختبر كل اختبار أ / ب فرضية عامة واحدة ، تمت صياغتها قبل الإطلاق. نجيب على السؤال: ما هي التغييرات التي نتوقعها في مجموعة الاختبار؟ عادة ما تبدو الصياغة على النحو التالي :

"نتوقع أن (التأثير) سيسبب (التغيير)"

الأساليب الإحصائية تعمل في الاتجاه المعاكس - لا يمكننا استخدامها لإثبات صحة الفرضية. لذلك ، بعد صياغة فرضية عامة ، يتم تحديد فرضيتين إحصائيتين. إنها تساعد على فهم أن الاختلاف الملحوظ بين المجموعة الضابطة (أ) ومجموعة الاختبار (ب) هو حادث أو نتيجة للتغييرات.

في مثالنا:

فرضية لاغية ( H0 ): لن يؤثر تقليل صعوبة المستوى 3 على نسبة المستخدمين الذين أكملوا المستوى 3 بنجاح. معدل إتمام المستوى 3 للمجموعتين A و B ليس مختلفًا حقًا والاختلافات الملحوظة عشوائية.
الفرضية البديلة ( H1 ): تقليل صعوبة المستوى 3 سيزيد من نسبة المستخدمين الذين أكملوا المستوى 3 بنجاح. معدل إتمام المستوى 3 أعلى في المجموعة ب منه في المجموعة أ ، وهذه الاختلافات هي نتيجة للتغييرات.

في هذه المرحلة ، بالإضافة إلى صياغة فرضية ، من الضروري تقييم التأثير المتوقع.

الفرضية: "نتوقع أن يؤدي انخفاض مستوى تعقيد المستوى الثالث إلى زيادة معدل إتمام المستوى الثالث من 85٪ إلى 95٪ ، أي بأكثر من 11٪".

(95٪ -85٪) / 85٪ = 0.117 => 11.7٪

في هذا المثال ، عند تحديد معدل الإنجاز المتوقع للمستوى 3 ، نهدف إلى تقريبه من متوسط معدل الإنجاز لمستويات البداية.

الخطوة 4. إعداد التجربة

1. حدد معلمات مجموعات أ / ب قبل بدء التجربة: لأي جمهور نبدأ الاختبار ، ونسبة اللاعبين ، والإعدادات التي حددناها في كل مجموعة.

2. نتحقق من تمثيل العينة ككل وتجانس العينات في المجموعات. يمكنك إجراء اختبار A / A مسبقًا لتقييم هذه المعلمات - وهو اختبار يكون لمجموعتي الاختبار والتحكم فيهما نفس الوظيفة. يساعد اختبار A / A على التأكد من عدم وجود فروق ذات دلالة إحصائية في المقاييس المستهدفة في كلا المجموعتين. في حالة وجود اختلافات ، لا يمكن إجراء اختبار A / B بهذه الإعدادات - حجم العينة ومستوى الثقة -

لن تكون العينة تمثيلية تمامًا ، لكننا نولي اهتمامًا دائمًا لهيكل المستخدمين من حيث خصائصهم - مستخدم جديد / قديم ، مستوى في اللعبة ، بلد. كل شيء مرتبط بالغرض من اختبار A / B ويتم التفاوض عليه مسبقًا. من المهم أن تكون بنية المستخدمين في كل مجموعة هي نفسها بشكل مشروط.

هناك نوعان من المخاطر المحتملة هنا:

يمكن أن تكون المقاييس العالية في المجموعات أثناء التجربة نتيجة لجذب حركة مرور جيدة. حركة المرور جيدة إذا كانت معدلات المشاركة عالية. تعد حركة المرور السيئة السبب الأكثر شيوعًا لانخفاض المقاييس.
عينة عدم التجانس. لنفترض أن المشروع من مثالنا يتم تطويره لجمهور يتحدث الإنجليزية. هذا يعني أننا بحاجة إلى تجنب موقف عندما يقع المزيد من المستخدمين من البلدان التي لا تسود فيها اللغة الإنجليزية في إحدى المجموعات.

3. احسب حجم العينة ومدة التجربة.

يبدو أن اللحظة تتسم بالشفافية ، مع الأخذ في الاعتبار المجموعة الضخمة من الآلات الحاسبة عبر الإنترنت.

ومع ذلك ، فإن استخدامها يتطلب إدخال معلومات أولية محددة. لتحديد خيار الحاسبة المناسبة عبر الإنترنت ، تذكر أنواع البيانات وافهم المصطلحات التالية.

عموم السكان - جميع المستخدمين الذين سيتم توزيع نتائج اختبار A / B عليهم في المستقبل.
عينة - المستخدمون الذين تم اختبارهم بالفعل. بناءً على نتائج تحليل العينة ، يتم استخلاص استنتاجات حول سلوك عموم السكان.
, . — , , , .
, . .
(α) — , (0), .
(1-α) — , , .
(1-β) — , , .

يتيح لك الجمع بين هذه المعلمات حساب حجم العينة المطلوب في كل مجموعة ومدة الاختبار.

في الآلة الحاسبة عبر الإنترنت ، يمكنك اللعب ببيانات الإدخال لفهم طبيعة علاقتهم.

مثال . دعنا نستخدم الآلة الحاسبة Optimizely لحساب حجم العينة لمعدل تحويل 1٪. ضع في اعتبارك أن حجم التأثير المقدر هو 5٪ بمستوى ثقة 95٪ (يتم حساب المؤشر على أنه 1-α). يرجى ملاحظة أنه في واجهة هذه الآلة الحاسبة ، يتم استخدام مصطلح الأهمية الإحصائية ليعني "مستوى الثقة" عند مستوى أهمية 5٪.

تدعي بشكل مثالي أنه يجب تضمين 870.000 مستخدم في كل مجموعة.

تحويل حجم العينة لتقريب مدة الاختبار - عمليتان حسابيتان بسيطتان.

رقم الحساب 1. حجم العينة × عدد المجموعات في التجربة = إجمالي عدد المستخدمين المطلوب.

رقم الحساب 2. إجمالي عدد المستخدمين المطلوب ÷ متوسط عدد المستخدمين في اليوم = العدد التقريبي لأيام التجربة

إذا كانت المجموعة الأولى تتطلب 870.000 مستخدم ، فعند اختبار الخيارين الإجمالي سيكون عدد المستخدمين 1740.000. مع الأخذ في الاعتبار حركة مرور 1000 لاعب في اليوم ، يجب أن يستمر الاختبار 1740 يومًا. هذه المدة غير مبررة. في هذه المرحلة ، نقوم عادةً بمراجعة الفرضية وبيانات خط الأساس ومدى ملاءمة الاختبار.

في مثالنا مع تحسين المستوى 3 ، يكون التحويل هو نسبة أولئك الذين أكملوا المستوى 3 بنجاح. أي أن معدل التحويل 85٪ ، نريد زيادة هذا المؤشر بنسبة 11٪ على الأقل. بمستوى ثقة 95٪ ، نحصل على 130 مستخدمًا لكل مجموعة.

مع نفس حجم المرور البالغ 1000 مستخدم ، يمكن إكمال الاختبار ، تقريبًا ، في أقل من يوم واحد. هذا الاستنتاج خاطئ بشكل أساسي ، لأنه لا يأخذ في الاعتبار الموسمية الأسبوعية. يختلف سلوك المستخدم في أيام الأسبوع المختلفة ، على سبيل المثال ، قد يتغير في أيام العطلات. وفي بعض المشاريع يكون هذا التأثير قويًا جدًا ، وفي حالات أخرى يصعب ملاحظته. هذا ليس شرطًا ضروريًا في جميع المشاريع وليس لجميع الاختبارات ، ولكن في المشاريع التي عملت بها ، لوحظ دائمًا الموسمية الأسبوعية في KPI.

لذلك ، نقرب مدة الاختبار إلى أسابيع لمراعاة الموسمية. في كثير من الأحيان ، تكون دورة الاختبار لدينا من أسبوع إلى أسبوعين ، حسب نوع اختبار أ / ب.

الخطوة 5. إجراء تجربة

بعد بدء اختبار A / B ، تريد على الفور إلقاء نظرة على النتائج ، لكن معظم المصادر تمنع بشدة القيام بذلك من أجل استبعاد مشكلة النظرة الخاطفة. لشرح جوهر المشكلة بكلمات بسيطة ، في رأيي ، لم ينجح أحد حتى الآن. يؤسس مؤلفو مثل هذه المقالات براهينهم على تقييم الاحتمالات ، والنتائج المختلفة للنمذجة الرياضية ، والتي تأخذ القراء إلى منطقة "الصيغ الرياضية المعقدة". استنتاجهم الرئيسي هو حقيقة لا جدال فيها تقريبًا: لا تنظر إلى البيانات حتى يتم كتابة العينة المطلوبة ومرور عدد الأيام المطلوب بعد بدء الاختبار. نتيجة لذلك ، يسيء الكثير من الناس تفسير مشكلة "اختلاس النظر" واتبعوا التوصيات حرفياً.

لقد أعددنا العمليات بحيث نرى كل يوم البيانات ذات الصلة لرصد KPI للمشاريع. في لوحات المعلومات المعدة مسبقًا ، نتابع تقدم التجربة منذ البداية: نتحقق مما إذا تم تجنيد المجموعات بالتساوي ، وما إذا كانت هناك أي مشاكل حرجة بعد بدء الاختبار يمكن أن تؤثر على النتائج ، وما إلى ذلك.

القاعدة الرئيسية هي عدم استخلاص استنتاجات مبكرة. تمت صياغة جميع الاستنتاجات وفقًا للتصميم الموضوعة لاختبار A / B وتم تلخيصها في تقرير مفصل. نحن نراقب التغييرات في المؤشر منذ إطلاق اختبار A / B.

على سبيل المثال ، كما في اختبار A / B ، يمكن أن يتغير معدل الإكمال يومًا بعد يوم.في اليومين الأولين بعد الإطلاق ، فاز متغير اللعبة دون تغييرات (المجموعة أ) ، لكن تبين أنه مجرد حادث. بالفعل بعد اليوم الثاني ، يكتسب المؤشر في المجموعة B نتائج أفضل باستمرار. لإكمال الاختبار ، لا يحتاج فقط إلى دلالة إحصائية ، ولكن أيضًا إلى الاستقرار ، لذلك نحن ننتظر نهاية الاختبار.

مثال على الوقت الذي يستحق فيه إنهاء اختبار A / B قبل الأوان. إذا أعطت إحدى المجموعات معدلات منخفضة للغاية بعد الإطلاق ، فإننا نبحث على الفور عن أسباب هذا الانخفاض. الأكثر شيوعًا هي الأخطاء في تكوين وإعدادات مستوى اللعبة. في هذه الحالة ، يتم إنهاء الاختبار الحالي قبل الأوان وبدء اختبار جديد به إصلاحات.

الخطوة 6. تحليل النتائج

إن حساب المقاييس الرئيسية ليس بالأمر الصعب بشكل خاص ، ولكن تقييم أهمية النتائج التي تم الحصول عليها يمثل مشكلة منفصلة.

يمكن استخدام الآلات الحاسبة عبر الإنترنت لاختبار الأهمية الإحصائية للنتائج عند تقييم مقاييس الجودة مثل الاحتفاظ والتحويل.

أفضل 3 حاسبات على الإنترنت لمهام مثل هذه:

أدوات Evan الرائعة A / B هي واحدة من أكثر الأدوات شعبية. يقوم بتنفيذ عدة طرق لتقييم أهمية الاختبار. عند الاستخدام ، تحتاج إلى فهم جوهر كل معلمة تم إدخالها بوضوح ، وتفسير النتائج بشكل مستقل وصياغة الاستنتاجات.
, A/B Testguide. , . — , .
A/B Testing Calculator Neilpatel. -, .

مثال . لتحليل اختبارات A / B هذه ، لدينا لوحة معلومات تعرض جميع المعلومات اللازمة لاستخلاص النتائج ، وتبرز تلقائيًا النتيجة مع تغيير كبير في الهدف.

دعونا نرى كيفية استخلاص النتائج في اختبار A / B هذا باستخدام الآلات الحاسبة.

البيانات الأولية:

في المجموعة A ، من أصل 3870 مستخدمًا بدأوا المستوى 3 ، نجح 3252 مستخدمًا فقط في اجتيازه بنجاح - أي 84٪.
في المجموعة ب ، من أصل 3968 مستخدمًا ، اجتاز 3730 المستوى بنجاح - أي 94٪.

حسبت أداة Evan Awesome A / B Tools فاصل الثقة لكل خيار ، مع الأخذ في الاعتبار حجم العينة ومستوى الأهمية المختار.

استنتاجات مستقلة:

A — 84,00%, 82,8%—85,1%. B — 94,00%, 93,2%—94,7%. (94%-84%)/84% = 0,119 => 12%
12% , A. — , . 95%.
.

سوف نحصل على نتائج مماثلة مع حاسبة A / B Testguide . ولكن هنا يمكنك بالفعل التلاعب بالإعدادات والحصول على نتيجة رسومية واستنتاجات مصاغة.

إذا كنت تخاف من العديد من الإعدادات ، فلا توجد رغبة أو حاجة للتعامل مع مجموعة متنوعة من البيانات المحسوبة بواسطة الآلة الحاسبة ، يمكنك استخدام حاسبة اختبار A / B من Neilpatel .

كل آلة حاسبة على الإنترنت لها معاييرها وخوارزمياتها الخاصة ، والتي قد لا تأخذ في الاعتبار جميع ميزات التجربة. نتيجة لذلك ، تنشأ أسئلة وشكوك في تفسير النتائج. بالإضافة إلى ذلك ، إذا كان المقياس المستهدف كميًا - فحص متوسط أو متوسط طول الجلسة الأولى - لم تعد الآلات الحاسبة المدرجة عبر الإنترنت قابلة للتطبيق ويلزم وجود طرق تقييم أكثر تقدمًا.

أقوم بإعداد تقرير مفصل عن كل اختبار أ / ب ، لذلك قمت باختيار وتنفيذ طرق ومعايير مناسبة لمهامي لتقييم الأهمية الإحصائية للنتائج.

خاتمة

اختبار A / B هو أداة لا تقدم إجابة واضحة على السؤال "أي خيار أفضل؟" ، ولكنها تتيح لك فقط تقليل عدم اليقين في طريقك لإيجاد الحلول المثلى. عند إجراء ذلك ، تكون التفاصيل مهمة في جميع مراحل الإعداد ، فكل عدم دقة يكلف الموارد ويمكن أن يؤثر سلبًا على موثوقية النتائج. آمل أن تكون هذه المقالة مفيدة لك وتساعدك على تجنب الأخطاء في اختبار A / B.

اختبار A / B: تحليل خطوة بخطوة