👨🏽‍💼 🐈 👨🏼‍🚒 كيف يساعد التعلم المعزز تجار التجزئة 🏔️ 🙂 🙌

المقدمة

مرحبا! يقوم فريق Glowbyte Advanced Analytics لدينا بتطوير حلول ML للصناعات التطبيقية (التجزئة ، البنوك ، الاتصالات ، إلخ) تتطلب العديد من المهام حلولاً غير قياسية. أحدها هو تحسين سلاسل الاتصال مع العميل باستخدام التعلم المعزز (RL) ، والذي قررنا تكريس هذه المقالة له.

لقد قسمنا المقال إلى ثلاث مجموعات: مقدمة لمشكلة تحسين سلاسل الاتصالات ؛ مقدمة إلى RL ؛ وفي المجموعة الثالثة ، ندمج 1 و 2 معًا.

مهمة تحسين سلاسل الاتصال

بالنسبة للمبتدئين ، مسرد صغير:

CRM - نظام إدارة علاقات العملاء. عادةً ما يتضمن عملية تجميع وتحليل معرفة العملاء ، والتي تُستخدم لتحسين مستويات المبيعات والخدمة.

العميل هو الشخص الذي يستخدم خدمات المنظمة.

سمات العميل - المعرفة المتراكمة عن العميل. أمثلة:

فحص متوسط؛
متوسط تواتر المشتريات في الشهر ؛
عمر؛
منطقة الإقامة.

الحملة التسويقية / الاتصال / العرض - العروض الترويجية التي يتلقاها العملاء من المؤسسة أمثلة:

لقد تلقيت XXX نقطة ، ولديك وقت لإنفاق ما يصل إلى YYY ؛
بالنسبة لك خصم XXX على منتجات العلامة التجارية YYY.

سلسلة الاتصالات هي سلسلة من الحملات التسويقية.

برنامج الولاء هو مجموعة من الأنشطة التسويقية التي تهدف إلى زيادة قيمة العملاء. مثال نموذجي هو بطاقات الخصم.

تجميع العملاء - تقسيم العملاء إلى مجموعات يتشابه فيها العملاء مع بعضهم البعض في سلوك المستهلك.

نظام التوصية هو نظام يولد أفضل العروض للعميل من حيث قيمة العمل.

LTV (قيمة مدى الحياة) - الربح المتوقع من العميل طوال فترة التعاون معه.

من المعتقد أنه عند تطوير برنامج ولاء ، فإن المهمة الرئيسية للمحلل هي إنشاء نظام توصية من الدرجة الأولى يعرف ماذا ومتى وكميات العميل التي يحتاجها في وقت معين. هذا أمر مهم بالتأكيد ، بل إنه يجلب بعض الأرباح ، لكن هذه ليست مهمة عمل رئيسية. تريد أي مؤسسة أولاً وقبل كل شيء تطوير عادة عملائها لاستخدام خدماتهم. العميل المثالي هو الشخص الذي يستخدم خدمات هذه المنظمة حصريًا ، ويحقق ربحًا ثابتًا ، ويوصي بالخدمات للأصدقاء ، بينما يتطلب حدًا أدنى من التكاليف من الشركة. لا يتم اكتساب ولاء العملاء على الفور ، وتتمثل مهمة المنظمة في توجيه العميل من الدرجة الأولى إلى عمليات الشراء المنتظمة بأكثر الطرق فعالية.

على سبيل المثال ، تخيل مجموعة مدرسية حيث لا يحتاج المعلم فقط إلى شرح قاعدة أو خوارزمية ، فمن المهم بالنسبة له أن يغرس في الطلاب حب التعلم أو الموضوع. يعرف المعلم المتمرس أن عملية التعلم ليست دائمًا ممتعة ، وأحيانًا تكون مؤلمة للطرفين ، لكن النتيجة النهائية مهمة. للمعلم منهجه الخاص لكل طالب ، مع مراعاة العديد من العوامل الفردية.

على عكس مجموعة المدارس الصغيرة ، يمكن أن يكون للمؤسسة عشرات الملايين من العملاء ، كل منهم يحتاج إلى تربيته من خلال المقبض. لهذا ، لا يكفي تخمين الرغبة مرة واحدة. ومن الواضح أن هذا يتجاوز القدرات البشرية.

إذن ، ما هي ملاحظاتنا التمهيدية:

— (, LTV ). , , ;
, , .;
, , ;
, , .1. , ( .2). , .

يعتمد حلنا لهذه المشكلة على مفهوم التعلم المعزز (أو التعلم المعزز). قبل الشروع في عرض نهجنا ، قمنا بإعداد رحلة صغيرة في النظرية.

تعزيز التعلم. مقدمة

ما هو عليه، ولماذا؟

تتمثل مهمة التعلم المعزز في تكوين خوارزمية مثالية للتفاعل مع بيئة معينة لتحقيق النتيجة المرجوة.

أحد الأمثلة على استخدام RL هو إيجاد طريقة للخروج من المتاهة. في البداية ، لا شيء معروف عن المتاهة. من خلال فحص الخيارات المختلفة ، تتعلم الخوارزمية العثور على أقصر طريق للخروج.

ما هي ميزات RL من وجهة نظر ML؟

التعلم المعزز هو فئة منفصلة من خوارزميات التعلم الآلي. كقاعدة عامة ، المعلومات المتعلقة بالبيئة مفقودة في البداية ، وبعبارة أخرى ، لا توجد أمثلة محددة للتدريب.

خصوصية RL هي أنه يمكنك تجربة أفعال مختلفة ، والتوصل إلى استنتاج حول نجاحها ، وتجميع المعرفة المكتسبة واستخدامها في الاختيار التالي. ومرات عديدة. تعد عملية التعلم التكراري ، التي تستكشف فيها الخوارزمية البيئة بشكل مستقل ، أحد الاختلافات الرئيسية في RL.

كيف يختلف RL عن التعداد العشوائي لجميع الخيارات؟

أولاً ، بمساعدة RL الكلاسيكي (بدون استخدام شبكات عميقة) ، يمكنك جعل التعداد متسلسلًا وفعالاً. الاستكشاف هو أحد المبادئ الأساسية لـ RL ، والذي يتناوب مع استغلال المعرفة. بمعنى آخر ، لا شيء يمنعنا من الجمع بين تطبيق النموذج والاختبار ، الشيء الرئيسي هو الحفاظ على التوازن.

ثانيًا ، ليس من الممكن فرز جميع المواقف الموجودة في جميع المهام. في هذه الحالات ، تتيح خوارزميات RL المتقدمة تعميم المعرفة المتراكمة على الحالات الجديدة. ومع ذلك ، حتى في هذه الحالة ، تظل فكرة الاختبار والتطبيق المشترك قائمة.

ماذا تعني الخوارزمية المثلى للتفاعل مع البيئة؟

المكاسب الفورية لا تضمن دائمًا النجاح على المدى الطويل.

على سبيل المثال ، في لعبة الشطرنج ، يمكن أن يؤدي الاستيلاء على قطعة الخصم إلى خسائر أكثر تكلفة.

ومع ذلك ، باختيار إجراء معين ، يمكننا أن نفترض أننا سننتظر الخطوة التالية. في الخطوة التالية ، يمكنك بدورها افتراض ما سيحدث بعد ذلك. إلخ. يمكن أخذ كل هذه المعرفة في الاعتبار عند اختيار الإجراء التالي. وبالتالي ، يتم بناء استراتيجية السلوك.

أين تستخدم؟

في الألعاب. بالإضافة إلى ذلك ، هناك نجاحات في تعليم الروبوتات وروبوتات التفاوض وأنظمة التوصية. بعض المراجع الشيقة:

قبل الخوض في تفاصيل المصطلحات ، نقدم أمثلة توضح بعض السمات المفاهيمية لـ RL.

مثال للمبتدئين

تقليديا ، لنبدأ مع ماكينات الألعاب المتعددة.

ضع في اعتبارك آلة قمار ذات مقابض N. يمكن رفع مقبض واحد فقط للآلة في المرة الواحدة.

الهدف: تحديد الإجراء (أي المقبض) الذي يحقق أقصى عائد.

الحل: يمكننا سحب كل مقبض عدة مرات. بعد ذلك ، باعتباره "الإجراء الأمثل" ، نختار المقبض الذي يحقق أعلى متوسط عائد.

وإذا اخترنا في المستقبل أفضل إجراء طوال الوقت ، فإن هذه الاستراتيجية ستسمى الجشع .

من الواضح أن مثل هذه الإستراتيجية لن تعمل إلا في بيئة ثابتة (أي حيث لا يوجد تغيير بمرور الوقت). في بيئة غير ثابتة(على سبيل المثال ، يقوم شخص ما بتغيير إعدادات الجهاز من وقت لآخر) بمرور الوقت ، عند استخدام استراتيجية الجشع ، لن تكون هناك نتيجة مثالية.

إلى جانب استراتيجية الجشع ، هناك استراتيجيات أخرى:

ε- إستراتيجية الجشع : في $\epsilon$ النسبة المئوية للحالات التي نختار الإجراء الأمثل فيها $(1-\epsilon)$ ٪ - عشوائي
استراتيجية الحد الأعلى للثقة (UCB) : عند اختيار إجراء ما ، يتم استخدام معامل وزن ، وتعتمد قيمته على مدى جودة اختبار الحدث (أي أنه كلما تمت دراسة الحدث بشكل أقل ، زادت احتمالية اختيار هذا الإجراء) ؛
سوفت ماكس: كلما كان العائد المتوقع أكبر ، زادت احتمالية اختيار هذا الإجراء.

تعد مشكلة ماكينات الألعاب المتعددة مثالاً على أبسط مشكلة حيث لا نعرف في البداية أي شيء عن موضوع الملاحظة ، أي أننا نتعلم كيفية التفاعل معها من البداية. يعتمد حل هذه المشكلة على طريقة التجربة والخطأ (أمر حيوي للغاية) وكلما اكتسبنا الخبرة ، أصبحت أفعالنا أكثر نجاحًا.

ما تعلمناه من المثال:

التجربة والخطأ هي أيضًا طريقة ؛
يمكن جعل التعداد العشوائي أكثر كفاءة باستخدام أشكال مختلفة من الاستراتيجيات ؛
بيئات منفصلة ثابتة وغير ثابتة.

مثال وسيط

الآن يمكننا تعقيد المهمة قليلاً والنظر في قضيب كمثال:

عربة بقضيب يمكن أن تتحرك "يسارًا" و "يمينًا".

الغرض: يجب أن تتعلم كيفية إبقاء القضيب في وضع رأسي لأطول فترة ممكنة.

الاختلاف عن المهمة السابقة: الآن من الضروري مراعاة المعلمات الإضافية: زاوية الميل

(a)

$(a)$ وسرعة القضيب

(v)

$(v)$ واتخاذ قرار بناءً على هذه المعلومات.

تبدو المهمة أكثر تعقيدًا لأن التوليفات

(a; v)

$(a;v)$ كثيرًا جدًا ولن تنجح تجربة كل واحد منهم عدة مرات.

أي مجموعة

(a; v)

$(a;v)$ تسمى دولة . يمكن أن يكون عدد الحالات إما مستمرًا أو محدودًا. خوارزميات الحالة المحدودة أسهل في التنفيذ بشكل عام.

اتضح أن الحالة عبارة عن مجموعة من بعض معلمات النظام. هناك افتراض مهم في نظرية RL بأن هذه المجموعة من المعلمات يجب أن تصف حالة النظام بشكل كامل. أي أنه لا يهمنا ما حدث للنظام في الخطوات السابقة ، فمن المهم فقط ما نلاحظه في لحظة معينة من الزمن.

ما تعلمناه من المثال:

عند اختيار الإجراء الأمثل ، من الضروري مراعاة حالة النظام. يؤثر عدد الحالات على تعقيد الخوارزمية ؛
يجب أن تقدم المعلمات التي تصف حالة النظام معلومات كاملة عن النظام في الوقت الحالي.

مثال متقدم

الآن دعونا نلقي نظرة على لعبة الشطرنج.

يتم التعبير عن عدد المواضع المحتملة للقطع على السبورة في 52 رقمًا. وهذه ليست الصعوبة الوحيدة. الاختلاف عن المهمتين السابقتين هو أنه في حالة الشطرنج ، من المهم اختيار ليس الإجراء الذي سيحقق أقصى نتيجة الآن ، ولكن الإجراء الذي سيؤدي إلى النصر في المستقبل (بعد العديد من الخطوات إلى الأمام).

ما تعلمناه من المثال:

عند اتخاذ قرار ، ضع في اعتبارك التأثير طويل المدى ، وليس الفائدة الفورية.

الآن ، باستخدام الأمثلة ، سنحدد المصطلحات المقبولة عمومًا RL.

مصطلحات RL الأساسية

الوكيل هو موضوع يتفاعل مع البيئة ، ويؤدي إجراءات معينة ، ويتلقى تعليقات منها ويتذكرها.

على سبيل المثال ، محرك يقود عربة بقضيب ؛ ماكينات الألعاب المتعددة وكلاء.

البيئة - المكان الذي يوجد فيه الوكيل والذي يتلقى منه التعليقات.

عادة ما تكون التعليقات التي يتلقاها الوكيل من البيئة مشكوك فيها.

على سبيل المثال ، عندما يقوم حامل به شريط بعمل حركة ، فإن ردود الفعل على الإجراء المتخذ هي نتيجة سقوط الشريط أم لا. عربة وشريط - متوسط.

الدولة - أي معرفة تساعد في اتخاذ القرارات. تشير الدول إلى البيئة وتحددها بشكل فريد في كل لحظة من الزمن. كقاعدة عامة ، تتم كتابة هذه الحالات كمجموعة من المعلمات أو المصفوفات أو الموترات ذات الترتيب الأعلى.

على سبيل المثال ، الوضع الحالي للقطع على رقعة الشطرنج هو حالة.

الإجراء - الإجراءات المتاحة للوكيل. كقاعدة عامة ، عدد الإجراءات في الفضاء محدود.

على سبيل المثال ، تعتبر حركات شريط إلى اليمين أو اليسار بمثابة إجراءات.

المكافأة - ردود الفعل الفورية التي يتلقاها الوكيل مقابل الإجراءات. أي أنه نتيجة الإجراء المتخذ. المكافأة دائما رقم.

على سبيل المثال ، يُعد الفوز بجهاز آلي في مشكلة ماكينات الألعاب المتعددة بمثابة مكافأة.

الهدف - كقاعدة عامة ، هدف الوكيل هو تعظيم إجمالي المكافأة. بمعنى آخر ، الهدف النهائي هو تعظيم المكافأة ليس في الخطوة الحالية ، ولكن المكافأة النهائية بناءً على نتائج تسلسل الخطوات.

على سبيل المثال ، هدفنا ليس الإمساك بالقضيب مرة واحدة ، ولكن لأطول فترة ممكنة.

الإستراتيجية - رسم خرائط الدول في الإجراءات. على سبيل المثال ، احتمال اختيار الإجراء أ في الحالة S.

بيان المشكلة الرسمي

في كل خطوة ، يمكن أن تكون البيئة في الحالة $s \in S$ ...
في كل خطوة ، يقوم الوكيل بتحديد إجراء من مجموعة الإجراءات المتاحة $a \in A$ حسب بعض الإستراتيجيات π.
تخبر البيئة الوكيل ما هي المكافأة $r$ حصل عليه وبأي حالة $s^* \in S$ بعد ذلك اتضح.
يقوم الوكيل بتعديل الإستراتيجية π.

يبدو أن كل شيء بسيط. هناك سؤال واحد لم يتم حله - من أين تأتي الاستراتيجية الغامضة - أي كيف يتخذ الوكيل قرارًا في كل خطوة.

نظرًا لأنه في الجزء الأخير من المقالة سيتم اقتراح حل يعتمد على Q-Learning ، فسنركز فقط عن قصد على الأساليب المجدولة.

الخوارزميات الجدولية RL

بعض الطرق الأساسية لـ RL هي طرق مجدولة ، تُستخدم للمهام التي تكون فيها مجموعات الحالات والإجراءات محدودة. ومن السمات المميزة لهذه الأساليب استخدام جداول إجراءات الدولة. عادةً ما تكون الصفوف حالات مؤجلة ، والأعمدة هي إجراءات. تحتوي الخلايا على قيم دالة القيمة.

Q (s_{i}; a_{j})

$Q(s_i;a_j)$ - قيمة العمل

a_{j}

$a_j$ قادر على

s_{i}

$s_i$ ... بشكل تقريبي ، هذه هي الفائدة المتوقعة التي سنحصل عليها إذا اخترنا إجراءً ما

a_{j}

$a_j$ يكون قادرا

s_{i}

$s_i$ ... في الخطوة الأولى ، القيم

Q (s_{i}; a_{j})

$Q(s_i;a_j)$ تتم تهيئة مع الأصفار ، على سبيل المثال.

بالنسبة لمثال المتاهة ، قد يبدو جدول State-Action الأولي كما

يلي : هنا ، الحالة هي الموضع (خلية المتاهة) الذي يوجد فيه العامل. بعد تنفيذ أي إجراء ، يغير وكيلنا حالته ويتلقى مكافأة. في هذه المهمة ، يمكن أن تكون المكافأة كما يلي:

1 إذا وجد الكائن مخرجًا من المتاهة ؛
0 خلاف ذلك.

بالإضافة إلى ذلك ، بعد أن يتلقى الوكيل ردود فعل فعلية من البيئة ، القيمة

Q (s_{i}; a_{j})

$Q(s_i;a_j)$ تصحيح. تختلف خوارزميات التصحيح ، على سبيل المثال ، طريقة مونت كارلو ، SARSA ، Q-Learning. اقرأ المزيد عنها هنا أو هنا .

على سبيل المثال ، تبدو معادلات Q-Learning و SARSA متشابهة جدًا للوهلة الأولى:

تستخدم كلتا الطريقتين القيمة المتوقعة للإجراء في الخطوة التالية. يتم استلامها بكل بساطة: لنفترض أن الوكيل موجود في الدولة

s_{i}

$s_i$ وينفذ العمل

a_{j}

$a_j$ ... ثم تخبر البيئة الوكيل أنه نتيجة لعمله يحصل على مكافأة

r_{i}

$r_i$ وحالة جديدة

s_{k}

$s_k$ ... باستخدام جدول الحالة - الإجراء ، يمكنك العثور على الصف الذي يحتوي على الحالة

s_{k}

$s_k$ وتحديد القيمة التي سيجلبها هذا الإجراء أو ذاك.

الفرق هو ذلك في Q-Learning

Q (s_{k}; a)

$Q(s_k;a)$ هي دائمًا القيمة القصوى في حالة جديدة. بينما تفترض طريقة SARSA أن الوكيل يحاكي اختيار الإجراء في الدولة

s_{k}

$s_k$ ، على سبيل المثال ، وفقًا لإستراتيجية ε-greedy أو UCB. عند استخدام استراتيجية جشعة ، فإن الأساليب متكافئة.

عيب هذه الخوارزميات هو الحاجة إلى تخزين جدول إجراءات الحالة. يمكن أن تحتوي بعض المهام على مساحة كبيرة من الحالات والإجراءات ، مما يجعل من المستحيل استخدام طرق الجدول التقليدية. في مثل هذه الحالات ، يتم استخدام الأساليب لتقريب القيم

Q (s_{i}; a_{j})

$Q(s_i;a_j)$ باستخدام الشبكات العصبية.

يمكن أن تكون البرمجة الديناميكية بديلاً لطرق الجدول. لن نتعمق في هذه الخوارزميات ، لكننا نوصي بقراءة كتاب Reinforcement Learning بواسطة R. S. Sutton و E.G Barto.

هذا هو المكان الذي ننهي فيه النظرية ثم نتحدث عن كيفية استخدام التعلم المعزز في مهمة تطبيقية.

العثور على أفضل استراتيجية حوافز للعملاء باستخدام التعلم المعزز

بيان المشكلة من حيث العمل

القيود التي تم بموجبها تطوير نهجنا:

يجب أن يكون الحل مرنًا لقيود سياسة الاتصال مع العملاء ؛
يجب أن تكون الوظيفة المراد تحسينها مدفوعة بأهداف العمل ويمكن أن تكون أكثر تعقيدًا من الاستجابة البسيطة ؛
يجب أن يتكيف النظام ذاتيًا مع التغييرات في سلوك العميل دون إشراك خبير ؛
( , , , );
.

RL

لذا ، فإن

Agent and Environment هو نظام برنامج ولاء يرسل اتصالات العميل مع مقترحات التسويق ، والعميل نفسه.

الدولة هي حالة العميل التي تتميز بسمات العميل.

الإجراءات عبارة عن عروض تسويقية (على سبيل المثال ، "احصل على خصم X٪ على الشراء Y"). من المفترض أن قائمة المقترحات ثابتة ومحدودة.

المكافأة هي بعض وظائف تغيير سلوك العملاء (على سبيل المثال ، زيادة الإيرادات أو الاستجابة لحملة مستهدفة).

نهج الحل

الآن دعونا نلقي نظرة على الحلول الممكنة باستخدام أساليب جدول التعلم التعزيزي.

يمكن أن تكون خوارزمية الحل باستخدام Q-Learning أو Sarsa كما يلي:

1. تحديد الدول العميلة

يمكن تحديد حالة العميل باستخدام سمات العميل. معظم هذه السمات هي أرقام حقيقية ، لذا قبل استخدام الطرق المجدولة ، يجب تحديد السمات للحصول على مجموعة محدودة من الحالات.

في حلنا ، استخدمنا المجموعات التي تم الحصول عليها كنتيجة لتجميع قاعدة العملاء بناءً على السمات المحددة كحالات العميل. يؤثر عدد المجموعات على سرعة تعلم الخوارزمية. التوصيات العامة هي كما يلي:

من أجل التمكن من إدارة تدفق العملاء من مجموعة إلى أخرى ، من الضروري أن تتضمن قائمة السمات تلك التي يمكن تغييرها تحت تأثير التوافر ورد الفعل على عروض التسويق ؛
داخل كل مجموعة ، يجب أن يكون العملاء متجانسين في السلوك ؛
يجب أن يكون تحديث السمات ممكنًا على أساس منتظم ؛
في كل مجموعة ، يجب أن يكون عدد العملاء أعلى من الحد الأدنى المحدد (قد يكون الحد الأدنى ، على سبيل المثال ، بسبب القيود المفروضة على الحد الأدنى لعدد العملاء حتى تكون النتائج ذات مغزى)

2. اختيار المكافأة

يعتبر اختيار المكافأة أهم مرحلة في تطوير النظام. بالنسبة لهذه المهمة ، يمكن أن تميز المكافأة نجاح الحملة. على سبيل المثال ، الخيارات الممكنة هي:

التحويل لكل عرض
زيادة استجابة للعرض ؛
إيرادات محددة لكل مشارك في الحملة ؛
ربح محدد مع مراعاة التكاليف ؛
...

بالعودة إلى مشكلة زيادة ولاء العملاء ، يمكن أن يكون المقياس المستهدف هو القيمة الدائمة أو مقياس قرب العملاء من الشريحة الموالية.

على أي حال ، يجب أن يتماشى اختيار المكافأة مع أهداف التسويق.

ملاحظة: يتم حساب بعض خيارات المكافآت المقترحة مجمعة من قبل مجموعة من العملاء (على سبيل المثال ، الزيادة في الاستجابة للعروض هي الاستجابة في المجموعة المستهدفة مطروحًا منها الاستجابة في المجموعة الضابطة). في هذه الحالة ، سيكون من الأصح القول إننا نختار إجراءً ليس للعميل ، ولكن لمجموعة من العملاء (الذين هم في نفس الحالة) ، يتم من خلالها حساب المكافأة.

3. اختيار الإجراءات الممكنة

الإجراءات هي مقترحات تسويقية يمكن إرسالها إلى العميل. عند اختيار الحملات التسويقية لاستخدامها في النظام ، ضع في اعتبارك:

يجب ألا يتغير اقتراح التسويق من الإطلاق إلى الإطلاق ؛
يؤثر اختيار عدد الجمل على معدل تعلم الخوارزمية ؛
يجب وضع سيناريو في الاعتبار عندما لا تكون أي من الحملات مناسبة للولاية (على سبيل المثال ، تجلب جميع متغيرات العرض أرباحًا سلبية). في هذه الحالة ، يمكن أن يكون أحد الإجراءات "حملة افتراضية". يمكن أن يكون هذا إما قائمة بريدية أساسية يمكن إرسالها إلى جميع العملاء ، أو عدم وجود عرض (أي أنه من الممكن أن يكون من المربح عدم إرسال أي شيء إلى العميل).

4. تصميم خوارزمية اختيار تخضع لقيود

عند تصميم خوارزمية ، يجب مراعاة ما يلي:

(, iphone, iphone).
, .
.
Q-learning SARSA . , , .
, ( ) -.

5. بدء جدول عمل الدولة

في البداية ، يبدو جدول State-Action كما يلي: يمكن

إطلاق نظام إضافي في غياب عمليات الإطلاق التاريخية للحملات المختارة ، وهي ميزة مهمة للمفهوم.

ومع ذلك ، إذا كان هناك بعض التاريخ ، فيمكن استخدامه ، أي أن التدريب المسبق بأثر رجعي لجدول الإجراءات الحكومية ممكن:

قم بتهيئة جدول الحالة-الإجراء بالأصفار
خذ الإطلاق التاريخي للحملة X. احسب حالات العملاء المشاركين في الحملة في وقت الإطلاق وفي نهاية الحملة. احسب المكافأة المستلمة في كل ولاية.
وفقًا لصيغة Q-Learning أو SARSA ، أعد حساب جدول State-Action مع مراعاة القيم المتوقعة لقيم الحملة عند الإطلاق التالي.

6. تدريب الخوارزمية على عمليات الإطلاق التجريبية

الهدف من نظامنا هو معرفة كيفية اختيار أفضل العروض لقاعدة العملاء بأكملها. ومع ذلك ، في مرحلة اختبار النظام ، ننصح بإجراء عمليات إطلاق تجريبية على عينة تمثيلية صغيرة من العملاء.

ما يجب الانتباه إليه في هذه المرحلة:

التغييرات في القيم في جدول الحالة-الإجراء: مع تراكم التاريخ ، يجب أن تصبح القيم في جدول الحالة-الإجراء أكثر استقرارًا ؛
الديناميكيات الإيجابية لتأثير الحملات: من الإطلاق إلى الإطلاق ، يجب أن تنمو فعالية كل اقتراح تسويقي.

بمجرد أن يصل (1) و (2) إلى مرحلة الثبات ، يمكننا أن نفترض أن النظام جاهز للتشغيل على قاعدة العملاء بأكملها.

7. فتح النظام

قبل البدء في طرح النظام ، يُنصح بتحليل استدامة نتائج الحملة في سياق كل دولة عميل. كما تظهر الممارسة ، على الرغم من الاستقرار العام ، في بعض الدول قد يكون هناك إما تاريخ غير كافٍ ، أو قد تكون الدول نفسها غير مستقرة في الوقت المناسب => لدينا نتيجة غير مستقرة.

وبالتالي ، قمنا بتطوير التوصيات التالية للتداول:

استبعاد الظروف غير المستقرة من التدحرج ؛
استخدم إستراتيجية ε-greedy حتى يتمكن النظام من التكيف بشكل مستقل مع التغييرات في سلوك قاعدة العملاء
استمر في المراقبة المنتظمة لأداء النظام.

لذلك ، حاولنا في هذه المقالة وصف المفهوم عالي المستوى لنهجنا. يمكن الاطلاع على نتائج تشغيل النظام بناءً على الخوارزمية المقترحة هنا .

خاتمة

لقد وصفنا استخدام RL لحل مشكلة اختيار سلسلة الإجراءات المثلى. ومع ذلك ، تجدر الإشارة إلى أنه يمكن تطبيق مفهوم مماثل على مهام تسويقية أخرى ، على سبيل المثال ، أنظمة التوصية ، واختيار قناة / وقت الاتصال الأمثل ، أو اختيار لافتة شخصية على الموقع. على الرغم من حقيقة أن التعلم المعزز أقل شعبية من أساليب تعلم الآلة التقليدية ، فقد أردنا أن ننقل للقارئ أن RL يمكن أن يكون حلاً ممتازًا إذا كانت هناك حاجة إلى الحفاظ على إعادة التدريب التلقائي للنظام أو تدريب النظام بالكامل من البداية.

يود فريق GlowByte أن يشكر X5 Retail Group لإتاحة الفرصة له لتنفيذ هذه الحالة.

كيف يساعد التعلم المعزز تجار التجزئة