مقابلة علوم البيانات: ما الذي قد يطرحونه وأين يجدون إجابات للأسئلة



بمجرد تلقيي عرضًا من Deliveroo ، كان من المفترض في هذه الشركة أن أصبح مديرًا لعلوم البيانات. بينما كنت أستعد لتولي واجباتي ، تم سحب العرض. في ذلك الوقت لم يكن لدي وسادة هوائية في حالة البطالة الطويلة. سأشارك معك كل ما ساعدني في النهاية في الحصول على عرضين لمنصب عالم البيانات من Facebook في وقت واحد. آمل أن يساعد هذا أحدكم على الخروج من الموقف الصعب الذي وجدت نفسي فيه قبل عدة أشهر.



1. المنظمة هي مفتاح كل شيء



ذهبت إلى المقابلات في Google (و DeepMind) و Uber و Facebook و Amazon لكل ما يتعلق بطريقة ما بمنصب عالم البيانات. في معظم الأوقات ، طُلب مني أسئلة من صناعات مثل



  • تطوير البرمجيات
  • الإحصاء التطبيقي
  • التعلم الالي
  • معالجة البيانات وإدارتها وتصورها


لا أحد يتوقع منك أن تكون محترفًا للغاية لجميع هذه الصناعات. لكن يجب أن تفهمها بما يكفي لإقناع القائم بإجراء المقابلة بكفاءتك وبحقك في تولي المنصب المقترح. مدى العمق الذي تحتاجه لفهم الموضوع يعتمد على الوظيفة نفسها ، ولكن نظرًا لأن هذا مجال تنافسي للغاية ، فإن أي معرفة ستكون في متناول اليد.



أوصي باستخدام Notion لتنظيم التحضير للمقابلة. هذه الأداة متعددة الاستخدامات ، بالإضافة إلى أنها تتيح لك تطبيق تقنيات مثل التكرار المتباعد والاستدعاء النشط. إنها تساعد في تعزيز نتائج التعلم وكشف الأسئلة الرئيسية التي تطرأ مرارًا وتكرارًا في مقابلة عالم البيانات. علي عبدال دليل عظيملتدوين الملاحظات باستخدام Notion. يساعد على تعظيم إمكاناتك أثناء المقابلة.



كنت أكرر ملاحظاتي باستمرار في Notion ، وخاصة بنشاط - قبل المقابلة مباشرة. سمح لي هذا أن أكون واثقًا من قدراتي وأن الموضوعات والمصطلحات الرئيسية موجودة في "ذاكرتي العاملة" ، لذلك لا يتعين علي إضاعة الوقت الثمين ، بقول "nuuuuuu" بشكل هادف بعد بعض الأسئلة.



2. تطوير البرمجيات



لا تحتاج دائمًا إلى الإجابة عن أسئلة حول التعقيد الزمني للخوارزمية. لكن أي وظيفة لعالم البيانات تتطلب الترميز. علم البيانات ، كما تعلم ، ليس مهنة واحدة ، ولكن العديد منها ، تجذب هذه الصناعة المواهب من مجموعة متنوعة من المجالات ، بما في ذلك تطوير البرمجيات. وفقًا لذلك ، سيتعين عليك التنافس مع المبرمجين الذين يفهمون الفروق الدقيقة في كتابة التعليمات البرمجية الفعالة. أوصي بقضاء ساعة إلى ساعتين يوميًا قبل المقابلة ، وإتقان و / أو تقوية المعرفة والمهارات في مثل هذه الموضوعات:



  • المصفوفات.
  • جداول تجزئة.
  • القوائم المرتبطة.
  • طريقة مؤشرين.
  • خوارزميات السلسلة (يحب أصحاب العمل هذا الموضوع).
  • بحث ثنائي.
  • خوارزميات فرق تسد.
  • خوارزميات الفرز.
  • البرمجة الديناميكية.
  • العودية.


لا تدرس الخوارزميات بطريقة رسمية. هذا غير مجدي ، لأن القائم بإجراء المقابلة قد يطرح سؤالاً حول الفروق الدقيقة في بعض الخوارزمية ، وسوف تضيع. بدلاً من ذلك ، من الأفضل إتقان الأساس الأساسي لكل خوارزمية. استكشف التعقيد الحسابي والمكاني وافهم سبب أهمية كل هذه الأشياء لإنشاء كود عالي الجودة.



لدى المحاورين الكثير ليطرحوه عن الخوارزميات ، لذلك يجدر تعلم الأساسيات ودراسات الحالة الشائعة لتسهيل الرد على المقابلات لاحقًا.



حاول الإجابة على كل سؤال محتمل ، حتى لو استغرق وقتًا طويلاً. ثم انظر إلى نموذج القرار وحاول تحديد الإستراتيجية المثلى. ثم انظر إلى الإجابات وحاول أن تفهم سبب ذلك؟ اسأل نفسك أسئلة مثل "لماذا متوسط ​​التعقيد الزمني لـ Quicksort O (n²)؟" أو "لماذا يكون مؤشران وحلقة for أكثر منطقية من ثلاث حلقات for"؟



3. الإحصاء التطبيقي



تلعب الإحصائيات التطبيقية دورًا مهمًا في علوم البيانات. مدى أهمية سوف تعتمد على الوظيفة التي تتقدم لها. أين يتم استخدام الإحصائيات التطبيقية بالفعل؟ حيثما كان ذلك ضروريًا لتنظيم وتفسير واستخراج المعلومات من البيانات.



أثناء المقابلات ، أنصحك بدراسة الموضوعات التالية بعناية:



  • ( , , , ).
  • (, , 5 10 ).
  • ( A / B-, T-, , - . .).
  • ( , ).
  • ( / ).


إذا كنت تعتقد أن هذه كمية هائلة من المعلومات يجب دراستها ، فأنت لا تعتقد ذلك. لقد اندهشت من مقدار ما يمكنك أن تطلبه لإجراء مقابلة ومقدار ما يمكنك العثور عليه عبر الإنترنت لمساعدتك في إعدادك. ساعدني موردان على التأقلم:





من الأفضل عدم تعلمها عن ظهر قلب. تحتاج إلى حل أكبر عدد ممكن من المهام. يعتبر Glassdoor مستودعًا رائعًا لأسئلة الإحصاء التطبيقية التي تصادفها عادةً في المقابلات. كانت المقابلة الأكثر تحديًا التي أجريتها هي مقابلة مع G-Research. لكنني استمتعت حقًا بالتحضير لذلك ، وساعدني Glassdoor على فهم مدى تقدمي في إتقان هذا الموضوع.



4. التعلم الآلي



نأتي الآن إلى أهم شيء - التعلم الآلي. لكن هذا الموضوع واسع جدًا بحيث يمكنك ببساطة أن تضيع فيه.



فيما يلي بعض الموارد التي ستوفر أساسًا متينًا للغاية لبدء التعلم الآلي. فيما يلي مجموعة من الموضوعات بعيدة كل البعد عن كونها شاملة ، مرتبة حسب الموضوع.



المقاييس - التصنيف











-, Over/Under-Fitting











Sampling





اختبار الفرضيات



هذا الموضوع أكثر ارتباطًا بالإحصاءات التطبيقية ، ولكنه مهم للغاية ، على وجه الخصوص ، في اختبار A / B.



نماذج الانحدار



هناك ثروة من المعلومات المتاحة حول الانحدار الخطي. يجب أن تتعرف على نماذج الانحدار الأخرى:





خوارزميات التجميع





نماذج التصنيف





هذا كثير ، لكن لا يبدو الأمر مخيفًا إذا فهمت الإحصائيات المطبقة. أوصي بتعلم الفروق الدقيقة لثلاث طرق مختلفة على الأقل للتصنيف / الانحدار / التجميع ، لأن القائم بإجراء المقابلة يمكنه دائمًا أن يسأل (ويفعل) ، "ما هي الأساليب الأخرى التي يمكننا استخدامها ، وما هي بعض المزايا / العيوب؟" هذا مجرد جزء صغير من المعرفة ، ولكن إذا كنت تعرف هذه الأمثلة المهمة ، فستكون المقابلات أكثر سلاسة.



5. معالجة البيانات والتصور



"أخبرنا عن مراحل معالجة البيانات وتنظيفها قبل تطبيق خوارزميات التعلم الآلي."



يتم تزويدنا بمجموعة محددة من البيانات. أولاً وقبل كل شيء هو إثبات أنه يمكنك إنجاز أكاديمية الإمارات الدبلوماسية. من الأفضل استخدام Pandas ، إذا تم استخدامه بشكل صحيح ، فهو أقوى أداة في صندوق أدوات تحليل البيانات. أفضل طريقة لمعرفة كيفية استخدام Pandas لمعالجة البيانات هي تنزيل العديد والعديد من مجموعات البيانات والعمل معها.



في إحدى المقابلات ، كنت بحاجة إلى تحميل مجموعة بيانات وتنظيفها وعرضها وتحديدها وبناء نموذج وتقييمه - كل ذلك في ساعة واحدة. لقد كان الأمر جنونيًا حقًا ، كنا صعبين للغاية. لكنني كنت أتدرب على فعل كل هذا لبضعة أسابيع ، لذلك عرفت ما يجب فعله ، حتى لو فقدت الموضوع.



تنظيم البيانات



هناك ثلاثة أشياء مهمة في الحياة: الموت والضرائب والحصول على طلب لدمج مجموعات البيانات. الباندا مثالية تقريبًا للوظيفة ، لذا يرجى التدرب والممارسة والممارسة.



تنميط البيانات



تتضمن هذه المهمة فهم الخصائص "التعريفية" لمجموعة البيانات ، مثل شكل ووصف الخصائص الرقمية والفئوية والزمانية في البيانات. يجب أن تسعى دائمًا للإجابة على سلسلة من الأسئلة مثل "كم عدد الملاحظات التي لدي" ، "كيف يبدو توزيع كل وظيفة" ، "ماذا تعني هذه الوظائف". يمكن أن يساعدك هذا النوع من التنميط المبكر في التخلص من الميزات غير ذات الصلة من البداية ، مثل الميزات الفئوية التي تحتوي على آلاف المستويات (الأسماء والمعرفات الفريدة) وتقليل عبء العمل عليك وعلى جهاز الكمبيوتر الخاص بك على الطريق (العمل بذكاء وليس بجد ، أو استيقظت بطريقة ما).



عرض مرئي للمعلومات



هنا تسأل نفسك: "كيف يبدو توزيع وظائفي بشكل عام؟" نصيحة سريعة: إذا لم تتعرف على مخططات الصندوق في جزء الإحصائيات التطبيقية من البرنامج التعليمي ، فقد حان الوقت الآن لأنك بحاجة إلى معرفة كيفية تحديد القيم المتطرفة بصريًا. تعد الرسوم البيانية والرسوم البيانية لكثافة النواة أدوات مفيدة للغاية عند عرض خصائص توزيعات كل دالة.



ثم قد نسأل "كيف تبدو العلاقة بين وظائفي" ، وفي هذه الحالة تحتوي Python على حزمة تسمى seaborn تحتوي على أدوات رائعة وقوية مثل pairplot وخريطة حرارة لطيفة لمخططات الارتباط.



معالجة القيم الخالية وأخطاء بناء الجملة والصفوف / الأعمدة المكررة



القيم المفقودة أمر لا مفر منه ، تنشأ هذه المشكلة من العديد من العوامل المختلفة ، كل منها يؤثر على الإزاحة بطريقته الخاصة. أنت بحاجة لمعرفة أفضل السبل للتعامل مع القيم المفقودة. تحقق من هذا الدليل حول كيفية التعامل مع القيم الخالية .



تحدث أخطاء بناء الجملة عادةً عندما تحتوي مجموعة البيانات على معلومات تم إدخالها يدويًا ، مثل نموذج. قد يقودنا هذا إلى استنتاج خاطئ بأن الوظيفة الفئوية لها مستويات أكثر بكثير مما هي عليه في الواقع ، لأن "Hot" و "hOt" و "hot / n" تعتبر مستويات فريدة. تحقق من هذا المورد في التعامل مع البيانات النصية القذرة.



أخيرًا ، الأعمدة المكررة غير ضرورية ، ويمكن أن تؤدي الصفوف المكررة إلى تشويه العرض التقديمي ، لذا يجب التعامل معها مبكرًا.



التوحيد القياسي أو التطبيع



بناءً على مجموعة البيانات التي تعمل معها وطريقة التعلم الآلي التي تختار استخدامها ، قد يكون من المفيد توحيد البيانات أو تطبيعها بحيث لا تؤثر المقاييس المختلفة للمتغيرات المختلفة سلبًا على أداء النموذج الخاص بك.



بشكل عام ، لم يكن موقف "تذكر كل شيء" هو الذي ساعدني بقدر ما ساعدني على فهم مدى مساعدة التدريب لي. لقد فشلت في العديد من المقابلات قبل أن أدرك أن كل ما سبق ليس مفاهيم مقصورة على فئة معينة لا يستطيع إتقانها سوى قلة مختارة. هذه هي الأدوات التي يستخدمها علماء البيانات لبناء نماذج رائعة والحصول على رؤى مهمة من البيانات.



حول هذا الموضوع:






All Articles