في هذا المقال ، أود أن أشارك تجربتي في مجال علوم البيانات ، التي تراكمت على مدار العام ونصف العام الماضيين.
هذه أول مشاركة لي على Medium ، لذا أود أن أتحدث عن نفسي وعن تجاربي السابقة. أنا طالب دكتوراه في الهندسة البيئية والحوسبة بجامعة هارفارد ، وأعمل أيضًا كمستشار للتعلم الآلي وبلوكتشين لشركة استشارات الذكاء الاصطناعي في المملكة المتحدة Critical Future. يركز بحثي على تنفيذ التعلم الآلي والذكاء الاصطناعي في العلوم البيئية باستخدام أنظمة الاستشعار القائمة على الطائرات بدون طيار التي يمكنها التحرك من تلقاء نفسها لتكوين صورة عن التركيب الكيميائي للغلاف الجوي السفلي ، خاصة في غابات الأمازون المطيرة (للمهتمين بهذا المشروع ، سأقوم بنشر مقالات منفصلة حول هذا الموضوع في المستقبل القريب).
بدأت رحلة الدكتوراة في جامعة هارفارد في خريف عام 2017 بدرجة البكالوريوس والماجستير في الهندسة الميكانيكية من إمبريال كوليدج لندن ، وأكملت سنتي الأخيرة في الخارج في جامعة سنغافورة الوطنية. خلال دراستي الجامعية ، لم أكن على دراية بعلوم البيانات والإحصاءات بشكل عام ، ولكن في نفس الوقت كنت أعرف الكثير عن البرمجة في Matlab و C و Visual Basic ، وكان لدي أيضًا خلفية رياضية قوية.
قبل أن أبدأ في جامعة هارفارد ، لم أقم أبدًا بالبرمجة في Python ، أو حتى سمعت عن R. لم أقم مطلقًا بحوسبة موازية ، ولم أقم بإنشاء مجموعات ، وكان التعلم الآلي والذكاء الاصطناعي من الأشياء التي سمعت عنها عادةً فقط. من روايات وأفلام بائسة.
كان حضور برنامج هارفارد لعلوم الكمبيوتر والتعلم الآلي بمثل هذه الخلفية المتواضعة أشبه بتسلق منحدر شديد (مرهق واهتز). ومع ذلك ، هذه جامعة هارفارد ، لذلك لا يمكنك توقع أي شيء أقل من ذلك. يتطلب برنامج الدكتوراه بجامعة هارفارد 10 دورات ، منها 8 دورات ماجستير. يمكن إكمالها وفقًا لسرعتك الخاصة ، ولكن يجب عليك إكمالها قبل التخرج ، والذي يستغرق 5 سنوات في المتوسط. يتم تشجيع الطلاب على إكمال جميع الدورات خلال العامين الأولين ، وبعد ذلك يمكنهم الحصول على درجة الماجستير (المجانية رسميًا). في نهاية فصل الربيع 2019 ، سأستوفي هذه المتطلبات وأحصل على شهادتي ، وبعد ذلك سأركز حصريًا على البحث.
في خريف عام 2018 ، أطلقت جامعة هارفارد أول مجموعة طلاب على الإطلاق لبرنامج الماجستير في علوم البيانات. إنه برنامج مدته سنتان ويتألف من دورات أساسية في علوم البيانات والأخلاق والرياضيات التطبيقية وعلوم الكمبيوتر والمواد الاختيارية في الإحصاء / الاقتصاد. عند وصولي قبل كل هؤلاء الطلاب بعام ، سأكون من أوائل من يستوفون المتطلبات الأساسية لهذا البرنامج ، مما يمنحني تجربة فريدة من حيث فعالية درجتي في علوم البيانات.
على مدار الـ 18 شهرًا الماضية ، تلقيت عددًا من الدورات التدريبية. واحدة من الأولى كانت CS205: الحوسبة المتوازية ، حيث تعلمت البرمجة لأول مرة على Linux وأنشأت مجموعات حسابية قادرة على التسريع الخطي لحسابات المصفوفة ، وتوجت هذه الدورة بمشروع نهائي تضمن الحوسبة المتوازية في Python مع Dask على مجموعة Kubernetes.
أخذت أيضًا AM207: الحوسبة العلمية المتقدمة ، والتي تقدمها مدرسة الامتداد بجامعة هارفارد (مما يعني أنه يمكن لأي شخص الالتحاق بهذه الدورة). ركزت هذه الدورة على إحصائيات Bayesian وتنفيذها في التعلم الآلي ، وتضمنت ساعات لا حصر لها من محاكاة Monte Carlo Markov Chain (MCMC) ، والعمل مع نظرية Bayesian ، وحتى مشاهدة مقطع فيديو قصير عن Superman الذي جعل الوقت يمر. الانعكاس (لإثبات مفهوم انعكاس الوقت في التعلم الآلي)
أحد الدورات الأساسية أيضًا هو AC209a ، والذي يركز على أساسيات التعلم الآلي وعلوم البيانات. أود أن أقول إن هذه الدورة تتضمن ما يعتقده معظم الناس عندما يقول شخص ما كلمات "علم البيانات" أو "التعلم الآلي". يتعلق الأمر بتعلم كيفية إجراء تحليل البيانات الاستكشافية وتشغيل المُنحدرات والمصنفات باستخدام sklearn. يركز جزء كبير من البرنامج التعليمي على فهم هذه التقنيات وأفضل طريقة لتحسينها لمجموعة بيانات معينة (يتطلب الأمر أكثر قليلاً من مجرد استخدام model.fit (X_train، y_train) ...). مقرر آخر هو AC209b: أقسام علوم البيانات الإضافية ، وهي امتداد للفصل الأول. في الأساس ، هذه دورة في علوم البيانات عن المنشطات ،حيث تبدأ المحاضرات القليلة الأولى بنماذج مضافة معممة وإنشاء شرائح لطيفة لوصف مجموعات البيانات. ومع ذلك ، تتصاعد الأمور بسرعة إلى تشغيل 2500 نموذج بالتوازي باستخدام Dask على مجموعة Kubernetes في محاولة لأداء التحسين الفائق على شبكة عصبية اصطناعية مكونة من 100 طبقة. في نفس الوقت ، في الواقع ، لم يكن الأمر أصعب ما فعلناه - كل هذا حدث فقط في الأسبوع الثالث من المحاضرات ، إذا تحدثنا عن الدورة ككل.لم يكن الأمر أصعب ما فعلناه - لقد حدث كل ذلك في الأسبوع الثالث فقط من المحاضرات ، إذا تحدثنا عن الدورة ككل.لم يكن الأمر أصعب ما فعلناه - كل هذا حدث فقط في الأسبوع الثالث من المحاضرات ، إذا تحدثنا عن الدورة ككل.
لقد أخذت أيضًا دورات أخرى ، بما في ذلك CS181: التعلم الآلي ، والتي تغطي الأسس الرياضية للانحدار والتصنيف والتعلم المعزز وغيرها من المجالات باستخدام كل من الأساليب القائمة على التردد وطريقة بايز ؛ AM205: طرق علمية لحل المعادلات التفاضلية ، و AM225: طرق متقدمة لحل المعادلات التفاضلية الجزئية. هناك العديد من الدورات التدريبية الأخرى التي يمكنني الالتحاق بها خلال الفترة المتبقية لي في جامعة هارفارد لتعميق معرفتي ، مثل CS207: هندسة النظم للعلوم الحاسوبية أو AM231: نظرية القرار أو AM221: التحسين المتقدم. يجب أن أوضح أيضًا أن كل دورة من هذه الدورات كان لها مشروع نهائي تمكنت من إضافته إلى محفظتي.
لننتقل الآن إلى موضوع المقالة - بعد كل هذا الوقت الذي قضيته في تعلم كيف أصبح عالم بيانات جيد ، هل كان الأمر يستحق ذلك؟ أو كان بإمكاني فعل كل شيء بنفسي؟ وبشكل أكثر تحديدًا ، هل يستحق كل هذا العناء لشخص يتطلع إلى متابعة هذا العمل كمهنة يستثمر من عام إلى عامين وأكثر من 100000 دولار في درجة علوم البيانات؟
لا أعتقد أن كل شيء تعلمته في دورات علوم البيانات التي استمرت 18 شهرًا يمكنني تعلمها من خلال قراءة الكتب ومشاهدة مقاطع الفيديو عبر الإنترنت ودراسة توثيق حزم البرامج المختلفة. ومع ذلك ، ليس لدي أدنى شك في أن الحصول على شهادة في علوم البيانات يمكن أن يسرع من مهنة شخص ما ، فضلاً عن توفير خبرة قيمة في مشاريع العالم الحقيقي التي يمكن مناقشتها أثناء المقابلات واستخدامها في محفظة. شخصيًا ، قد يستغرق الأمر مني سنوات لمعرفة كيفية تحسين شبكة عصبية مكونة من 100 طبقة تعمل على مجموعة موازية في Google Cloud إذا كنت جالسًا في المنزل وأشاهد مقطع فيديو على Youtube - لم أستطع حتى تخيل كيفية القيام بذلك.
إن الفضول حول علوم البيانات أمر رائع وأود أن يهتم المزيد من الأشخاص بهذا الموضوع. منذ انفجار المعلومات ، يبدو أنه في العقد القادم ، ستصبح البيانات هي الدين العالمي الجديد ، وبالتالي من المحتم أن يحتاج العالم إلى المزيد من المتخصصين في علوم البيانات. ومع ذلك ، يمكن أن يأخذك الفضول بعيدًا جدًا ، وامتلاك قطعة من الورق تظهر أنك قضيت وقتًا ، واستثمرت في المهارات والعادات الجيدة ، وأن تصبح عالم بيانات بارعًا حقًا ، سوف يميزك عن البقية. علم البيانات ليس مجرد منافسة من Kaggle ، كما يعتقد البعض.
نصيحتي لمن يتطلعون إلى القيام بعلوم البيانات هي الحصول على أساس جيد في الإحصاء والرياضيات ، كما أنصحك باكتساب بعض الخبرة في البرمجة بلغات مثل Python و R ، بالإضافة إلى إتقان تطوير Linux. يبدو أن معظم طلاب علوم الكمبيوتر الذين رأيتهم يكافحون مع الجوانب المتعلقة بعلوم الكمبيوتر مثل العمل مع حاويات Docker وإنشاء وإدارة مجموعات موزعة تعمل على بعض البنية التحتية السحابية. هناك العديد من المهارات المعقدة التي يجب إتقانها لتصبح عالم بيانات متمرسًا ، ولا يمكنني بالتأكيد تسمية نفسي خبيرًا. ومع ذلك ، مع بعض الخبرة ، أشعر بالثقة الكافيةأنه يمكنني الاستمرار في تطوير مهاراتي الخاصة في علوم البيانات والتعلم الآلي وتطبيقها على المشاريع والأبحاث المتعلقة بالصناعة ، دون خوف من القيام "بالعلوم السيئة".
إذا كنت تريد أن تعرف ما هي دورة علوم البيانات ، فإنني أوصي بإلقاء نظرة على الدورات التدريبية عبر الإنترنت التي تقدمها الجامعات ، والتي غالبًا ما تكسبك الاعتمادات التي تحتاجها لإكمال شهادتك. يوجد الآن طالب في جامعة هارفارد أكمل 3 دورات في علوم الكمبيوتر في المدرسة الإرشادية وحصل الآن على شهادة في الحوسبة والهندسة وهو أحد مساعدي التدريس في دورة علوم البيانات المتقدمة. كل شيء ممكن!
دورات عبر الإنترنت في علوم البيانات مع دبلوم حكومي من MISiS
وقعت NUST MISIS و SkillFactory (مدرسة عبر الإنترنت لعلوم البيانات) اتفاقية لإنشاء برنامج ماجستير مشترك عبر الإنترنت "علوم البيانات" ، والذي سيتضمن تدريبًا داخليًا في مشاريع حقيقية ، وغرف دردشة مع مرشدين ، وخطة تدريب فردية. سيتم تدريس الفصول بواسطة أساتذة وممارسين في NUST MISIS من مجموعة Mail.ru Group و Yandex و Tinkoff و VTB Bank و Lamoda و BIOCAD و AlfaStrakhovanie وغيرها.
هذه هي الحالة الأولى في روسيا للشراكة بين شركة تعليمية خاصة وجامعة حكومية على أساس نموذج OPM (عبر الإنترنت) إدارة البرنامج). ستكون مجموعة Mail.ru الشريك الصناعي للبرنامج. البرنامج مدعوم أيضًا من قبل NVidia و Rostelecom وجامعة NTI "20.35".
سيتمكن خريجو درجة البكالوريوس في أي اتجاه من التسجيل في برنامج الماجستير بناءً على نتائج الامتحان عبر الإنترنت.يمكنك التقديم الآن وحتى 10 أغسطس.
مواد مفيدة
- لا تصبح عالم بيانات
- 450 دورة مجانية من Ivy League
- دورات مجانية في علوم البيانات من جامعة هارفارد
- 109 دورات مجانية في علوم البيانات
- 65 دورة مجانية لتعلم الآلة من أفضل جامعات العالم
- عذرًا ، لكن الدورات التدريبية عبر الإنترنت لن تجعلك عالم بيانات
- كيف تتعلم أن تكون عالم بيانات: المهارات الفنية الأكثر طلبًا
- فلسفة تدريس علوم البيانات والتعلم العميق بواسطة fast.ai
- كيف أصبحت (دكتوراه في علم الأعصاب) عالم بيانات في 6 أشهر
- مشروع علوم البيانات الأكثر نجاحًا والأكثر إثارة للجدل: Cambridge Analytica
- توصي Python.org بما يلي: البرمجة لغير المبرمجين