👹 ⤴️ 🍛 تجميع وتصنيف بيانات النص الكبير باستخدام Java Machine Learning. المادة رقم 1

سيتم تقسيم هذه المقالة إلى 3 أجزاء ( النظرية / الطرق والخوارزميات لحل المشكلات / التطوير والتنفيذ في Java ) لوصف الصورة الكاملة. سيتضمن المقال الأول النظرية فقط لإعداد أذهان القراء.

الغرض من المقال:

أتمتة جزئية أو كاملة لمهمة تجميع وتصنيف البيانات الضخمة ، أي البيانات النصية.
تطبيق خوارزميات التعلم الآلي "غير الخاضعة للإشراف" (التجميع) و "الخاضعة للإشراف" (التصنيف).
تحليل حلول المشكلة الحالية.

المهام التي يجب مراعاتها بشكل عام:

تطوير وتطبيق الخوارزميات وطرق معالجة اللغة الطبيعية.
تطوير وتطبيق طرق التجميع لتحديد المجموعات العنقودية لمستندات الإدخال.
تطبيق طرق التصنيف لتحديد موضوع كل مجموعة عنقودية.
تطوير واجهة الويب على أساس Java Vaadin

الفرضيات التي استنتجتها من المشكلة وعند تدريس النظرية:

يحدد تصنيف المجموعات العنقودية المعرفة الخفية المجردة والأكثر قيمة ، وتجاهل الضوضاء ، من تصنيف الكائنات الفردية.
دقة التجميع تتناسب طرديًا مع عدد مجموعات الكتلة وتتناسب عكسًا مع عدد الكائنات في مجموعة عنقودية واحدة.

بالنظر إلى أي شخص مهتم بالخوارزمية نفسها ، إليك نظرة عامة.

تتكون خوارزمية برامج التعلم الآلي من 3 أجزاء رئيسية:

معالجة اللغة الطبيعية.
1. الترميز.
2. اللماتة.
3. وقف الإدراج
4. تردد الكلمات
طرق التجميع.

TF-IDF ؛

SVD.

إيجاد مجموعات عنقودية ؛
طرق التصنيف - Aylien API.

لذلك دعونا نبدأ النظرية.

1. مفهوم التعلم الآلي

‒ , , . – , , - . “ , , , . , ?”. ‒ , “”. – , , — , .

. , , , , , . - () . , , , .. , ? — , , . ? — , . .

, , , , . , , , , . , . , , . , .

, . ‒ . , . , , . . , " ", . , , .

()? , : “ , E T P, T, P, E”. , E , T , P , . – E, , 100 . “” .

, , . . , , , .

, .

2.

‒ , :

‒ . , .
‒ . , , , .
– , , . . , . , ‒ , .
‒ , . , .

. , , , . , . , , , . ‒ , , , , .

, , , , , .

, . . , . . , . , . , , , . , .

, , . , . , Google, Yahoo, Microsoft, Amazon , . , , Facebook, YouTube Twitter, . , , , , .

, . , . . , . , , , , , .

, . , , . , , .

, . , , , , , , , , , , , / .. , / . , .

في الختام ، يمكننا القول أن البيانات الضخمة والتعلم الآلي مرتبطان ارتباطًا وثيقًا ببعضهما البعض ، نظرًا لأن البيانات الضخمة عديمة الفائدة بدون تحليلها واستخراج المعلومات ، ولا يمكن للتعلم الآلي أن يتعايش بدون البيانات الضخمة ، مما يعطي خبرة الخوارزمية والتعلم.

3. أنواع التعلم الآلي

يمكن تصنيف التعلم الآلي ، كعلم ، إلى 3 فئات رئيسية حسب طبيعة التعلم:

التدريس مع المعلم.
التدريس بدون معلم ؛
تعزيز التعلم.

في بعض الأعمال العلمية ، ينقسم التعلم بطبيعته إلى 4 فئات ، والتي تشمل التعلم الجزئي ، ولكن هذا مجرد تكافل للتعلم مع معلم وبدون معلم.

3.1. التعلم مع المعلم

, , , , . , , . , . . , . , , , , . , .

لحل المشكلة لتطبيق التعلم الموجه ، يجب اتباع الخطوات التالية:

تحديد نوع الأمثلة التدريبية. بادئ ذي بدء ، تحتاج إلى تحديد البيانات التي يجب استخدامها كمجموعة تدريب.
جمع البيانات. يجب أن تكون مجموعة البيانات ممثلة للاستخدام الفعلي للوظيفة. وبالتالي ، يتم جمع مجموعة من ميزات الإدخال والمخرجات المرتبطة بها.
تحديد تمثيل الإدخال لموضوع الوظيفة المدروسة. تعتمد دقة الوظيفة قيد الدراسة اعتمادًا كبيرًا على كيفية تمثيل كائن الإدخال. عادةً ما يتم تحويل كائن الإدخال إلى متجه للكائنات التي تحتوي على سلسلة من الكائنات التي تصف الكائن. يجب ألا يكون عدد الوظائف كبيرًا جدًا ، بسبب "لعنة البعد" ، ولكن يجب أن يحتوي على معلومات كافية للتنبؤ بدقة بالنتيجة.
.
. . . ( ) .
. , , .

يتم تدريب الخوارزميات باستخدام أمثلة مُجهزة مسبقًا ، وفي هذه المرحلة يتم تقييم أداء الخوارزميات باستخدام بيانات الاختبار. في بعض الأحيان ، لا يمكن العثور على الأنماط المحددة في مجموعة فرعية من البيانات في مجموعة أكبر من البيانات. إذا كان النموذج مناسبًا فقط لتمثيل الأنماط الموجودة في مجموعة فرعية من التدريب ، يتم إنشاء مشكلة تسمى "Overfitting".

يعني التجاوز أن النموذج قد تم ضبطه بدقة لمجموعة بيانات التدريب ، ولكنه قد لا ينطبق على مجموعات البيانات الكبيرة من البيانات غير المعروفة. للحماية من فرط التجهيز ، يجب إجراء الاختبار ضد البيانات غير المتوقعة أو غير المعروفة. يمكن أن يساعدك استخدام البيانات غير المتوقعة لمجموعة الاختبار في تقييم دقة النموذج عند توقع النتائج. تتمتع نماذج التعلم الخاضع للإشراف بإمكانية تطبيق واسعة على مجموعة متنوعة من مشاكل الأعمال ، بما في ذلك الكشف عن الاحتيال أو التوصية أو التعرف على الكلام أو تحليل المخاطر.

أكثر خوارزميات التعلم تحت الإشراف شيوعًا والأكثر استخدامًا هي:

دعم شاحنات النقل؛
الانحدارالخطي؛
الانحدار اللوجستي؛
مصنف بايزي ساذج
تدريب شجرة القرار ؛
طريقة k- أقرب الجيران ؛
شبكة اعصاب صناعية؛
دراسة أوجه التشابه.

لكل من الخوارزميات المذكورة أعلاه مناهج مختلفة للطرق والصيغ الرياضية والإحصائية. لكن يمكن التأكيد على النمط العام للخوارزمية ، حيث يتم الإشراف على كل هذه الخوارزميات التعلم:

n (x_1,y_1),(x_2,y_2),...,(x_n,y_n), x_i ‒ , y_i ‒ . , x_i , , , , . y_i «” „“.

‒ m : (xn+1, xn+2,..., xn+m) * (x_(n+1),x_(n+2),...,x_(n+m) ). , , (, “” “ ”), , .

3.3.

‒ . , . , () . . , “” .

, , (), . , , . ‒ ‒ .

, , . , , , . , , , . , , , , .

تكمن المعضلة في أنه لا يمكن تحقيق أي تعلم أو إتقان فقط دون الفشل في المهمة. يجب أن تجرب الخوارزمية إجراءات مختلفة وتدريجيًا تفضل الإجراءات التي تبدو أفضل. في مشكلة عشوائية ، يجب محاولة كل إجراء بشكل متكرر للحصول على تقدير موثوق. تمت دراسة معضلة التعلم - إتقان بشكل مكثف من قبل علماء الرياضيات لعقود عديدة ، لكنها لا تزال دون حل.

تساعدك الأخطاء على التعلم لأنها تضيف قدرًا من الانضباط (التكلفة ، والوقت الضائع ، والندم ، والألم ، وما إلى ذلك ، ويعلمك أن مسارًا معينًا للعمل أقل احتمالية من الآخرين.) يحدث مثال مثير للاهتمام للتعلم المعزز عندما تتعلم أجهزة الكمبيوتر ممارسة ألعاب الفيديو بأنفسهم دون تدخل بشري.

يمكن أيضًا تصنيف التعلم الآلي بناءً على النتائج المرجوة:

تصنيف؛
تجمع؛
تراجع.

تستخدم خوارزميات الانحدار بشكل شائع للتحليل الإحصائي. يساعدك الانحدار في تحليل العلاقات النموذجية بين نقاط البيانات. يمكن لخوارزميات الانحدار تحديد قوة الارتباط بين المتغيرات في مجموعة البيانات. بالإضافة إلى ذلك ، يمكن أن يكون تحليل الانحدار مفيدًا للتنبؤ بقيم البيانات المستقبلية بناءً على القيم التاريخية. من المهم أن نتذكر ، مع ذلك ، أن تحليل الانحدار يفترض أن الارتباط يتعلق بالسبب والنتيجة. بدون فهم السياق حول البيانات ، يمكن أن يؤدي تحليل الانحدار إلى تنبؤات غير دقيقة. أنواع الانحدار:

الانحدارالخطي؛
انحدار غير خطي
انحدار ناقلات
الانحدار اللوجستي.

التجميع هو أسلوب بسيط لفهمه. يتم تجميع الكائنات ذات المعلمات المتشابهة معًا (في مجموعة). تتشابه جميع الكائنات في الكتلة مع بعضها البعض أكثر من الكائنات الموجودة في المجموعات الأخرى. التجميع هو نوع من التعلم غير الخاضع للإشراف لأن الخوارزمية نفسها تحدد الخصائص العامة للعناصر في البيانات. تفسر الخوارزمية المعلمات التي يتكون منها كل عنصر ثم تقوم بتجميعها وفقًا لذلك.

فئات التجميع:

طريقة k- الوسائل ؛
التجمعات المكانية القائمة على الكثافة للتطبيقات الصاخبة - DBSCAN ؛
خوارزمية التجميع البصريات ؛
طريقة المكونات الرئيسية.

لكن من المهم ملاحظة أنه في التجميع ، خاصة في التعلم غير الخاضع للإشراف ، تبحث الخوارزمية عن الاتصالات بين بيانات الإدخال. يكمن جمال التعلم الآلي في العثور على روابط خفية بين البيانات ، والمعروفة باسم الاتصالات الكامنة. للتجميع في البحث عن العلاقات الكامنة ، يتم استخدام نموذج للمتغيرات المخفية ، والذي يتم تطبيقه لدراسة العلاقات بين قيم المتغيرات. يتضمن نموذج المتغير المخفي:

خوارزمية EM
طريقة اللحظات
فصل إشارة عمياء
طريقة المكونات الرئيسية
تحليل المكونات المستقلة ؛
تحلل المصفوفة غير السلبي
تحلل القيمة المفرد.

التصنيف هو عملية التنبؤ بفئة نقاط بيانات معينة. يشار إلى الفئات أحيانًا باسم تسميات أو فئات. النمذجة التنبؤية للتصنيف هي مشكلة تقريب وظيفة التعيين (f) من متغيرات الإدخال (X) إلى متغيرات الإخراج المنفصلة (y) . التصنيف ينتمي إلى فئة التعلم الخاضع للإشراف. أنواع مخططات التصنيف:

القاموس الموسوعي للمفردات؛
التصنيف.
نموذج البيانات؛
شبكة النقل؛
الأنطولوجيا.

ولكن في التعلم الآلي ، تتم أنواع التصنيف وفقًا لأنواع الخوارزميات التي تشير بطريقة أو بأخرى إلى مخططات التصنيف. أكثر خوارزميات التعلم استخدامًا هي:

دعم شاحنات النقل؛
الانحدار اللوجستي؛
مصنف بايزي ساذج
طريقة k- أقرب الجيران ؛
شبكة اعصاب صناعية؛
.

4.

, . . , . – . ‒ , , – . , . , .

(NLP) ‒ . ‒ , , ( ) . , , , . , .

, , .

, , . , . ( ) (), . / . . , , . : () .

, . , -, , ‒ . (NLP). NLP ‒ (-) . NLP , , . NLP, , : . , , ( ). NLP , . NLP, , . , :

‒ () , . – . , . .
‒ , . ? , () , . . . , , . .
– , . , . , :
- , , , , .
- ,

, . , .

- ‒ - , , , , - , . .
– . , . , , ( ).

, , . , . . . . . , , . .

في التعلم الآلي ، يمكن أن يتداخل المستند النصي مع العديد من الفئات في التصنيف ، أو العديد من المجموعات في المجموعات. أكثر خوارزميات أخذ العينات شيوعًا هي:

تردد المصطلح - تردد المستند العكسي (TF-IDF) يُستخدم بشكل شائع لوزن كل كلمة في مستند نصي وفقًا لتميزه. غالبًا ما يستخدم وزن الكلمات (الرمز المميز) لاسترجاع المعلومات والتحليل الدلالي للنص. هذا الثقل هو مقياس إحصائي يستخدم لتقييم مدى أهمية كلمة ما لمستند في مجموعة أو مجموعة ، وبعبارة أخرى ، يعكس نهج TF-IDF أهمية الكلمات والوثائق النصية والفئات المحددة.
Word2Vec هي أداة (مجموعة من الخوارزميات) لحساب تمثيلات المتجهات للكلمات ، والتي تنفذ معمارتين رئيسيتين - دفعة مستمرة من الكلمات (CBOW) و Skip-gram. يتم تمرير مستند أو كلمة نصية كمدخلات ، وسيتم تمثيل بيانات الإخراج كمتغيرات متجهة (إحداثيات في مساحة المتجه).

خاتمة

في الواقع ، نظرية التعلم الآلي واسعة جدًا وواسعة. كتبت هنا بكلمات أكثر تجريدًا وبساطة. إذا كانت هناك تعديلات على النص أو النظرية ، يرجى الكتابة. الغرض من هذه المقالة ، مرة أخرى ، هو إعداد القراء للمشكلات والحلول الأكثر عملية.

اترك تعليق إذا كنت تنتظر المزيد.

تجميع وتصنيف بيانات النص الكبير باستخدام Java Machine Learning. المادة رقم 1 - النظرية

1. مفهوم التعلم الآلي

2.

3. أنواع التعلم الآلي

3.1. التعلم مع المعلم

3.3.

4.

خاتمة

More articles: