فضاء عالي الأبعاد ونقمة
تُعد لعنة الأبعاد مشكلة خطيرة عند التعامل مع مجموعات البيانات الحقيقية ، والتي تميل إلى أن تكون متعددة الأبعاد. مع زيادة أبعاد مساحة الميزة ، يمكن أن ينمو عدد التكوينات بشكل كبير ، ونتيجة لذلك ، يتناقص عدد التكوينات التي تغطيها المراقبة.
في مثل هذه الحالة ، سيلعب تحليل المكون الرئيسي (PCA) دورًا مهمًا ، مما يقلل بشكل فعال من حجم البيانات مع الحفاظ على أكبر قدر ممكن من التباين في مجموعة البيانات.
دعنا نلقي نظرة سريعة على جوهر تحليل المكون الرئيسي قبل الغوص في المشكلة.
طريقة المكون الرئيسي - التعريف
تتمثل الفكرة الرئيسية وراء تحليل المكون الرئيسي في تقليل أبعاد مجموعة البيانات التي تتكون من عدد كبير من المتغيرات المترابطة ، مع الحفاظ على أقصى تنوع موجود في مجموعة البيانات.
حدد مصفوفة متماثلة A ،
حيث X عبارة عن مصفوفة mxn للمتغيرات المستقلة ، حيث m هو عدد الأعمدة و n هو عدد نقاط البيانات. يمكن أن تتحلل المصفوفة A على النحو التالي:
حيث D هي المصفوفة القطرية ، و E هي مصفوفة المتجهات الذاتية لـ A ، مرتبة في أعمدة.
المكونات الرئيسية Xهي المتجهات الذاتية XX T ، مما يعني أن اتجاه المتجهات الذاتية / المكونات الرئيسية يعتمد على تباين المتغير المستقل (X) .
لماذا يعتبر التطبيق المتهور لتحليل المكون الرئيسي لعنة مشاكل التعلم تحت الإشراف؟
تذكر الأدبيات في كثير من الأحيان استخدام تحليل المكون الرئيسي في الانحدار ، وكذلك في مشاكل العلاقة الخطية المتعددة. ومع ذلك ، إلى جانب استخدام الانحدار على المكونات الرئيسية ، كان هناك العديد من المفاهيم الخاطئة حول قابلية تفسير متغير الاستجابة من خلال المكونات الرئيسية وترتيب أهميتها.
من المفاهيم الخاطئة الشائعة ، التي تمت مواجهتها عدة مرات في العديد من المقالات والكتب ، أنه في بيئة التعلم الخاضعة للإشراف مع انحدار المكون الرئيسي ، لن تلعب المكونات الرئيسية للمتغير المستقل بقيم ذاتية صغيرة دورًا مهمًا في شرح متغير الاستجابة ، مما يقودنا إلى الغرض من هذه المقالة. الفكرة هي أن المكونات ذات القيم الذاتية الصغيرة يمكن أن تكون بنفس الأهمية ، أو حتى أكثر أهمية ، من المكونات الأساسية ذات القيم الذاتية الكبيرة في شرح متغير الاستجابة.
سأدرج أدناه بعض الأمثلة على المنشورات التي ذكرتها:
[1]. يقترح مانسفيلد وآخرون (1977 ، ص 38) أنه إذا تمت إزالة المكونات ذات التباين الصغير فقط ، فلن يفقد الانحدار الكثير في القدرة على التنبؤ.
[2]. في Ganst and Mason (1980) ، تم تخصيص 12 صفحة لانحدار المكون الرئيسي ، ويفترض الكثير من المناقشة أن إزالة المكون الرئيسي يعتمد فقط على تباينات المكون الرئيسي. (ص 327 - 328).
[3]. يجادل موستيلر وتركي (1977 ، ص 397-398) أيضًا بأن مكونات التباين المنخفض من غير المرجح أن تكون مهمة في الانحدار ، من الواضح أن الطبيعة "صعبة" ولكنها ليست "موحدة" .
[4]. هوكينج (1976 ، ص 31) أكثر تقييدًا في تحديد قاعدة الحفاظ على المكونات الرئيسية في الانحدار على أساس التباين.
الشرح النظري والفهم
أولاً ، دعنا نحصل على التبرير الرياضي الصحيح للفرضية المذكورة أعلاه ، ثم نعطي شرحًا بسيطًا لفهم أفضل باستخدام التصور الهندسي والنمذجة.
لنفترض أن
Y هو متغير الاستجابة ،
X هي مصفوفة مساحة الميزة
Z هي الإصدار القياسي X
فليكنهي القيم الذاتية لل Z T Z (ارتباط المصفوفة) و V - المتجهات الذاتية المقابلة، ثم W = ZV ، والأعمدة في W سيمثل مكونات الرئيسي Z . الطريقة القياسية المستخدمة في انحدار المكون الرئيسي هي ارتداد المكونات الرئيسية الأولى م على Y ، ويمكن تمثيل المشكلة من خلال النظرية أدناه وتفسيرها [2].
النظرية:
دعونا W = (W₁، ...، الفسفور الابيض) - المتجهات الذاتية X . الآن، والنظر في نموذج الانحدار:
إذا كان الموجه الحقيقي للالانحدار معامل β غير codirectional مع ي-ث بالمتجه الذاتي Z T Z ، ثم خلال تراجع Y إلى W، و ي- عشر المكون الرئيسي Wⱼ سيسهم في التعلم، في حين أن ما تبقى منها لا تسهم من حيث المبدأ ...
برهان : اسمحوا لV = (V₁، ...، نائب الرئيس) - مصفوفة المتجهات الذاتية من وZ T وZ . ثم
منذ
، أين هي
معاملات الانحدار للتعبير.
إذا βهو اتجاه مشترك مع j -th eigenvector Vⱼ ، ثم Vⱼ = aβ ، حيث a هي قيمة عددية غير صفرية. لذلك ، θj = Vⱼᵀβ = aβᵀβ و θᴋ = Vᴋᵀ β = 0 ، حيث k ≠ j . وبالتالي ، فإن معامل الانحدار θᴋ المقابل لـ Wᴋ يساوي صفرًا ، بالنسبة لـ k j ، على التوالي ،
نظرًا لأن المتغير Wᴋ لا يقلل من مجموع المربعات ، إذا كان معامل الانحدار الخاص به هو 0 ، فإن Wj سيجلب المساهمة الرئيسية ، بينما المكونات الرئيسية الأخرى لن تقدم أي مساهمة.
الأهمية الهندسية والنمذجة
الآن دعنا نحاكي ونحصل على تمثيل هندسي للحسابات الرياضية أعلاه. يتم توضيح التفسير من خلال نمذجة مساحة ميزة ثنائية الأبعاد (X) ومتغير استجابة واحد بحيث يمكن فهم الفرضية بسهولة بصريًا.
الشكل 1: المخططات أحادية البعد وثنائية الأبعاد للمتغيرات المدروسة X1 و X2
في المرحلة الأولى من النمذجة ، تم نمذجة مساحة الميزة باستخدام توزيع عادي متعدد المتغيرات مع ارتباط كبير جدًا بين المتغيرات والمكونات الرئيسية.
الشكل 2: ارتباط خريطة الحرارة لكل من PC1 و PC2 (المكونات الرئيسية)
يتضح من الرسم البياني أنه لا يوجد ارتباط بين المكونات الرئيسية. في الخطوة الثانية ، يتم نمذجة قيم متغير الاستجابة Y بحيث يتزامن اتجاه المعامل Y للمكونات الرئيسية مع اتجاه المكون الرئيسي الثاني.
بعد تلقي متغير الاستجابة ، ستبدو مصفوفة الارتباط كما يلي.
الشكل 3: خريطة الحرارة للمتغير Y و PC1 و PC2.
يوضح الرسم البياني بوضوح أن العلاقة بين Y و PC2 أعلى من الارتباط بين Y و PC1 ، مما يؤكد فرضيتنا.
الشكل 4: تباين مساحة الميزة موضح بواسطة PC1 و PC2.
منذ أن يوضح الشكل أن PC1يشرح 95 ٪ من تباين X ، ثم وفقًا للمنطق الموضح أعلاه ، يجب علينا تجاهل PC2 تمامًا في الانحدار.
لذلك دعونا نتبعها ونرى ما سيحدث!
الشكل 5. نتيجة الانحدار مع Y و PC1.
وهكذا ، فإن R² ، التي تساوي 0 ، قالت إنه على الرغم من حقيقة أن PC1 يعطي 95٪ من التباين X ، فإنه لا يزال لا يفسر متغير الاستجابة.
الآن دعونا نفعل الشيء نفسه مع PC2 ، والذي يفسر 5٪ فقط من تباين X ، ونرى ما سيحدث.
الشكل 6: نتيجة الانحدار مع Y و PC2.
يوهو! مجرد إلقاء نظرة على ما حدث: المكون الرئيسي الذي أوضح 5٪ من X في التباين أعطى 72٪ من Y و التباين . هناك أيضًا أمثلة حقيقية لدعم مثل هذه المواقف:
[1] أعطى سميث وكامبل (1980) مثالًا من التكنولوجيا الكيميائية ، حيث كان هناك 9 متغيرات ارتدادية ، وعندما كان تباين المكون الرئيسي الثامن 0.06٪ من التباين الكلي ، والذي لن يكون كذلك يؤخذ في الاعتبار بسبب المنطق أعلاه.
[2] المثال الثاني قدمه كونغ وشريف (1980). في دراسة للتنبؤ بتاريخ بدء الرياح الموسمية باستخدام عشرة متغيرات أرصاد جوية ، كانت المكونات الثامنة والثانية والعاشرة فقط مهمة. يوضح هذا المثال أنه حتى المكون الرئيسي الذي يحتوي على أصغر قيمة ذاتية سيكون ثالث أكثر العناصر أهمية من حيث شرح تباين متغير الاستجابة.
انتاج |
توضح الأمثلة أعلاه أنه من غير المناسب إزالة المكونات الرئيسية بقيم ذاتية صغيرة ، لأنها تؤثر فقط على قابلية الشرح في مساحة الميزة ، ولكن ليس متغير الاستجابة. لذلك ، تحتاج إلى الحفاظ على جميع المكونات في تقنيات تقليل أبعاد التعلم الخاضعة للإشراف ، مثل انحدار المربعات الصغرى الجزئي وانحدار الزاوية الصغرى ، والتي سنناقشها في المقالات المستقبلية.
المصادر
[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.
[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.
[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286
[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.
[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley
[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.
[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.
[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.
[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.
[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286
[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.
[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley
[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.
[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.
[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.
تعرف على المزيد حول دورة "التعلم الآلي". دورة أساسية " ، بالإضافة إلى حضور درس مجاني ، يمكنك الاشتراك في ندوة مجانية عبر الإنترنت على هذا الرابط .
اقرأ أكثر:
الانتروبيا: كيف تتخذ أشجار القرار القرارات