إعادة التفكير في آلية الانتباه مع فناني الأداء

النماذج القائمة على محول حققت نتائج باهرة في طائفة واسعة من التخصصات، بما في ذلك التخاطب AI ، اللغة الطبيعية المعالجة ، صور، وحتى الموسيقى . المكون الرئيسي لأي بنية هو وحدة انتباه المحولات ( وحدة الانتباه) ، والتي تحسب التشابه لجميع الأزواج في تسلسل الإدخال. ومع ذلك ، فإنه لا يتناسب بشكل جيد مع الزيادة في طول تسلسل الإدخال ، مما يتطلب زيادة تربيعية في الوقت الحسابي للحصول على جميع تقديرات التشابه ، بالإضافة إلى زيادة تربيعية في مقدار الذاكرة المستخدمة لإنشاء مصفوفة لتخزين هذه التقديرات.



بالنسبة للتطبيقات التي تتطلب اهتمامًا واسعًا ، تم اقتراح العديد من البروكسيات الأسرع والأكثر إحكاما ، مثل تقنيات التخزين المؤقت للذاكرة ، ولكن الحل الأكثر شيوعًا هو استخدام الانتباه المتناثر . يقلل الانتباه المتناثر من الوقت الحسابي ومتطلبات الذاكرة لآلية الانتباه عن طريق حساب عدد محدود فقط من درجات التشابه من تسلسل بدلاً من جميع الأزواج الممكنة ، مما يؤدي إلى وجود مصفوفة متفرقة بدلاً من مصفوفة كاملة. يمكن اقتراح هذه الأحداث المتفرقة يدويًا ، أو العثور عليها باستخدام تقنيات التحسين ، أو التعلم ، أو حتى العشوائية ، كما هو موضح من خلال تقنيات مثل Sparse Transformers و Longformers، التوجيه المحولات ، الإصلاحيون و الطيور الكبيرة . نظرًا لأنه يمكن أيضًا تمثيل المصفوفات المتفرقة بواسطة الرسوم البيانية والحواف ، فإن الطرق المتفرقة يتم تحفيزها أيضًا من خلال أدبيات الشبكة العصبية للرسم البياني ، خاصة فيما يتعلق بآلية الانتباه الموضحة في شبكات الاهتمام بالرسم البياني. عادة ما تتطلب مثل هذه الأبنية المتفرقة طبقات إضافية لإنشاء آلية انتباه كاملة ضمنيًا.



الصورة 12



. : , . : Graph Attention Networks, , , . . « : » .



, . (1) , ; (2) ; (3) , , ; (4) , , . , , , Pointer Networks. , , , (softmax), .



, Performer, , . , , , ImageNet64, , PG-19. Performer () , , () . (Fast Attention Via Positive Orthogonal Random Features, FAVOR+), . ( , -). , .





, , , . , - . , , .



صورة 8



: , , , q k. : Q' K' , /. - , .



- , . , , , () . , . , , .



, , . , , , , -.





, . , . , , . , FAVOR+.



الصورة 10



: , A V. : Q' K', A , , , , A .



, , . () , , , , , , .



صورة 4



: , . : , .





Performer , , , .



صورة7



(T) (L). GPU. (X) «» , , , . Performer .



, Performer, -, , .



الصورة 13



One Billion Word Benchmark (LM1B), Performer, 0.07 ( ). Performer .



  :



— , . , , 20 . (, UniRef) , . Performer-ReLU ( ReLU, , ) , Performer-Softmax (accuracy) , .



صورة 2



. (Train) — , (Validation) – , — (U), — (B). 36 ProGen (2019) , 16x16 TPU-v2. .



Protein Performer, ReLU. Performer , , . , , . Performer' . , , Performer - .



الصورة17-2



: , . , (D, E) (F, Y), . : 4 () 3 «» () BPT1_BOVIN, .



الصورة 5



8192, . TPU, ( ) .





, . , , FAVOR Reformer. , Performer' . , , .








All Articles