النماذج القائمة على محول حققت نتائج باهرة في طائفة واسعة من التخصصات، بما في ذلك التخاطب AI ، اللغة الطبيعية المعالجة ، صور، وحتى الموسيقى . المكون الرئيسي لأي بنية هو وحدة انتباه المحولات ( وحدة الانتباه) ، والتي تحسب التشابه لجميع الأزواج في تسلسل الإدخال. ومع ذلك ، فإنه لا يتناسب بشكل جيد مع الزيادة في طول تسلسل الإدخال ، مما يتطلب زيادة تربيعية في الوقت الحسابي للحصول على جميع تقديرات التشابه ، بالإضافة إلى زيادة تربيعية في مقدار الذاكرة المستخدمة لإنشاء مصفوفة لتخزين هذه التقديرات.
بالنسبة للتطبيقات التي تتطلب اهتمامًا واسعًا ، تم اقتراح العديد من البروكسيات الأسرع والأكثر إحكاما ، مثل تقنيات التخزين المؤقت للذاكرة ، ولكن الحل الأكثر شيوعًا هو استخدام الانتباه المتناثر . يقلل الانتباه المتناثر من الوقت الحسابي ومتطلبات الذاكرة لآلية الانتباه عن طريق حساب عدد محدود فقط من درجات التشابه من تسلسل بدلاً من جميع الأزواج الممكنة ، مما يؤدي إلى وجود مصفوفة متفرقة بدلاً من مصفوفة كاملة. يمكن اقتراح هذه الأحداث المتفرقة يدويًا ، أو العثور عليها باستخدام تقنيات التحسين ، أو التعلم ، أو حتى العشوائية ، كما هو موضح من خلال تقنيات مثل Sparse Transformers و Longformers، التوجيه المحولات ، الإصلاحيون و الطيور الكبيرة . نظرًا لأنه يمكن أيضًا تمثيل المصفوفات المتفرقة بواسطة الرسوم البيانية والحواف ، فإن الطرق المتفرقة يتم تحفيزها أيضًا من خلال أدبيات الشبكة العصبية للرسم البياني ، خاصة فيما يتعلق بآلية الانتباه الموضحة في شبكات الاهتمام بالرسم البياني. عادة ما تتطلب مثل هذه الأبنية المتفرقة طبقات إضافية لإنشاء آلية انتباه كاملة ضمنيًا.

. : , . : Graph Attention Networks, , , . . « : » .
, . (1) , ; (2) ; (3) , , ; (4) , , . , , , Pointer Networks. , , , (softmax), .
, Performer, , . , , , ImageNet64, , PG-19. Performer () , , () . (Fast Attention Via Positive Orthogonal Random Features, FAVOR+), . ( , -). , .
, , , . , - . , , .

: , , , q k. : Q' K' , /. - , .
, , . , , , , -.
FAVOR+:
, . , . , , . , FAVOR+.

: , A V. : Q' K', A , , , , A .

: , . : , .
Performer , , , .

(T) (L). GPU. (X) «» , , , . Performer .
, Performer, -, , .

One Billion Word Benchmark (LM1B), Performer, 0.07 ( ). Performer .
:
— , . , , 20 . (, UniRef) , . Performer-ReLU ( ReLU, , ) , Performer-Softmax (accuracy) , .

. (Train) — , (Validation) – , — (U), — (B). 36 ProGen (2019) , 16x16 TPU-v2. .
Protein Performer, ReLU. Performer , , . , , . Performer' . , , Performer - .

: , . , (D, E) (F, Y), . : 4 () 3 «» () BPT1_BOVIN, .

8192, . TPU, ( ) .
, . , , FAVOR Reformer. , Performer' . , , .
- — Krzysztof Choromanski, Lucy Colwell
- —
- التحرير والتخطيط - سيرجي شكرين