Home تكنولوجيا يقترح Meta طبقات ذاكرة جديدة قابلة للتطوير تعمل على تحسين الإدراك وتقليل...

يقترح Meta طبقات ذاكرة جديدة قابلة للتطوير تعمل على تحسين الإدراك وتقليل الهلوسة

11

انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر


مع استمرار المؤسسات في اعتماد نماذج لغوية كبيرة (LLMs) في مجموعة متنوعة من التطبيقات، فإن أحد التحديات الرئيسية التي تواجهها هو تحسين المعرفة الفعلية بالنماذج وتقليل الأوهام. في ورقة جديدة للباحثين ميتا الذكاء الاصطناعي اقتراح”مستويات ذاكرة قابلة للتطوير“، والذي قد يكون واحدًا من عدة حلول محتملة لهذه المشكلة.

تضيف طبقات الذاكرة القابلة للتطوير المزيد من الأبعاد إلى LLMs لزيادة قدرتها على التعلم دون الحاجة إلى موارد حسابية إضافية. تعتبر البنية مفيدة للتطبيقات التي تريد فيها حفظ ذاكرة إضافية للمعرفة الفعلية ولكنك تريد أيضًا سرعة التنبؤ لنماذج Nimbler.

طبقات كثيفة وذاكرة

تستخدم نماذج اللغة التقليدية “طبقات كثيفة” لتشفير كميات كبيرة من المعلومات ضمن معلماتها. في الطبقات الكثيفة، يتم استخدام جميع المعلمات بكامل طاقتها وغالبًا ما يتم تنشيطها في نفس الوقت أثناء التنبؤ. يمكن للطبقات الكثيفة أن تتعلم مهام أكثر تعقيدًا مع نموها، لكن زيادة حجمها يتطلب موارد حسابية وطاقة إضافية.

على العكس من ذلك، للحصول على معرفة واقعية بسيطة، ستكون الطبقات الأبسط ذات بنيات الذاكرة الترابطية التي تشبه جداول البحث أكثر كفاءة وقابلة للتفسير. ماذا تفعل طبقات الذاكرة هذه؟ يستخدمون عمليات تنشيط متفرقة بسيطة وآليات بحث عن القيمة الرئيسية لتشفير المعرفة واسترجاعها. تشغل الطبقات المتفرقة ذاكرة أكبر من الطبقات الكثيفة ولكنها تستخدم فقط جزءًا أصغر من المعلمات في المرة الواحدة، مما يجعلها أكثر كفاءة من الناحية الحسابية.

توجد طبقات الذاكرة منذ سنوات عديدة ولكن نادرًا ما يتم استخدامها في بنيات التعلم العميق الحديثة. لم يتم تحسينها لمسرعات الأجهزة الحالية.

عادةً ما تستخدم برامج LLM الحدودية الحالية شكلاً من أشكال بنية “خليط الخبراء” (MoE)، والتي تستخدم آليات مشابهة بشكل غامض كطبقات الذاكرة. تتكون نماذج وزارة التربية والتعليم من العديد من المكونات المتخصصة الأصغر التي تتخصص في مهام محددة. في وقت الاستدلال، تحدد آلية التوجيه الخبير الذي سيتم تنشيطه بناءً على تسلسل الإدخال. تعمل PEER، وهي بنية تم تطويرها مؤخرًا بواسطة Google DeepMind، على توسيع نطاق MoE ليشمل ملايين الخبراء، مما يوفر تحكمًا أكثر دقة في المعلمات التي يتم تنشيطها أثناء الاستدلال.

ترقية مستويات الذاكرة

تعتبر طبقات الذاكرة خفيفة على العمليات الحسابية ولكنها ثقيلة على الذاكرة، مما يمثل تحديات محددة لأطر الأجهزة والبرامج الحالية. يقترح الباحثون في ورقتهم العديد من التعديلات التي تعالج هذه التحديات وتجعل من الممكن استخدامها على نطاق واسع.

يمكن لطبقات الذاكرة تخزين المعرفة بالتوازي عبر وحدات معالجة الرسومات المتعددة دون إبطاء النموذج (المصدر: arXiv)

أولاً، قام الباحثون بتكوين طبقات الذاكرة للتوازي، وتوزيعها عبر وحدات معالجة الرسومات المتعددة لتخزين الملايين من أزواج القيمة الرئيسية دون تغيير الطبقات الأخرى في النموذج. كما قاموا أيضًا بتطبيق نواة CUDA خاصة للتعامل مع عمليات النطاق الترددي العالي للذاكرة. وقاموا بتطوير آلية لمشاركة المعلمات تدعم مجموعة واحدة من معلمات الذاكرة عبر طبقات ذاكرة متعددة ضمن نموذج واحد. وهذا يعني أن المفاتيح والقيم المستخدمة لعمليات البحث تتم مشاركتها عبر الطبقات.

تتيح هذه التغييرات تنفيذ طبقات الذاكرة داخل LLM دون إبطاء النموذج.

وكتب الباحثون: “إن طبقات الذاكرة مع تنشيطاتها المتفرقة تكمل الشبكات الكثيفة بشكل جيد، مما يوفر قدرة متزايدة على اكتساب المعرفة بينما تكون أخف من الناحية الحسابية”. “إنها قابلة للتطوير بكفاءة، وتوفر للممارسين اتجاهًا جديدًا ومثيرًا لمقايضة الذاكرة بالحوسبة.”

ولاختبار طبقات الذاكرة، قام الباحثون بتعديل نماذج اللاما عن طريق استبدال طبقة كثيفة واحدة أو أكثر بطبقة ذاكرة مشتركة. وقاموا بمقارنة النماذج المعززة للذاكرة مع ماجستير إدارة الأعمال المكثف بالإضافة إلى نماذج وزارة التربية والتعليم وPEER في العديد من المهام، بما في ذلك الإجابة على الأسئلة الواقعية والمعرفة العالمية والمعرفة العلمية والعامة والترميز.

نماذج الذاكرة مقابل الطبقات الكثيفة
نموذج ذاكرة 1.3B تم تدريبه على 1 تريليون رمز (خط متصل) يقترب من أداء نموذج 7B (خط متقطع) في مهام الأسئلة والأجوبة الحقيقية حيث يتم إعطاؤه المزيد من معلمات الذاكرة (المصدر: arxiv)

تظهر النتائج التي توصلوا إليها أن نماذج الذاكرة تتحسن بشكل ملحوظ على خطوط الأساس الكثيفة وتتنافس مع النماذج التي تستخدم عمليات حسابية أكثر بمقدار 2X إلى 4X. كما أنها تتوافق أيضًا مع أداء نماذج وزارة التربية والتعليم التي لها موازنات حسابية وأعداد معلمات مماثلة. أداء النموذج رائع بشكل خاص في المهام التي تتطلب معرفة حقيقية. على سبيل المثال، في حالة الإجابة على سؤال حقيقي، فإن نموذج الذاكرة الذي يحتوي على 1.3 مليار معلمة يقترب من أداء Llama-2-7B، الذي تم تدريبه على ضعف عدد الرموز المميزة وحسابات أكثر بـ 10 مرات.

بالإضافة إلى ذلك، وجد الباحثون أن فوائد نماذج الذاكرة تتزايد مع حجم النموذج حيث قاموا بتوسيع نطاق تجاربهم من 134 مليونًا إلى 8 مليارات معلمة.

وكتب الباحثون: “بالنظر إلى هذه النتائج، فإننا نؤيد بشدة ضرورة دمج طبقات الذاكرة في جميع بنيات الذكاء الاصطناعي من الجيل التالي”، مضيفين أنه لا يزال هناك مجال كبير للتحسين. “على وجه الخصوص، نأمل أن يتم تطوير أساليب تعليمية جديدة لزيادة فعالية هذه المستويات، مع تقليل النسيان، وتقليل الهلوسة، والمزيد من التعلم المستمر.”