في عطلة نهاية الأسبوع ، سقط ميتا جديدان نماذج لاما 4: نموذج صغير يسمى Scout ، ووسط ، نموذج متوسطة الحجم ، مدعيا أنه يمكن للشركة التغلب على GPT -4O و Gemini 2.0 Flash ، “في مجموعة واسعة من المعايير المسجلة على نطاق واسع.”
قامت Meverick بسرعة بتأمين الرقم الثاني على موقع AI Benchmark ، حيث يقارن البشر إخراج الأنظمة المختلفة والتصويت على الأفضل. في المعادن PRESS العرض التقديمينشرت الشركة درجة ELO في 1417 ، والتي وضعتها على قمة Openai’s 4O وتحت Gemini 2.5 Pro. (تعني درجة ELO العالية أن النموذج يفوز في كثير من الأحيان في الساحة عند الانتقال وجهاً لوجه مع المنافسين.)
يضع هذا الإنجاز Lalama 4 من الوزن المفتوح لـ Meta كتحدي خطير للنماذج المغلقة لـ Openai و Anthropic و Google. بعد ذلك ، قام باحثو الذكاء الاصطناعي بحفر من خلال وثائق التعريف ، وإيجاد شيء غير عادي.
في المطبوعات الدقيقة ، يعترف Meta بأن إصدار Moward الذي تم اختباره على Lumreena ليس مثل ما هو متاح للأشخاص. محتوى Meta الخاص ، نشر ذلك “نسخة الدردشة العملية” من مافريك إلى Elmerena الذي هو بشكل خاص “مُحسّن للمحادثة”.
“إن تفسير سياستنا الوطنية لا يتطابق مع ما نتوقعه من مقدمي الخدمات النماذج” ، المينينا انسداد بعد يومين من إدخال النموذج على x. “يجب أن يوضح Meta أن” Lama-4-Meverk-03-26-Pryogic “كان نموذجًا مخصصًا للاشتعال للاختيار البشري. ونتيجة لذلك ، فإننا نقوم بتحديث قائدنا ، وسياساتنا المتصدرين لتعزيز التقييمات الإنجابية حتى لا يحدث هذا الارتباك في المستقبل.”
لم يتفاعل المتحدث باسم Meta مع بيان Almenena للإفراج عنه.
من الواضح أن ما فعله Meta مع Meverric ليس ضد قواعد Lumenena ، في حين أن الموقع قد شارك المخاوف حول ألعاب النظام و “خطوات لمنع الإفراط في التسرب والتسرب القياسي.” بينما يمكن للشركات تقديم إصدارات خاصة من نماذجها للاختبار أثناء إطلاق إصدارات مختلفة ، فإن التصنيفات القياسية مثل Lemenena تصبح أقل جدوى كمؤشرات للتأثير في العالم الحقيقي.
يقول باحث الذكاء الاصطناعي المستقل سيمون ويليسون: “إنه المعيار العام الأكثر احتراماً على نطاق واسع لأن جميع الأشخاص الآخرين يمتصون”. حافة. “عندما خرج لالاما 4 ، يأتي في المركز الثاني في الساحة ، بعد Gemini 2.5 Pro – الذي أثار إعجابي حقًا ، وأركل نفسي بعدم قراءة المطبوعات الصغيرة.”
بعد فترة وجيزة من إطلاق Meta Meard و Scout ، بدأ مجتمع الذكاء الاصطناعى يتحدث قامت أن Meta أيضًا بتدريب طرز Lama 4 على الأداء بشكل أفضل على المؤشر من خلال إخفاء قيودها الفعلية. ركز أحمد الداهلي ، نائب رئيس منظمة العفو الدولية في META ، على المزاعم في المنشور على x: “لقد سمعنا أيضًا الادعاء بأننا تدربنا على مجموعة الاختبار – هذا ليس صحيحًا فقط ولن نفعل ذلك أبدًا. أفضل فهمنا هو أن تنفيذ الأشخاص المتغيرين يحتاج إلى تثبيت”.
“عادة ما يكون إصدارًا مربكًا للغاية.”
شخص ما لاحظ أيضا تم إطلاق سراح Lalama 4 في وقت غريب. لا يوجد اتجاه يوم السبت عند وصول Big Ai News. سأل شخص ما على الخيوط لماذا تم تقديم لاما 4 في عطلة نهاية الأسبوع ، مارك زوكربيرج ، الرئيس التنفيذي لشركة Meta مسؤول: “عندما كان جاهزًا”.
يقول ويليسون: “عادة ما يكون إصدارًا مربكًا للغاية”. متابعة عن كثب ووثائق نماذج الذكاء الاصطناعى. “إن درجة النموذج التي حصلنا عليها هناك عديمة الفائدة تمامًا بالنسبة لي. لا يمكنني حتى استخدام النموذج الذي حصلوا على درجة عالية.”
لم يكن مسار Meta سهلًا تمامًا لإطلاق Lama 4. وفقًا لـ في تقرير حديث منذ معلومةفي الفشل في تلبية التوقعات الداخلية ، دفعت الشركة مرارًا وتكرارًا للإسقاط. هذه التوقعات مرتفعة بشكل خاص بعد بدء تشغيل Dippick ، Open Source AI من الصين ، مما أدى إلى إصدار نموذج مفتوح للوزن Del Dell الذي أنتج طنًا من الطنانة.
في نهاية المطاف ، فإن استخدام نموذج PTIMISE Optim في Elmena يضع المطورين في حالة صعبة. عند اختيار نماذج مثل Lalama 4 لتطبيقاتها ، فإنها تنظر إلى المعيار بشكل طبيعي للتوجيه. ولكن مثل Meward ، يمكن أن يعكس القدرات القياسية التي لا تتوفر بالفعل في تلك النماذج التي يمكن للأشخاص اتهامها بالوصول.
بينما تسارع AI التنمية ، توضح هذه الحلقة كيف أصبحت المعايير ساحة معركة. كما يوضح مدى حريصة على رؤية Meta AI كقائد ، حتى لو كان ذلك يعني اللعب في النظام.