تشير GPT-3 العملاقة لدى OpenAI إلى حدود نماذج اللغة للذكاء الاصطناعي

منذ زمن قليل، قبل أكثر من عام، أوبن إيه آي ، وهي شركة ذكاء اصطناعي تتخذ من سان فرانسيسكو مقراً لها، صدمت العالم من خلال إظهار قفزة مذهلة فيما يبدو لقوة الحواسيب في تكوين جمل بطبيعة اللغة، وحتى في حل الأسئلة، مثل استكمال جملة، وصياغة مقاطع نصية طويلة وجد الناس أنها إنسانية إلى حد ما.

أحدث الأعمال التي تم إنجازها من قبل ذلك الفريق تظهر كيف نضج تفكير OpenAI في بعض الجوانب. ظهر GPT-3، كأحدث إبداع للفريق، الأسبوع الماضي، مع المزيد من المميزات والتفاصيل، تم إنشاؤها بواسطة بعض من نفس المؤلفين السابقين، بما في ذلك Alec Radford و Ilya Sutskever، بالإضافة إلى عدد من الشركاء الإضافيين، بما في ذلك علماء من جامعة جونز هوبكنز.

إنه الآن نموذج لغة وحش حقاً، كما يسمى، يبتلع مزيدًا من النصوص بنسبة مئتين من النصوص الموجودة سابقاً.

ولكن في ذلك الإستعراض الكبير- هو- أفضل، يبدو أن فريق OpenAI يقترب من بعض الحقائق العميقة ، بنفس الطريقة التي تواجه بها الدكتور ديفيد بومان حدود المعروف في نهاية فيلم 2001.

مدفون في الجزء الختامي للورقة المكونة من 72 صفحة، نماذج اللغة هي متعلمات القليلة التعلم, التي تم نشرها الأسبوع الماضي على خادم المسودات المسبقة arXiv، هو إعتراف غريب إلى حد ما.

"إحدى القيود الأساسية الأخرى للنهج العام المشار إليه في هذه الورقة - توسيع أي نموذج يشبه نموذج اللغة، سواء كان ذلك تكوينًا ذاتيًا أو ثنائي الاتجاه - هو أنه قد يواجه في نهاية المطاف (أو ربما يكون قد يواجه بالفعل) حدود الهدف التدريب المُسبق،" يكتب الكتاب.

ما يقوله الكتّاب هو أن بناء شبكة عصبونية تقوم فقط بتوقع احتمالات الكلمة التالية في أي جملة أو عبارة قد يكون له حدوده. مجرد جعلها أكثر قوة وشحنها بالمزيد من النصوص قد لا يؤدي إلى نتائج أفضل. هذا اعتراف مهم ضمن ورقة بحثية تحتفل في الغالب بتحقيق قوة حوسبة أكثر في مواجهة مشكلة معينة.

صورة-مقارنة-GPT-3

لفهم أهمية استنتاج الكتّاب، يجب أن نتعرف على مسيرتنا حتى الوصول إلى هنا. تاريخ عمل OpenAI في مجال اللغة كان جزءًا من تاريخ تطور روية واحدة، حيث حققت تقدمًا متزايدًا عندما أصبحت التكنولوجيا أكبر وأكبر وأكبر.

الـجي بي تي الأصلية، و GPT-2، هما تكييفان لما يُعرف بالمحوَّل، ابتكر في Google عام 2017. يستخدم المحوَّل وظيفة تُسمى "الانتباه" لحساب احتمال ظهور كلمة معيَّنة بناءً على الكلمات المحيطة بها. أثارت OpenAI جدلاً قبل عام عندما أعلنت أنها لن تصدر الشيفرة المصدرية لأكبر نسخة من GPT-2، بسبب احتمال سقوط تلك الشيفرة في أيدي خاطئة واستخدامها في تضليل الناس بأخبار مزيفة، على حد قولها.

ورقة البحث الجديدة تأخذ GPT إلى مستوى جديد من خلال جعلها أكبر حتى. أكبر إصدار لـ GPT-2، وهو الإصدار الذي لم يتم نشره في شكل المصدر، يحوي 1.5 مليار وحدة. أما GPT-3 فهو يحوي 175 مليار وحدة. الوحدة هي عبارة عن حساب في شبكة عصبية يطبق ترجيحًا أكبر أو أقل على بعض جوانب البيانات، ليعطي هذه الجوانب أكبر تميز أو ترجيح عند حساب البيانات بشكل عام. إنها هذه الترجيحات التي تشكل البيانات وتمنح الشبكة العصبية منظورًا مكتسبًا حول البيانات.

زيادة الأوزان مع مرور الوقت أدت إلى نتائج مدهشة في اختبارات البنشمارك من قبل عائلة برامج GPT ومشتقات المحول الضخمة الأخرى، مثل BERT التابعة لشركة جوجل، وقد كانت النتائج مثيرة للإعجاب بشكل مستمر.

لا يهم أن الكثيرين أشاروا إلى أن أياً من هذه النماذج اللغوية لم يبدو حقا أنها تفهم اللغة بأي طريقة ذات معنى. إنها ممتازة في الاختبارات، وهذا يعني شيئًا ما.

إصدار أحدث يظهر مرة أخرى تقدماً كمياً. كما هو الحال في GPT-2 وغيره من برامج Transformer الأخرى ، يتم تدريب GPT-3 على مجموعة بيانات Common Crawl ، وهي مجموعة من تقريبًا تريليون كلمة من النصوص المأخوذة من الويب. "حجم المجموعة البيانات والنموذج حوالي مئتي مرة أكبر من تلك المستخدمة لـ GPT-2" ، يكتب المؤلفون.

GPT-3 بمعاملاته البالغ عددها 175 مليار معاملة يستطيع تحقيق ما يصفه الباحثون ب "تعلم الوقائع". تعلم الوقائع يعني أن شبكة GPT العصبية لا تعيد التدريب لأداء مهمة مثل استكمال الجمل. وباعتباره مثالاً لمهمة، مثل جملة غير مكتملة، ثم الجملة المكتملة، سيقوم GPT-3 بإكمال أي جملة غير مكتملة يتم تزويده بها.

GPT-3 قادر على تعلم كيفية القيام بمهمة مع وجود توجيه واحد، وبشكل أفضل في بعض الحالات من إصدارات Transformer التي تم ضبطها بشكل جيد لأداء تلك المهمة فقط. وبالتالي، GPT-3 هو انتصار للتعميم الشامل. ما عليك سوى تغذية النص بكمية هائلة حتى تكون أوزانه مثالية، ويمكنه أن يؤدي جيدًا في عدد من المهام المحددة دون الحاجة إلى تطوير إضافي.

هنا تأتي القصة إلى نهاية مدهشة في الورقة الجديدة. بعد سرد النتائج المذهلة التي حققها GPT-3 في مهام اللغة المتنوعة، بدءًا من استكمال الجمل إلى الاستدلال المنطقي على أساس البيانات إلى الترجمة بين اللغات، يلاحظ المؤلفون النقاط الضع weaknessات.

رغم التحسينات الكمية والكيفية القوية في GPT-3، خاصة بالمقارنة مع الإصدار السابق الفوري GPT-2، فإنه لا يزال يعاني من نقاط ضعف ملحوظة.

تتضمن تلك الضعف عدم القدرة على تحقيق دقة كبيرة في ما يسمى ب الاستنتاج الطبيعي المعارض. الاستنتاج الطبيعي هو اختبار يجب أن يحدد فيه البرنامج العلاقة بين جملتين. قدم باحثون من فيسبوك وجامعة كارولاينا الشمالية نسخة معارضة ، حيث يقوم البشر بإنشاء أزواج جمل صعبة للغاية بالنسبة للحاسوب لحلها.

GPT-3 يعمل "أفضل قليلاً من الصدفة" في أمور مثل Adversarial NLI، وفقًا لما ذكر الكتاب. ما هو أسوأ، أنه بعد زيادة قوة معالجة النظام إلى 175 مليار وزن، ليس الكتّاب متأكدين بالضبط من السبب وراء فشلهم في بعض المهام.

هذا عندما يصلون إلى استنتاج, مذكور أعلاه, أنه من الممكن ربما أن تكون إطعام مجموعة ضخمة من النصوص في آلة ضخمة ليس الحلا النهائيًا.

أكثر مفاجأة حتى هذه اللحظة هي الملاحظة التالية. يكتب الكتاب أن المحاولة الكاملة للتنبؤ بما سيحدث في اللغة قد يكون النهج الخطأ. قد تكون هم مستهدفين الجهة الخاطئة.

"مع الأهداف الذاتية التدريبية ، تعتمد تخصيص المهمة على اضطرار المهمة المطلوبة في مشكلة التوقع ،" يكتبون "بينما في نهاية المطاف، قد يكون من الأفضل التفكير في نظم اللغة المفيدة (على سبيل المثال المساعدين الافتراضيين) كأخذ إجراءات موجهة نحو الهدف بدلاً من مجرد عمل توقعات."

يترك الكتّاب هذا لوقتٍ آخرٍ ليحدّدوا كيف سيتعاملون مع هذا الاتجاه الجديد المثير للاهتمام.

على الرغم من الاعتراف بأن الأكبر قد لا يكون الأفضل في نهاية المطاف، فإن تحسين نتائج GPT-3 في العديد من المهام من المرجح أن يشعل ، وليس أن يقلل ، الرغبة في شبكات عصبية أكبر وأكبر. مع 175 مليار معلمة ، فإن GPT-3 هو ملك الشبكات العصبية الكبيرة ، للحظة. وفي عرض في إبريل من قبل شركة رقاقات الذكاء الاصطناعي Tenstorrent ، تم وصف شبكات عصبية مستقبلية بأكثر من مليون مليون معلمة.

لجزء كبير من مجتمع تعلم الآلة، سيستمر إنشاء نماذج لغوية أكبر وأكبر في كونها أحدث تقنية.

المقالات ذات الصلة

عرض المزيد >>

أطلق العنان لقوة الذكاء الاصطناعي مع HIX.AI!