وصفحة نسخة مفتوحة المصدر جديدة من ChatGPT

فتح مصدر GPT Chat خطوة أخرى إلى الأمام مع إصدار نموذج اللغة الكبيرة "دولي" (DLL) التي تم إنشاؤها بواسطة شركة البرمجيات المؤسسية Databricks.

النسخة الجديدة من ChatGPT تسمى دولي، باسم الخروف الشهير بهذا الاسم، والذي كان أول حيوان ثديي يتم استنساخه.

نماذج لغوية ضخمة مفتوحة المصدر

من دورية عالمية عن القانون المعروفة بـ (Dolly LLM)، تُعدُّ مظهراً جديداً للحركة المتزايدة للذكاء الاصطناعي مفتوح المصدر، التي تسعى إلى توفير مزيد من الوصول إلى هذه التكنولوجيا بحيث لا تتحكم فيها ولا تستبدلها الشركات الكبيرة فقط.

واحدة من المخاوف التي تدفع حركة الذكاء الصناعي مفتوح المصدر هي أن الشركات قد تكون مترددة في تسليم البيانات الحساسة لجهة خارجية تسيطر على تكنولوجيا الذكاء الصناعي.

مبني على المصدر المفتوح

تم إنشاء Dolly من نموذج مفتوح المصدر تم إنشائه بواسطة معهد البحوث العلمية EleutherAI غير الربحي ونموذج جامعة ستانفورد Alpaca الذي تم إنشاؤه بدوره من نموذج LLaMA مفتوح المصدر بمعلمات تُقدّر بـ 65 مليار متغيرة تم إنشاؤها بواسطة Meta.

كلمة LLaMA تعني نموذج لغوي ضخم للذكاء الصناعي ، هو نموذج لغوي يتم تدريبه على البيانات المتاحة عامة.

وفقًا لمقالة من Weights & Biases ، يمكن أن يتفوق LLaMA على العديد من نماذج اللغة الرائدة (OpenAI GPT-3 و Gopher من Deep Mind و Chinchilla من DeepMind) على الرغم من أنه أصغر في الحجم.

إنشاء مجموعة بيانات أفضل

جاءت إلهاماً آخر من ورقة بحث أكاديمية (توجيه الذاتي: محاذاة نموذج اللغة مع الإرشادات المولدة ذاتيًا PDF) التي وضحت طريقة لإنشاء بيانات تدريب عالية الجودة تولدها الآلة للأسئلة والأجوبة أفضل من البيانات العامة المحدودة.

يوضح ورقة البحث الذاتي المعلومات التالية:

"...نحن نقوم بتجميع مجموعة من التعليمات المكتوبة من قبل خبراء لمهام جديدة، ونظهر من خلال التقييم البشري أن ضبط GPT3 باستخدام التدريس الذاتي يفوق استخدام مجموعات البيانات التعليمية العامة الموجودة بفارق كبير، متبقيا فقط فجوة مطلقة بنسبة 5% خلف InstructGPT...

...بتطبيق طريقتنا على GPT3 العادي، نظهر تحسينًا مطلقًا بنسبة 33% على النموذج الأصلي في SUPERNATURALINSTRUCTIONS، على قدم المساواة مع أداء InstructGPT... الذي يتم تدريبه باستخدام بيانات المستخدم الخاصة والتعليقات البشرية."

أهمية دولي هي أنها توضح أنه يمكن إنشاء نموذج لغوي كبير ومفيد بواسطة مجموعة بيانات صغيرة ولكن عالية الجودة.

تلاحظ Databricks:

“دولي تعمل عن طريق أخذ نموذج مفتوح المصدر بسعة 6 مليارات معلمة من إيلوثيرإي وتعديله قليلاً لاستدعاء قدرات اتباع التعليمات مثل التفكير وتوليد النصوص التي لم تكن موجودة في النموذج الأصلي ، وذلك باستخدام البيانات من ألباكا.

نثبت أن أي شخص يمكنه تحقيق قدرة لنموذج اللغة ذو الحجم الكبير (LLM) المفتوح المصدر القائم على الرف على اتباع التعليمات السحرية مثل ChatGPT من خلال تدريبه في 30 دقيقة على جهاز واحد، باستخدام بيانات تدريب عالية الجودة.

بشكل مفاجئ، لا يبدو أن اتباع التعليمات يتطلب آخر طرازات أو أكبرها: طرازنا يحتوي فقط على 6 مليار معلمة، بالمقارنة مع 175 مليارًا لطراز GPT-3.

داتابريكس المصدر المفتوح للذكاء الاصطناعي

يُقال أن دولي تقوم بتمكين الذكاء الاصطناعي. إنها جزء من حركة نامية انضمت مؤخرًا إليها منظمة "موزيلا" غير الربحية مع تأسيس موقعها Mozilla.ai. تعتبر موزيلا ناشر متصفح Firefox وبرامج مفتوحة المصدر أخرى.

نسخة جديدة مفتوحة المصدر لشات جي بي تي بي - تسمى دولي

نماذج لغوية ضخمة مفتوحة المصدر

مبني على المصدر المفتوح

إنشاء مجموعة بيانات أفضل

داتابريكس المصدر المفتوح للذكاء الاصطناعي

المقالات ذات الصلة