هذه التقنية الجديدة قد تهب على أربعة طرز وكل ما يشبهه

بالنسبة لكل الحماس حول برنامج الذكاء الاصطناعي للمحادثات المعروف بـ ChatGPT من OpenAI، وتقنيته الجديدة GPT-4، فإن هذه البرامج في نهاية الأمر مجرد تطبيقات برمجية. ومثل جميع التطبيقات، فلديها قيود تقنية يمكن أن تجعل أدائها غير مثالي.

في ورقة علمية نشرت في مارس، اقترح علماء الذكاء الاصطناعي في جامعة ستانفورد ومعهد ميلا للذكاء الاصطناعي في كندا تقنية يمكن أن تكون أكثر كفاءة بكثير من GPT-4 - أو أي شيء مشابه له - في امتصاص كميات ضخمة من البيانات وتحويلها إلى إجابة.

أيضاً: يرغب هؤلاء الموظفون السابقون في آبل في استبدال الهواتف الذكية بهذا الجهاز

معروفة بإسم الضبع المنقاري، تستطيع هذه التقنية تحقيق دقة مكافئة في اختبارات المقاييس مثل الإجابة على الأسئلة، مع استهلاك جزء صغير من قوة الحوسبة. في بعض الحالات، الرمز الخاص بالضبع المنقاري قادر على التعامل مع كميات كبيرة من النص التي تؤدي إلى نفاد الذاكرة وفشل تقنية نمط إجي بي تي.

"نتائجنا المشجعة على مقياس أقل من المليار المعامل تشير إلى أن الانتباه قد لا يكون كل ما نحتاجه"، كتب المؤلفون. تشير هذه الملاحظة إلى عنوان تقرير ذكاء اصطناعي هام لعام 2017 بعنوان 'الانتباه هو كل ما نحتاجه'. في هذا الورقة، قدم العالم العالمي أشيش فاسواني وزملاؤه في جوجل برنامج الذكاء الاصطناعي "ترانسفورمر" للعالم. أصبحت تقنية "ترانسفورمر" أساسًا لكل من النماذج اللغوية الكبيرة الحديثة.

ولكن لدى المحول عيب كبير، حيث يستخدم شيئًا يُسمى "الانتباه"، حيث يقوم برنامج الكمبيوتر بأخذ المعلومات في مجموعة واحدة من الرموز، مثل الكلمات، ويقوم بنقل تلك المعلومات إلى مجموعة جديدة من الرموز، مثل الإجابة التي تراها من ChatGPT، والتي هي الإخراج.

أيضًا:ما هو جي بي تي-٤؟ هنا كل ما تحتاج إلى معرفته

تلك العملية التي تتطلب الانتباه – وهي الأداة الأساسية لجميع البرامج اللغوية الكبيرة، بما في ذلك ChatGPT وGPT-4 – تتمتع بتعقيد حسابي "ترباعي" (قم بزيارة ويكي "تعقيد الوقت" للحوسبة). هذا التعقيد يعني أن الوقت اللازم لـ ChatGPT لإنتاج إجابة يزداد كما يزداد تربيعًا حسب كمية البيانات التي تم توفيرها كمدخلات.

في نقطة ما، إذا كانت هناك الكثير من البيانات -- الكلمات الكثيرة في الاقتراح، أو سلاسل الحوارات المستمرة على مدار ساعات وساعات من المحادثات مع البرنامج -- إما أن يُبطئ البرنامج في تقديم إجابة، أو يجب أن يُعطى مزيد من شرائح وحدات المعالجة الرسومية للتشغيل بشكل أسرع وأسرع، مما يؤدي إلى زيادة متطلبات الحساب.

في الورقة الجديدة "تسلسلي أسد: نحو نماذج لغوية تحتوي على طبقات كبيرة آليات (Hyena)" التي نشرها الكاتب الرئيسي مايكل بولي من جامعة ستانفورد وزملاؤه، قاموا بتقديم اقتراح لاستبدال وظيفة التركيز في نموذج ترانسفورمر بشيء أقل من تربيعي، ويسمى هينا.

أيضًا:ما هو الأوتو-چي پي تي؟ كل ما تحتاج إلى معرفته عن أداة الذكاء الاصطناعي القوية التالية

الكتابان لا يشرحان الاسم، ولكن يمكن للواحد أن يتصور عدة أسباب لوجود برنامج "Hyena". الضباع هي حيوانات تعيش في أفريقيا والتي يمكن أن تصطاد لمسافات طويلة جدًا. في معنى ما، يمكن أن يكون نموذج لغة قوي جدًا مثل الضبع، يبحث لمسافات طويلة جدًا للعثور على الغذاء.

ولكن الكتّاب مهتمون حقاً بـ "التسلسل الهرمي"، كما يوحي العنوان، وتتمتع الضباع بعائلات لها نظام هرمي صارم تعتمد فيه أفراد نظام طبقة محلّية لعشيرة الضباع على مستويات مختلفة من الترتيب تحدد السيطرة. وبنفس الطريقة المشابهة، يطبق برنامج الضبع العديد من العمليات البسيطة جداً، كما سترى، مراراً وتكراراً، بحيث تتداخل لتشكل نوعًا من تسلسل معالجة البيانات. وهذا هو العنصر التفاعلي الذي يمنح البرنامج اسمه الضبع.

أيضًا:يمكن أن تحلّ إصدارات مستقبلية من ChatGPT محل الغالبية من الأعمال التي يقوم بها البشر اليوم، يقول بن جويرتزيل

تشمل المؤلفين المساهمين للورقة الكبار في عالم الذكاء الاصطناعي، مثل يوشوا بنجيو، المدير العلمي لمعهد ميلا، الذي حصل على جائزة تورنج لعام 2019، وهي ما يعادل جائزة نوبل في مجال الحوسبة. يُعترف على نطاق واسع بان بنجيو قد وضع آلية الانتباه قبل أن يقوم فاسواني وفريقه بتكييفها للمحوّل.

أيضاً من بين الكتّاب هو الأستاذ المشارك في علوم الحاسوب بجامعة ستانفورد، كريستوفر ريه، الذي ساهم في السنوات الأخيرة في تطوير فكرة الذكاء الاصطناعي كـ "البرمجيات 2.0".

للعثور على بديل غير رباعي للتركيز، بدأ بولي وفريقه في دراسة كيفية عمل آلية التركيز ومحاولة معرفة ما إذا كان بإمكان تنفيذ هذا العمل بكفاءة أكبر.

ممارسة حديثة في علوم الذكاء الاصطناعي ، تعرف باسم التفسير الآلي ، توفر رؤى حول ما يجري داخل الشبكة العصبية ، داخل "الدوائر" الحسابية للانتباه. يمكنك التفكير فيها على أنها تفكيك البرمجيات بنفس الطريقة التي يمكنك بها تفكيك ساعة أو جهاز كمبيوتر لرؤية أجزائها ومعرفة كيفية عملها.

كما:استخدمت تشات جي بي تي لكتابة نفس الروتين بـ12 لغة برمجة رئيسية. هنا كيف فعلت ذلك

واحدة من الأعمال المستشهرة المذكورة من قبل بولي وفريقه هي مجموعة من التجارب التي قام بها الباحث نيلسون الهاج من شركة الذكاء الاصطناعي "أنثروبيك". تلك التجارب تفكك برامج المحول لمعرفة ما الذي يقوم به الاهتمام.

في جوهرها، ما وجدته الهاج وفريقه هو أن الانتباه يعمل على مستوى أساسي بواسطة عمليات حاسوبية بسيطة جداً، مثل نسخ الكلمة من الإدخال الأخير ولصقها في الإخراج.

على سبيل المثال ، إذا بدأ أحدهم الكتابة في برنامج نموذج لغة كبير مثل ChatGPT جملة من هاري بوتر وحجر الساحر ، مثل "السيد دورسلي كان المدير لشركة تدعى جروننجز..." ، فقط بكتابة "D-u-r-s" ، بداية الاسم ، قد يكون كافيًا لتحفيز البرنامج على استكمال الاسم "دورسلي" لأنه رأى الاسم في جملة سابقة من حجر الساحر. يستطيع النظام نسخ السجل من الحروف "l-e-y" لإكمال الجملة.

أيضًا: يقول المستشرق إن ChatGPT هو أكثر تشابهًا مع 'ذكاء فضائي' من عقل بشري

ومع ذلك ، تواجه عملية الانتباه مشكلة تعقيدية تربيعية عندما يزداد عدد الكلمات. تتطلب المزيد من الكلمات المزيد من ما يعرف بـ "الأوزان" أو المعاملات لتشغيل عملية الانتباه.

كما يكتب الكتاب: "كتلة المحول هي أداة قوية لنمذجة التسلسلات، ولكنها ليست بدون قيود. واحدة من أبرز هذه القيود هي التكلفة الحسابية التي تزداد بسرعة بمرور الوقت مع زيادة طول تسلسل الإدخال."

في حين أن تفاصيل تقنية لـ ChatGPT و GPT-4 لم تكشف عنها من قبل OpenAI، يعتقد أنها قد تحتوي على تريليون أو أكثر من مثل هذه الباراميترات. تشغيل تلك الباراميترات يتطلب المزيد من رقائق الـ GPU من Nvidia، وبالتالي يزيد من تكلفة الحساب.

لتقليل تكلفة الحساب التربيعي ، يقوم بولي وفريقه بإستبدال عملية الانتباه بما يُسمى "التحوّل"، وهو واحد من أقدم العمليات في برامج الذكاء الصناعي، تم تحسينه في ثمانينيات القرن الماضي. التحوّل هو مجرد عامل يمكنه اختيار العناصر في البيانات، سواء كانت بكسلات في صورة رقمية أو كلمات في جملة.

أيضًا: يمكن أن يؤدي نجاح ChatGPT إلى ارتفاع مدمر في سرية الذكاء الاصطناعي، وفقًا لرائد الذكاء الاصطناعي بينجيو

بولي وفريقه يقومون بنوع من الدمج: يأخذون العمل الذي قام به الباحث دانيال و. فو وفريقه في جامعة ستانفورد لتطبيق تصفية التبعية على تسلسل من الكلمات، وهم يجمعون ذلك مع العمل الذي قام به العالم ديفيد روميرو وزملاؤه في جامعة فرييه في أمستردام الذي يتيح للبرنامج تغيير حجم التصفية بمرونة. هذه القدرة على التكيف المرن تقلل من عدد المعلمات المكلفة، أو الأوزان، التي يحتاجها البرنامج.

نتيجة الدمج هي أنه يمكن تطبيق تضمين على كمية غير محدودة من النص دون الحاجة إلى مزيد ومزيد من المعاملات من أجل نسخ المزيد والمزيد من البيانات. إنها نهج "خالٍ من الانتباه" ، كما يعبر عن ذلك المؤلفون.

"يمكن لمشغلي Hyena تقليص فجوة الجودة بشكل كبير مع الاهتمام على نطاق واسع ،" يكتب Poli وفريقه ، "مما يؤدي إلى تحقيق إرباك مماثل وأداء متنزه مع ميزانية حسابية أصغر". إرباك هو مصطلح فني يشير إلى مقدار التعقيد للإجابة التي يتم توليدها بواسطة برنامج مثل ChatGPT.

لتوضيح قدرة أداة الهاينا ، يقوم المؤلفون بإختبار البرنامج ضد سلسلةٍ من المقاييس التي تحدد مدى جودة برنامج اللغة في مجموعة متنوعة من المهام الذكاء الاصطناعي.

أيضًا: يقول البروفيسور كريس ري ، أستاذ الذكاء الاصطناعي في جامعة ستانفورد ، 'تحدث أشياء غريبة وجديدة في البرمجيات'

اختبار واحد هو "الكومة"، وهي مجموعة تبلغ سعتها 825 غيغابايت من النصوص تم إعدادها في عام 2020 من قبل Eleuther.ai، وهي منظمة بحثية غير ربحية تعنى بالذكاء الاصطناعي. يتم جمع النصوص من مصادر "عالية الجودة" مثل PubMed و arXiv و GitHub ومكتب براءات الاختراع الأمريكي وغيرها، بحيث تكون المصادر أكثر صرامة من مجرد مناقشات Reddit، على سبيل المثال.

التحدي الرئيسي للبرنامج كان في إنتاج الكلمة التالية عندما يتم إعطاء دُفعةٍ من الجمل الجديدة كإدخال. استطاع برنامج هايينا تحقيق نتيجة مماثلة لبرنامج GPT الأصلي من OpenAI لعام 2018، مع تقليل 20% من إجمالي العمليات الحسابية -- "أول تصميم للنمط التكاملي بدون تركيز لتحقيق جودة مثل برنامج GPT مع تقليل في العمليات"، وهكذا ذكروا الباحثون.

ثم، قام الكتّاب بتجربة البرنامج على المهام العقلية القائمة على التفكير المعروفة بـ "SuperGLUE"، والتي تم تقديمها في عام 2019 من قبل العلماء في جامعة نيويورك ومركز بحوث ذكاء الكمبيوتر التابع لفيسبوك ووحدة "ديب مايند" التابعة لشركة جوجل وجامعة واشنطن.

على سبيل المثال، عندما يتم إعطاء الجملة " جسدي يلقي ظله على العشب" واختيار البديلين للسبب، وهما "كانت الشمس في صعودها" أو "تم قص العشب" وطلب اختيار واحد منهما، يجب أن يعطي البرنامج "كانت الشمس في صعودها" كإجابة مناسبة.

في مهام متعددة، حقق برنامج الهاينا درجات تقارب درجات إصدار من غيبتي بي T بي حيث تم تدريبه باستخدام أقل من نصف كمية بيانات التدريب.

أيضًا: كيفية استخدام بينغ الجديد (وكيف يختلف عن شات جي بي تي)

أكثر إثارة للاهتمام هي ما حدث عندما قام المؤلفون بزيادة طول العبارات المستخدمة كإدخال: أكثر عدد الكلمات يعني تحسينا أفضل في الأداء. عندما يصل عدد "الرموز" إلى 2,048 والتي يمكن أن تفكر فيها على أنها كلمات، فإن الهاينا تحتاج إلى وقت أقل لإكمال مهمة لغوية مقارنة بالنهج التركيزي.

في 64,000 نقطة, يشير المؤلفون إلى أن "تسارع الضبع يصل إلى 100 مرة" -- تحسن أداء بمقدار مئة ضعف.

بولي وفريقهم يدعون أنهم لم يحاولوا ببساطة منهجاً مختلفاً مع الضبع، بل قاموا بـ "كسر حاجز الرباعي"، مما تسبب في تغيير نوعي في صعوبة حساب النتائج لبرنامج ما.

يشيرون إلى أنه قد يكون هناك تغييرات مهمة أخرى في الجودة في المستقبل: "كسر الحاجز التربيعي هو خطوة رئيسية نحو إمكانيات جديدة للتعلم العميق ، مثل استخدام الكتب الدراسية بأكملها كسياق ، وإنشاء موسيقى طويلة الأمد أو معالجة صور بدقة جيجابكسل" ، كما يكتبون.

قدرة الهينة على استخدام عامل تنقية يمتد بكفاءة أكبر على آلاف وآلاف الكلمات، يكتب الكتّاب، يعني أنه لا يوجد حد تقريبًا لـ "السياق" لاستعلام برنامج اللغة. في الواقع، يمكنه أن يُذكر عناصرًا من النصوص أو من المحادثات السابقة بعيدة تمامًا عن سياق المحادثة الحالي - تمامًا مثلما يفعل الهيانات في الصيد لمسافات طويلة.

أيضًا: أفضل نماذج الدردشة الذكية الاصطناعية: ChatGPT وبدائل ممتعة أخرى يمكن تجربتها

يذكرون:" لدى مشغلي الضبع السياق غير المحدود" "يعني ، أنهم ليسوا مقيدين بشكل اصطناعي بالمحلية ، ويمكنهم التعلم من التبعيات على المدى الطويل بين أي من عناصر [المدخلات]. "

بالإضافة إلى الكلمات، يمكن تطبيق البرنامج على البيانات من أنماط مختلفة، مثل الصور وربما الفيديو والأصوات.

من المهم أن نلاحظ أن برنامج الضبع المعروض في الورقة صغير الحجم مقارنة بـ GPT-4 أو حتى GPT-3. في حين يحتوي GPT-3 على 175 مليار معلمة، أو أوزان، فإن أكبر إصدار من الضبع يحتوي فقط على 1.3 مليار معلمة. وبالتالي، لا يزال من غير المعروف كيف ستؤدي الضبع في مقارنة رأسية كاملة مع GPT-3 أو 4.

ولكن إذا تم الحفاظ على الكفاءة المحققة في نسخ أكبر من برنامج الضبع، يمكن أن يكون هذا منهجًا جديدًا شائعًا مثل اهتمام العقد الماضي.

كما يخلص بولي وفريقه: "يمكن أن تكون التصاميم البسيطة الفرعية الرباعية مثل Hyena، التي تعتمد على مجموعة من المبادئ التوجيهية البسيطة وتقييم على مؤشرات تفسيرية دقيقة، أساسًا لنماذج كبيرة فعالة".

هذه التكنولوجيا الجديدة يمكن أن تهزم GPT-4 وكل شيء مماثل لها

المقالات ذات الصلة