كيف تعمل العلامة المائية ChatGPT ولماذا يمكن هزيمتها

قدم ChatGPT من OpenAI طريقة لإنشاء المحتوى تلقائيًا ، لكن الخطط لإدخال ميزة العلامة المائية لتسهيل اكتشافه تجعل بعض الأشخاص متوترين. هذه هي الطريقة التي تعمل بها علامة ChatGPT المائية ولماذا قد تكون هناك طريقة للتغلب عليها.

ChatGPT هي أداة رائعة يحبها ويخشى الناشرون عبر الإنترنت ، والشركات التابعة ، وكبار المسئولين الاقتصاديين في نفس الوقت.

يحبها بعض المسوقين لأنهم يكتشفون طرقًا جديدة لاستخدامها لإنشاء ملخصات المحتوى والمخططات التفصيلية والمقالات المعقدة.

يخشى الناشرون عبر الإنترنت من احتمال إغراق محتوى الذكاء الاصطناعي في نتائج البحث ، ليحل محل مقالات الخبراء التي كتبها البشر.

وبالتالي ، فإن الأخبار الخاصة بميزة العلامة المائية التي تفتح قفل الكشف عن المحتوى المؤلف من ChatGPT متوقعة أيضًا بقلق وأمل.

علامة مائية مشفرة

العلامة المائية هي علامة شبه شفافة (شعار أو نص) مضمنة في صورة. تشير العلامة المائية إلى المؤلف الأصلي للعمل.

إنه يظهر إلى حد كبير في الصور وبشكل متزايد في مقاطع الفيديو.

يتضمن نص العلامة المائية في ChatGPT التشفير في شكل تضمين نمط من الكلمات والحروف وعلامات الترقيم في شكل رمز سري.

سكوت آرونسون و ChatGPT Watermarking

تم تعيين عالم كمبيوتر مؤثر يدعى سكوت آرونسون من قبل شركة OpenAI في يونيو 2022 للعمل على السلامة والمحاذاة في الذكاء الاصطناعي.

أمان الذكاء الاصطناعي هو مجال بحثي يهتم بدراسة الطرق التي قد يتسبب بها الذكاء الاصطناعي في إلحاق الضرر بالبشر وإيجاد طرق لمنع هذا النوع من الاضطراب السلبي.

تُعرّف مجلة Distill العلمية ، التي تضم مؤلفين تابعين لـ OpenAI ، أمان الذكاء الاصطناعي على النحو التالي:

"الهدف من أمان الذكاء الاصطناعي على المدى الطويل هو التأكد من أن أنظمة الذكاء الاصطناعي المتقدمة تتماشى بشكل موثوق مع القيم الإنسانية - وأن تقوم بأشياء يريدها الناس بشكل موثوق."

محاذاة الذكاء الاصطناعي هو مجال الذكاء الاصطناعي المعني بالتأكد من أن الذكاء الاصطناعي يتماشى مع الأهداف المقصودة.

يمكن استخدام نموذج لغة كبير (LLM) مثل ChatGPT بطريقة قد تتعارض مع أهداف محاذاة الذكاء الاصطناعي كما حددتها OpenAI ، وهي إنشاء ذكاء اصطناعي يعود بالفائدة على البشرية.

وفقًا لذلك ، فإن سبب العلامة المائية هو منع إساءة استخدام الذكاء الاصطناعي بطريقة تضر بالبشرية.

أوضح آرونسون سبب وضع علامة مائية على إخراج ChatGPT:

"قد يكون هذا مفيدًا في منع الانتحال الأكاديمي ، بالطبع ، ولكن أيضًا ، على سبيل المثال ، الجيل الجماعي من الدعاية ..."

كيف تعمل علامة ChatGPT المائية؟

علامة ChatGPT المائية هي نظام يقوم بتضمين نمط إحصائي ، رمز ، في اختيارات الكلمات وحتى علامات الترقيم.

يتم إنشاء المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي بنمط يمكن التنبؤ به إلى حد ما لاختيار الكلمات.

الكلمات التي كتبها البشر والذكاء الاصطناعي تتبع نمطًا إحصائيًا.

يعد تغيير نمط الكلمات المستخدمة في المحتوى الذي تم إنشاؤه طريقة "لوضع علامة مائية" على النص لتسهيل اكتشاف النظام ما إذا كان نتاجًا لمولد نصوص AI.

الحيلة التي تجعل العلامات المائية لمحتوى AI غير قابلة للكشف هي أن توزيع الكلمات لا يزال له مظهر عشوائي مشابه للنص العادي الذي تم إنشاؤه بواسطة AI.

يشار إلى هذا على أنه توزيع شبه عشوائي للكلمات.

العشوائية الزائفة هي سلسلة عشوائية من الكلمات أو الأرقام ليست عشوائية في الواقع.

علامة ChatGPT المائية ليست قيد الاستخدام حاليًا. لكن سكوت آرونسون من OpenAI صرح بأنه مخطط له.

الآن ChatGPT قيد المعاينات ، مما يسمح لـ OpenAI باكتشاف "المحاذاة الخاطئة" من خلال استخدام العالم الحقيقي.

من المفترض أن يتم تقديم العلامة المائية في نسخة نهائية من ChatGPT أو قبل ذلك.

كتب سكوت آرونسون عن كيفية عمل العلامة المائية:

"كان مشروعي الرئيسي حتى الآن أداة لوضع العلامات المائية إحصائيًا على مخرجات نموذج نصي مثل GPT.
في الأساس ، عندما تُنشئ GPT بعض النصوص الطويلة ، نريد أن تكون هناك إشارة سرية غير ملحوظة في اختياراتها للكلمات ، والتي يمكنك استخدامها لإثبات لاحقًا أن هذا جاء من GPT ".

أوضح آرونسون كيف تعمل علامة ChatGPT المائية. لكن أولاً ، من المهم فهم مفهوم الترميز.

الترميز هو خطوة تحدث في معالجة اللغة الطبيعية حيث تأخذ الآلة الكلمات الموجودة في المستند وتقسيمها إلى وحدات دلالية مثل الكلمات والجمل.

يعمل الترميز على تغيير النص إلى نموذج منظم يمكن استخدامه في التعلم الآلي.

عملية إنشاء النص هي آلة تخمين الرمز المميز الذي يأتي بعد ذلك بناءً على الرمز المميز السابق.

يتم ذلك باستخدام دالة رياضية تحدد احتمالية ما سيكون الرمز المميز التالي ، وهو ما يسمى توزيع الاحتمالات.

ما هي الكلمة التالية متوقعة لكنها عشوائية.

العلامة المائية نفسها هي ما يصفه آرون بالعشوائية الزائفة ، من حيث أن هناك سببًا رياضيًا لوجود كلمة أو علامة ترقيم معينة ولكنها لا تزال عشوائية إحصائيًا.

هنا هو الشرح الفني للعلامة المائية GPT:

"بالنسبة إلى GPT ، كل إدخال ومخرج عبارة عن سلسلة من الرموز المميزة ، والتي يمكن أن تكون كلمات ولكن أيضًا علامات ترقيم أو أجزاء من الكلمات أو أكثر - هناك حوالي 100000 رمز في المجموع.
في جوهرها ، تنشئ GPT باستمرار توزيعًا احتماليًا على الرمز المميز التالي لإنشاء ، مشروطًا بسلسلة الرموز المميزة السابقة.
بعد أن تُنشئ الشبكة العصبية التوزيع ، يقوم خادم OpenAI في الواقع بتجربة رمز وفقًا لهذا التوزيع - أو نسخة معدلة من التوزيع ، اعتمادًا على معلمة تسمى "درجة الحرارة".
طالما أن درجة الحرارة غير صفرية ، فعادة ما يكون هناك بعض العشوائية في اختيار الرمز المميز التالي: يمكنك تشغيله مرارًا وتكرارًا بنفس الموجه ، والحصول على إكمال مختلف (أي سلسلة من الرموز المميزة للإخراج) في كل مرة .
إذن ، بالنسبة للعلامة المائية ، بدلاً من اختيار الرمز المميز التالي بشكل عشوائي ، ستكون الفكرة هي تحديده بشكل شبه عشوائي ، باستخدام وظيفة شبه عشوائية مشفرة ، ومفتاحها معروف فقط لـ OpenAI ".

تبدو العلامة المائية طبيعية تمامًا لمن يقرؤون النص لأن اختيار الكلمات يحاكي العشوائية لجميع الكلمات الأخرى.

هذا هو التفسير الفني:

"للتوضيح ، في الحالة الخاصة التي كان لدى GPT مجموعة من الرموز الممكنة التي رأت أنها محتملة بشكل متساوٍ ، يمكنك ببساطة اختيار الرمز المميز الذي تم تكبيره g. سيبدو الاختيار عشوائيًا بشكل موحد لشخص لا يعرف المفتاح ، ولكن الشخص الذي يعرف المفتاح يمكنه لاحقًا جمع g على جميع n-grams ويرى أنه كان كبيرًا بشكل غير طبيعي. "

العلامة المائية هي الحل الأول للخصوصية

لقد رأيت مناقشات على وسائل التواصل الاجتماعي حيث اقترح بعض الأشخاص أن OpenAI يمكنها الاحتفاظ بسجل لكل ناتج تولده واستخدامه للكشف.

يؤكد سكوت آرونسون أن شركة OpenAI يمكنها القيام بذلك ولكن القيام بذلك يمثل مشكلة تتعلق بالخصوصية. الاستثناء المحتمل هو حالة تطبيق القانون ، والتي لم يوضحها بالتفصيل.

كيفية اكتشاف ChatGPT أو GPT Watermarking

هناك شيء مثير للاهتمام يبدو أنه غير معروف جيدًا حتى الآن وهو أن سكوت آرونسون أشار إلى أن هناك طريقة للتغلب على العلامة المائية.

لم يقل إنه من الممكن هزيمة العلامة المائية ، بل قال إنه يمكن هزيمتها.

"الآن ، يمكن هزيمة كل هذا بجهد كافٍ.
على سبيل المثال ، إذا استخدمت ذكاءً اصطناعيًا آخر لإعادة صياغة إخراج GPT - حسنًا ، لن نتمكن من اكتشاف ذلك. "

يبدو أنه يمكن هزيمة العلامة المائية ، على الأقل في نوفمبر عندما تم الإدلاء بالبيانات المذكورة أعلاه.

لا يوجد ما يشير إلى أن العلامة المائية قيد الاستخدام حاليًا. ولكن عندما تدخل حيز الاستخدام ، قد يكون من غير المعروف ما إذا كانت هذه الثغرة قد أُغلقت.

الاقتباس

اقرأ منشور مدونة Scott Aaronson هنا.

كيف تعمل علامة ChatGPT المائية ولماذا يمكن هزيمتها