تفوق روبوت الدردشة على حاملي الدكتوراه في اختبار علمي صعب، لكنه قد "يهلوس" أكثر من أسلافه.
نيكولا جونز، Nature، 1 أكتوبر 2024
ترجمة وإعداد عادل كنيش مطلوب
يقول الباحثون الذين ساعدوا في اختبار نموذج اللغة الكبير الجديد لشركة شركة أوبن أب آي، إن منتج "أوبن أب آي o1"، يمثل خطوة كبيرة للأمام من حيث فوائد روبوتات الدردشة في العلوم.
يقول ماريو كرين Mario Krenn، قائد مختبر العلماء الاصطناعيين في معهد ماكس بلانك لعلوم الضوء في إرلانجن بألمانيا، "في مجال فيزياء اللكونتوم، يعطي استجابات أكثر تفصيلاً وتماسكًا بشكل ملحوظ" مقارنة بنموذج الشركة الأخير، "GPT-4o". كان كرين واحدًا من حفنة من العلماء في "الفريق الأحمر" الذي اختبر الإصدار التجريبي لمنتج o1 من شركة أوبن أب آي، وهي شركة تكنولوجيا مقرها سان فرانسيسكو، كاليفورنيا، من خلال وضع الروبوت في اختبار دقيق والتحقق من مخاوف السلامة.
منذ الإطلاق العام لـ "جات جي بي تي" في عام 2022، أصبحت نماذج اللغة الكبيرة التي تدير مثل روبوتات الدردشة هذه أكبر وأفضل، مع المزيد من المعلمات، أو نقاط اتخاذ القرار؛ ومجموعات بيانات تدريب أكبر؛ وقدرات أقوى عبر مجموعة متنوعة من الاختبارات الموحدة أو المعايير.
تقول شركة أوبن أب آي أن منتجها o1 يمثل تغييرًا جذريًا في نهج الشركة. يقول المراقبون إن السمة المميزة لهذا النموذج للذكاء الاصطناعي هو أنه يقضى وقتًا أطول في مراحل معينة من التعلم، و"يفكر" في إجاباته لفترة أطول، مما يجعله أبطأ، ولكن أكثر قدرة - خاصة في المجالات التي يمكن فيها تحديد الإجابات الصحيحة والخاطئة بوضوح. وتضيف الشركة أن منتج o1 "يمكنه التفكير في المهام المعقدة وحل المشكلات الأصعب من النماذج السابقة في العلوم والبرمجة والرياضيات". في الوقت الحالي، يتوفر "o1-preview" و"o1-mini" – وهي إصدارات أصغر وأكثر فعالية من حيث التكلفة ومناسبة للبرمجة - لمستخدمين مشتركين ومطورين معينين على أساس تجريبي. لم تصدر الشركة تفاصيل حول عدد المعلمات أو مقدار قوة الحوسبة الكامنة وراء منتج o1.
التفوق على حملة شهادة الدكتوراه
يقول أندرو وايت Andrew White، الكيميائي من FutureHouse، وهي منظمة غير ربحية في سان فرانسيسكو تركز على كيفية تطبيق الذكاء الاصطناعي في علم الأحياء الجزيئي، إن المراقبين فوجئوا وخاب أملهم بسبب الافتقار العام إلى التحسن في قدرة برامج الدردشة الآلية على دعم المهام العلمية على مدار العام ونصف العام الماضيين، منذ الإصدار العام لـ "GPT-4". ويقول إن منتج o1 قد غير من ذلك.
من المدهش أن منتج o1 أصبح أول نموذج لغوي كبير يتغلب على علماء بمستوى الدكتوراه في أصعب سلسلة من أسئلة ما يعرف بمجموعة "الماس" - في اختبار يسمى معيار الأسئلة والأجوبة على مستوى الدراسات العليا المعتمد على كوكل (GPQA). تقول شركة أوبن أي آي إن علماءها سجلوا أقل من 70٪ في مجموعة "الماس"، وسجل (منتج o1 ) 78٪ بشكل عام، مع درجة عالية بشكل خاص بلغت 93٪ في الفيزياء (انظر المرفق). يقول ديفيد راين David Rein، الذي كان جزءًا من الفريق الذي طور مجموعة "الماس"، إن هذا "أعلى بكثير من أفضل أداء تم الإبلاغ عنه للدردشة الآلية". يعمل راين الآن في منظمة غير ربحية تسمى "Model Evaluation and Threat Research"، مقرها بيركلي، كاليفورنيا، التي تعمل على تقييم مخاطر الذكاء الاصطناعي. ويضيف: "يبدو لي من المعقول أن هذا يمثل تحسنًا كبيرًا وجوهريًا في قدرات التفكير الأساسية للنموذج".
كما اختبرت شركة أوبن أي آي منتج o1 في امتحان تأهيلي لأولمبياد الرياضيات الدولي. كان نموذجها السابق "GPT-4o" قد أحرز 13٪ فقط في حل المسائل الرياضية بشكل صحيح، بينما منتج o1 أحرز على 83٪.
تسلسل الأفكار
يعمل منتج o1 باستخدام منطق "تسلسل الأفكار"؛ فهو يتحدث مع نفسه من خلال سلسلة من خطوات التفكير أثناء محاولته حل مشكلة ما، وتصحيح نفسه أثناء عمله.
قررت شركة أوبن أي آي إخفاء تفاصيل أي تسلسل معين من الأفكار - جزئيًا لأن التسلسل قد يحتوي على أخطاء أو "أفكار" غير مقبولة اجتماعيًا، وجزئيًا لحماية أسرار الشركة المتعلقة بكيفية عمل النموذج. بدلاً من ذلك، يقدم منتج o1 ملخصًا مُعاد بناؤه للمستخدم، إلى جانب إجاباته. يقول وايت إنه من غير الواضح ما إذا كانت تسلسل الأفكار كاملة، إذا تم الكشف عنها، ستبدو مشابهة للتفكير البشري.
تأتي القدرات الجديدة مع مقايضات. على سبيل المثال، أفادت شركة أوبن أي آي أنها تلقت ردود فعل قصصية تفيد بأن نماذج منتج o1 تعاني من الهلوسة - يختلق إجابات غير صحيحة - أكثر من سابقاتها (على الرغم من أن الاختبار الداخلي للشركة أظهر معدلات هلوسة أقل لمنتج o1).
لاحظ علماء الفريق الأحمر الكثير من الطرق التي ساعد بها منتج o1 في التوصل إلى بروتوكولات للتجارب العلمية، لكن شركة أوبن أي آي تقول إن المختبرين "سلطوا الضوء أيضًا على معلومات السلامة المفقودة المتعلقة بالخطوات الضارة، مثل عدم تسليط الضوء على المخاطر المتفجرة أو اقتراح طرق احتواء كيميائية غير مناسبة، مشيرين إلى عدم ملاءمة النموذج للاعتماد عليه لمهام السلامة الجسدية عالية الخطورة".
يقول وايت "إنها لا تزال غير مثالية أو موثوقة بما يكفي لدرجة أنك لن ترغب حقًا في التحقق منها عن كثب". ويضيف أن منتج o1 أكثر ملاءمة لتوجيه الخبراء من المبتدئين. ويقول: "بالنسبة للمبتدئين، فإن الأمر يتجاوز قدرتهم على التفتيش الفوري" للنظر في بروتوكول تم إنشاؤه بواسطة منتج o1.
حلول علمية
يعتقد كرين أن منتج o1 سوف يعمل على تسريع العلوم من خلال المساعدة في مسح الأدبيات، ورؤية ما هو مفقود واقتراح سبل مثيرة للاهتمام للأبحاث المستقبلية. وقد حقق نجاحًا في ربط منتج o1 بأداة شارك في تطويرها والتي تقوم بهذا، تسمى "SciMuse". حيث يقول: "إنها تخلق أفكارًا أكثر إثارة للاهتمام من "GPT-4" أو "GTP-4o".
استخدم كايل كاباساريس Kyle Kabasares، عالم البيانات من معهد أبحاث البيئة في منطقة الخليج في موفيت فيلد، كاليفورنيا، منتج o1 لتكرار بعض البرمجيات من مشروع الدكتوراه الخاص به الذي يحسب كتلة الثقوب السوداء. حيث قال: "لقد كنت في حالة من الدهشة"، مشيرًا إلى أن الأمر استغرق من منتج o1 حوالي ساعة لإنجاز ما استغرق منه عدة أشهر. كما تقول كاثرين براونشتاين Catherine Brownstein، عالمة الوراثة في مستشفى بوسطن للأطفال في ماساتشوستس، إن المستشفى يختبر حاليًا العديد من أنظمة الذكاء الاصطناعي، بما في ذلك "o1-preview"، لتطبيقات مثل ربط النقاط بين خصائص المريض والجينات للأمراض النادرة. تقول إن منتج o1 "أكثر دقة ويقدم خيارات لم أكن أعتقد أنها ممكنة من روبوت الدردشة".
رابط المقال: