پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی با مقایسه عملکرد مدلهای زبانی بزرگ GPT-۳.۵ و GPT-۴ توسعه یافته توسط شرکت OpenAI ادعا میکنند که عملکرد و دقت ربات گفتگوگر ChatGPT در طول زمان کاهش یافته است.
به نقل از استنفورد، به نظر میرسد که مرحله ماه عسل برای مدلهای زبانی بزرگ(LLM) که با عجله برای نفوذ به فضای هوش مصنوعی مولد معرفی شدند، به پایان رسیده است، چرا که بر اساس مطالعهای که توسط پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی انجام شده، عملکرد مدلهای زبانی بزرگ شرکت OpenAI در طول زمان به طور قابل توجهی کاهش یافته است.
پژوهشگران با توجه به این که این مدلها میتوانند بر اساس دادهها، بازخورد کاربران و تغییراتِ طراحی، بهروز شوند، میخواستند ببینند که آیا این مدلهای زبانی بزرگ در حال بهبود هستند یا نه؟
این تیم رفتار نسخههای عرضه شده در ماه مارس ۲۰۲۳ و ماه ژوئن ۲۰۲۳ از مدلهای GPT-۳.۵ و GPT-۴ را در چهار وظیفه ارزیابی کردند. اولی حل مسائل ریاضی، دومی پاسخ دادن به سوالات حساس یا خطرناک، سومی تولید کد و چهارمی ارزیابی مدلها در استدلال بصری بود.
قابلیتهای متنوع مدلهای زبانی بزرگ
گزارش شرکت OpenAI هنگام معرفی GPT-۴ در ماه مه امسال ادعا کرد که GPT-۴ بسیار قابل اعتمادتر و خلاقانهتر است و میتواند دستورالعملهای ظریفتری را نسبت به GPT-۳.۵ انجام دهد.
همچنین اخیراً نشان داده شد که GPT-۴ امتحانات دشواری را در حوزههای حرفهای مانند پزشکی و حقوق با موفقیت پشت سر میگذارد.
با این حال، پژوهشگران دریافتند که عملکرد و رفتار GPT-۳.۵ و GPT-۴ در نسخههای مربوطه به ماههای مارس و ژوئن متفاوت است.
مدل GPT-۴ در نسخه مارس ۲۰۲۳، میتوانست اعداد اول را با دقت ۹۷.۶ شناسایی کند، اما این تیم دریافت که در نسخه ژوئن ۲۰۲۳ در همان سؤالات با دقت غیر منتظره ۲.۴ درصد عملکرد بسیار ضعیفی داشت. همچنین نسخه ژوئن ۲۰۲۳ مدل GPT-۳.۵ در همان وظیفه بسیار بهتر از نسخه مارس ۲۰۲۳ بود.
این تیم همچنین دریافت که نسخه ماه ژوئن GPT-۴ نسبت به ماه مارس تمایل کمتری به پاسخگویی به سوالات حساس داشت و هر دو مدل GPT-۴ و GPT-۳.۵ در تولید کد در ژوئن نسبت به ماه مارس اشتباهات بیشتری داشتند.
افزایش نگرانی در مورد تمایل مدلهای زبانی بزرگ به هذیانگویی
پژوهشگران میگویند خبر خوب این است که بهروزرسانی GPT-۴ نسبت به حملات جیلبریک(Jailbreak) قویتر از GPT-۳.۵ بود.
جیلبریک نوعی دستکاری است که در آن یک درخواست برای پنهان کردن یک سوال مخرب و فراتر رفتن از مرزهای حفاظتی ساخته میشود و اعلان مدل زبانی بزرگ را برای ایجاد پاسخهایی دستکاری میکند که میتواند به ایجاد بدافزار کمک کند.
در حالی که جهان با ChatGPT مسحور شده است، این مطالعه یادآوری قدرتمندی است که توسعه دهندگان باید به طور مداوم رفتار مدلهای زبانی بزرگ را در برنامههای تولیدیشان ارزیابی و نظارت کنند.
پژوهشگران میگویند: ما قصد داریم یافتههای ارائه شده در اینجا را در یک مطالعه طولانیمدت با ارزیابی منظم GPT-۳.۵، GPT-۴ و سایر مدلهای زبانی بزرگ در وظایف مختلف در طول زمان بهروزرسانی کنیم.
آنها افزودند: به کاربران یا شرکتهایی که به خدمات مدلهای زبانی بزرگ در جریان کار مداوم خود متکی هستند، توصیه میکنیم که تحلیل نظارتی مشابهی را که ما در اینجا روی آنها انجام میدهیم، پیادهسازی کنند.
در مقابل، مطالعه دیگری توسط گروهی از پژوهشگران شرکت مایکروسافت که میلیاردها دلار در OpenAI سرمایهگذاری کرده انجام شده است و جالب اینجاست که نتایج آن مطالعه نشان میدهد که GPT-۴ گامی مهم به سوی هوش مصنوعی عمومی(AGI) است که بسیاری در صنعت هوش مصنوعی میگویند که ادعایی خطرناک است.