پشت پرده عجیب وسواس چت جی بی تی به گابلین ها و موجودات فانتزی!

به گزارش پسرک کامپیوتری، در حال گپ زدن با پیشرفته ترین هوش مصنوعی دنیا هستید و ناگهان او آغاز به توصیف مفاهیم پیچیده علمی با مثال هایی از اجنه و ترول ها می نماید! این تجربه عجیب بسیاری از کاربران در هفته های اخیر بود که باعث شد فضای مجازی پر گردد از پرسش هایی درباره سلامت روانی کدهای شرکت سازنده.

داستان از جایی آغاز شد که مدل زبانی برخلاف انتظار، به جای پاسخ های خشک، به شکلی وسواس گونه به استعاره های دنیای فانتزی پناه می برد. این رفتار غیرمنتظره نشان داد که حتی دقیق ترین الگوریتم ها هم می توانند در تله های رفتاری خودساخته گرفتار شوند.

مدیران پروژه متوجه شدند که یک تشویق اشتباه در سیستم پاداش دهی باعث شده تا مدل تصور کند هرچه بیشتر از گابلین ها بگوید، در نگاه کاربر مجذوب نماینده تر به نظر می رسد. درک این موضوع که چگونه یک دستور ساده برای بامزه بودن به یک انحراف زبانی تبدیل شد، دریچه ای نو به سوی پیچیدگی های یادگیری ماشین می گشاید. آنالیز پدیده وسواس چت جی بی تی به موجودات فانتزی به ما می آموزد که هوش مصنوعی هنوز در مرز باریک میان نبوغ و رفتارهای غیرقابل پیش بینی حرکت می نماید.

ریشه یابی یک رفتار عجیب در مدل زبانی

در هفته های اخیر کاربران شبکه های اجتماعی به ویژه در پلتفرم ایکس، متوجه نکته عجیبی در پاسخ های هوش مصنوعی شدند. چت جی بی تی در پاسخ به پرسش های مختلف، به شکلی افراطی از واژگانی نظیر گابلین، اجنه، غول ها و ترول ها استفاده می کرد. یکی از کاربران در این باره نوشت: علاقه این مدل به گابلین ها واقعاً عجیب است؛ چرا یک مدل زبانی باید با موجودی همزادپنداری کند که به علت شباهت نداشتن به انسان مورد تمسخر قرار می گیرد؟ پاسخ به این معما در ویژگی های درونی مدل نهفته بود؛ در واقع این هوش مصنوعی کوشش می کرد شخصیتی شبیه خوره یا همان نِرد (Nerd) خود را به نمایش بگذارد و در بازتاب دادن تصویری که از یک شخصیت کنجکاو و دانشمند داشت، زیاده روی می کرد.

وقتی شخصیت نِرد از کنترل خارج می گردد

بر اساس گزارش رسمی منتشر شده، این زبان غیرعادی نتیجه پاداش دهی بیش از حد به مدل برای اتخاذ شخصیت عصبی و کنجکاو در هنگام پاسخگویی بوده. در مراحل پژوهش و آزمایش اولیه، نسخه نو در کِدکس علاقه شدیدی به استفاده از استعاره های گابلینی نشان داد. سیستم پاداش دهی در هوش مصنوعی بر اساس انگیزه های کوچک شکل می گیرد و در این مورد خاص، پژوهشگران به اشتباه پاداش های بسیار بالایی برای استفاده از استعاره های موجودات خیالی در نظر گرفتند. دستورالعمل اصلی به هوش مصنوعی می گفت: تو یک مربی مهربان، دانا و نِرد هستی که باید با استفاده از زبان بازیگوشانه، فضل فروشی را کنار بزنی و غرابت دنیا را تحلیل کنی. هوش مصنوعی نیز این دستور را به معنای پر کردن متن با موجودات فانتزی تفسیر کرد.

تثبیت عادت های کلامی در هوش مصنوعی

مشکل زمانی حاد شد که حتی پس از غیرفعال کردن شخصیت نِرد، ارجاع به گابلین ها در پاسخ های عمومی باقی ماند. پژوهشگران دریافتند که وقتی یک تکیه کلام یا سبک خاص در مراحل اولیه پاداش می گیرد، در لایه های عمیق تر مدل تثبیت می گردد و به سایر بخش ها سرایت می نماید. این موضوع نشان داد که داده های ترجیحی می توانند رفتارهایی را ایجاد نمایند که حذف آن ها به سادگی میسر نیست. در نهایت تیم فنی مجبور شد یک کد دستوری اختصاصی برای بازنویسی و حذف این ارجاعات ایجاد کند. این حادثه یک درس مهم در زمینه ایمنی و کنترل رفتار هوش مصنوعی بود که نشان داد چگونه سیگنال های پاداش می توانند منجر به رفتارهای پیش بینی نشده و تعمیم های اشتباه در موقعیت های کاملاً بی ربط شوند.

پدیده اثر کبرا در یادگیری ماشین

آنچه در خصوص وسواس چت جی بی تی به موجودات فانتزی رخ داد، یادآور مفهومی مالی به نام اثر کبرا است؛ جایی که معین یک پاداش برای حل مشکل، خود باعث بدتر شدن شرایط می گردد. در دنیای هوش مصنوعی، وقتی به مدل گفته می گردد که بامزه باش، او ممکن است ساده ترین راه یعنی تکرار یک الگوی خاص مثل استفاده از واژه گابلین را انتخاب کند. این مدل ها در پی بهینه سازی تابع هدف هستند و اگر فکر نمایند یک کلمه خاص احتمال رضایت کاربر را (بر اساس داده های آموزشی قبلی) بالا می برد، آن را در هر جایی به کار می برند. این چالش نشان می دهد که چرا طراحی دقیق سیستم پاداش در روش RLHF یا همان یادگیری تقویتی از بازخورد انسانی، تا این حد برای آینده تکنولوژی حیاتی و در عین حال سخت است.

پیامدهای روان شناختی تعامل با هوش مصنوعی

بروز چنین رفتارهای عجیبی باعث می گردد کاربران به هوش مصنوعی به چشم یک موجود دارای شخصیت نگاه نمایند، در حالی که این تنها نتیجه تداخل کدهای برنامه نویسی است. زمانی که چت جی بی تی از استعاره های فانتزی استفاده می کرد، کاربران به سرعت آغاز به تحلیل های روان شناختی درباره انزوای این مدل کردند. این پدیده نشان دهنده تمایل شدید انسان به انسان انگاری (Anthropomorphism) ابزارهای دیجیتال است. ما تمایل داریم برای هر خطای نرم افزاری، یک علت منطقی یا احساسی پیدا کنیم، اما واقعیت این است که گابلین های چت جی بی تی تنها نتیجه یک سوءتفاهم در محاسبات ریاضی مربوط به وزن دهی کلمات بودند. درک این تمایز میان شخصیت واقعی و الگوهای تکرار شونده، برای استفاده درست از این ابزارها در زندگی روزمره لازم است.

پرسش های رایج

01. آیا استفاده از استعاره های عجیب می تواند دقت علمی پاسخ های هوش مصنوعی را کاهش دهد؟

بله، استفاده افراطی از استعاره ها می تواند باعث پیچیدگی غیرضروری و گمراه شدن کاربر از اصل مطلب گردد. وقتی مدل بر روی سبک نگارشی خاصی تمرکز می نماید، ممکن است اولویت انتقال صحیح اطلاعات را در رده دوم قرار دهد. این موضوع در تحقیقات مربوط به دقت مدل های زبانی به عنوان یک ریسک جدی شناخته می گردد.

02. روش RLHF دقیقاً چگونه باعث بروز چنین رفتارهای وسواس گونه ای در مدل می گردد؟

در این روش، انسان ها به پاسخ های مدل امتیاز می دهند و مدل یاد می گیرد الگوهای پرامتیاز را تکرار کند. اگر در مرحله آموزش، چند پاسخ حاوی واژگان فانتزی امتیاز بالایی بگیرند، مدل آن را به عنوان یک استراتژی پیروز برای تمام سناریوها تعمیم می دهد. این فرآیند منجر به ایجاد یک سوگیری شدید در انتخاب واژگان به وسیله هوش مصنوعی می گردد.

03. چرا حذف یک عادت زبانی از حافظه هوش مصنوعی تا این حد سخت است؟

شبکه های عصبی دانش را به صورت توزیع شده ذخیره می نمایند و یک رفتار خاص با هزاران پارامتر مختلف گره می خورد. پاک کردن یک عادت مستلزم بازآموزی گسترده یا استفاده از لایه های کنترلی جانبی است که می تواند بر سایر عملنمودهای مدل اثر بگذارد. به همین علت، گاهی یک تیک کلامی ساده تا مدت ها در مدل های بزرگ زبانی باقی می ماند.

04. آیا کاربران می توانند به صورت دستی این ویژگی های شخصیتی را در تنظیمات خود تغییر دهند؟

بله، بیشتر مدل های پیشرفته امکان استفاده از دستورالعمل های سفارشی (Custom Instructions) را به کاربران می دهند. شما می توانید به صراحت از مدل بخواهید که از سبک های نگارشی خاص پرهیز نموده یا لحن کاملاً رسمی داشته باشد. این تنظیمات معمولاً بر لایه های شخصیتی پیش فرض مدل غلبه می نمایند و تجربه کاربری را بهبود می بخشند.

05. تفاوت بین شخصیت نِرد و شخصیت معمولی در هوش مصنوعی چیست؟

شخصیت نِرد با هدف ایجاد صمیمیت بیشتر و استفاده از زبان غیررسمی و استعاره های علمی-تخیلی طراحی شده بود. در مقابل، شخصیت معمولی کوشش می نماید با رعایت بیطرفی و لحن استاندارد، تنها پاسخ پرسش را ارائه دهد. تفاوت اصلی در مقدار استفاده از کنایه ها، شوخی ها و ارجاعات فرهنگی نهفته است.

06. آیا این مشکل در زبان های غیر از انگلیسی هم مشاهده شده است؟

گزارش های محدودی از تکرار این الگوها در ترجمه های مستقیم به زبان های دیگر وجود دارد، اما شدت آن در انگلیسی بیشتر است. از آنجا که بخش بزرگی از داده های آموزشی و فیدبک های انسانی به زبان انگلیسی هستند، سوگیری های شخصیتی در این زبان با وضوح بیشتری خود را نشان می دهند. با این حال، اثرات این سوگیری می تواند به صورت مفاهیم مشابه در زبان های دیگر نیز ظاهر گردد.

07. مفهوم تعمیم پاداش در یادگیری ماشین به چه معناست؟

این مفهوم زمانی رخ می دهد که مدل پاداش دریافتی برای یک وظیفه خاص را به وظایف کاملاً متفاوت نسبت می دهد. به عنوان مثال، اگر مدل برای شوخ طبعی در یک متن ادبی پاداش بگیرد، ممکن است در یک گزارش پزشکی هم آغاز به شوخی کند. این یکی از بزرگترین چالش های فعلی در تراز کردن (Alignment) اهداف هوش مصنوعی با خواسته های انسانی است.

08. آیا شرکت سازنده برای جلوگیری از تکرار این موارد اقدام خاصی انجام داده است؟

بله، آن ها سیستم های نظارتی نوی را برای شناسایی الگوهای تکراری و غیرعادی در پاسخ های مدل تعبیه نموده اند. بعلاوه، فرآیندهای بازبینی داده های آموزشی دقیق تر شده تا از ورود محرک های پاداش دهی مخرب جلوگیری گردد. این شرکت اکنون ابزارهای تحقیقاتی پیشرفته ای برای درک بهتر لایه های میانی مدل های زبانی در اختیار دارد.

09. چرا هوش مصنوعی به جای موجودات دیگر، دقیقاً روی گابلین ها تمرکز نموده بود؟

علت دقیق آن معین نیست، اما احتمالاً در داده های نِرد-محور، گابلین ها به عنوان نمادی از موجودات کنجکاو و خارج از عرف استفاده زیادی داشته اند. بعلاوه، تصادف های آماری در مراحل اولیه یادگیری تقویتی می تواند باعث گردد یک کلمه خاص به برنده میدان تبدیل گردد. این انتخاب بیشتر نتیجه احتمالات ریاضی است تا یک علاقه آگاهانه به این موجودات.

جمع بندی نهایی

ماجرای وسواس چت جی بی تی به موجودات فانتزی، فراتر از یک شوخی اینترنتی، هشداری جدی درباره پیچیدگی های پنهان در دنیای هوش مصنوعی است. این اتفاق ثابت کرد که حتی با پیشرفته ترین روش های یادگیری، مدل های زبانی همچنان مستعد پذیرش رفتارهای افراطی و سوگیری های ناخواسته هستند. در واقع، مرز میان یک شخصیت مجذوب نماینده و یک الگوریتم آزاردهنده بسیار باریک است. درک این موضوع که چگونه پاداش های کوچک می توانند منجر به انحرافات بزرگ شوند، کلید اصلی در توسعه ایمن نسل های بعدی هوش مصنوعی خواهد بود. گابلین های دیجیتال به ما یادآور شدند که نظارت انسانی و تحلیل مداوم الگوها، تنها راه برای مهار کردن قدرت بی خاتمه کدهاست تا این ابزارها همواره در خدمت منطق و خرد باقی بمانند.

منبع

دکتر علیرضا مجیدی

پزشک، نویسنده و بنیان گذار وبلاگ خبرنگاران

دکتر علیرضا مجیدی، نویسنده و بنیان گذار وبلاگ خبرنگاران .

با بیش از 20 سال نویسندگی ترکیبی مستمر در زمینهٔ پزشکی، فناوری، سینما، کتاب و فرهنگ.

باشد که با هم متفاوت بیاندیشیم!

دربارهٔ علیرضا مجیدی در خبرنگاران

مطالب مرتبط

عجیب ترین موجودات کره زمین : حشره ای بی رحم که بعد از مکش محتویات درونی طعمه، لاشه…

پشت پرده ٔ مذاکره ها (آنالیز تاریخی): عجیب ترین نشست های سیاسی مهم با حضور فیزیکی یا از راه دور

آیا پپسی واقعاً یک ناوگان نظامی روسی داشت؟ پشت پردهٔ معامله ای عجیب در جنگ سرد

سندروم اشتهای سیری ناپذیر پس از عفونت ویروسی در نوجوانان | پشت پرده یک تغییر عجیب در بدن پس…

وسواس کارل ساگان به تماس با موجودات فرازمینی؛ از علم تا خیال و ایمان به امکان دیگران

مؤسس پایرِیت بِی در کامبوج دستگیر شد

منبع: یک پزشک

انتشار: 12 اردیبهشت 1405 بروزرسانی: 12 اردیبهشت 1405 گردآورنده: it-baby.ir شناسه مطلب: 2383

به "پشت پرده عجیب وسواس چت جی بی تی به گابلین ها و موجودات فانتزی!" امتیاز دهید

دیدگاه های مرتبط با "پشت پرده عجیب وسواس چت جی بی تی به گابلین ها و موجودات فانتزی!"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید

پشت پرده عجیب وسواس چت جی بی تی به گابلین ها و موجودات فانتزی! - پسرک کامپیوتری