هوش مصنوعی مکالمه (LLM) مانند GPT-4 میتوانند متون و پاسخهایی تولید کنند که به سختی از نوشتههای انسان قابل تشخیص هستند. محققان دانشگاه کالیفرنیا سن دیگو با اجرای یک آزمون تورینگ نشان دادند که افراد ممکن است که GPT-4 را از انسان در مکالمات کوتاه چت تشخیص ندهند. در این مقاله از سایت Abazi قصد داریم به بحث در این باره بپردازیم.
در این مطالعه، محققان توانایی افراد را در تشخیص GPT-4 از یک انسان در یک آزمون تورینگ ارزیابی کردند. در یک آزمون تورینگ، افراد با یک موجود ناشناخته (در این مورد، GPT-4 یا یک انسان) تعامل میکنند و باید قضاوت کنند که آیا آن موجود انسان است یا خیر.
نتایج نشان داد که افراد در 46 درصد موارد میتوانستند GPT-4 را از انسان تشخیص دهند. به عبارت دیگر، GPT-4 در 54 درصد موارد توانست انسانها را فریب دهد. این یافتهها نشان میدهد که GPT-4 در تقلید از مکالمه انسان بسیار ماهر است و در آینده ممکن است تشخیص انسان از ماشین در تعاملات آنلاین دشوارتر شود.
یافتههای محققان نشان میدهد که مردم ممکن است در آینده به افرادی که به صورت آنلاین با آنها تعامل دارند بیاعتمادتر شوند. دانشمندان در حال برنامهریزی برای انجام آزمایشهای بیشتر برای بررسی قابلیتهای هوش مصموعی مکالمه هستند.
هوش مصنوعی مکالمه (LLM) مانند مدل GPT-4 که زیربنای پلتفرم گفتگوی پرکاربرد چتجیپیتی است، کاربران را با توانایی خود در درک دستورات نوشتاری و تولید پاسخهای مناسب به زبانهای مختلف شگفتزده کردهاند. بنابراین، برخی از ما ممکن است تعجب کنیم: آیا متون و پاسخهای تولید شده توسط این مدلها آنقدر واقعی هستند که بتوان آنها را با نوشتههای انسان اشتباه گرفت؟
پژوهشگران دانشگاه کالیفرنیا سن دیگو اخیراً با اجرای یک آزمون تورینگ، روشی معروف به نام دانشمند کامپیوتر آلن تورینگ، که برای ارزیابی میزان هوشمندی انسانگونه یک ماشین طراحی شده است، به دنبال پاسخ به این سوال برآمدند.
یافتههای این آزمایش که در مقالهای پیشچاپشده در سرور arXiv شرح داده شده است، نشان میدهد که افراد در هنگام تعامل با مدل GPT-4 و یک فرد واقعی بهعنوان بخشی از یک مکالمه دو نفره، تشخیص آنها را دشوار میدانند.
کامرون جونز، همنویسنده این مقاله گفت: «ایده اصلی این مقاله در واقع از کلاسی نشأت گرفت که بن در مورد هوش مصنوعی مکالمه برگزار میکرد.» «ما در هفته اول چند مقاله کلاسیک در مورد آزمون تورینگ خواندیم و در مورد اینکه آیا یک هوش مصنوعی مکالمه میتواند آن را پاس کند و اینکه آیا پاس کردنش مهم است یا نه بحث کردیم. تا جایی که من میدانستم، در آن زمان کسی تلاش نکرده بود، بنابراین تصمیم گرفتم آزمایشی را برای تست این موضوع به عنوان پروژه کلاسی خود بسازم، و سپس به اجرای اولین آزمایش اکتشافی عمومی پرداختیم.»
فهرست مطالب
آزمون تورینگ جدید درباره هوش مصنوعی مکالمه
اولین مطالعهای که توسط جونز انجام شد و تحت نظارت برگن، استاد علوم شناختی در دانشگاه کالیفرنیا سن دیگو، انجام شد، نتایج جالبی به دست داد و نشان داد که GPT-4 میتواند در حدود 50 درصد از تعاملات بهعنوان انسان جا بزند. با این حال، آزمایش اکتشافی آنها برخی از متغیرهایی را که میتوانست بر یافتهها تأثیر بگذارد به خوبی کنترل نمیکرد، بنابراین آنها تصمیم گرفتند یک آزمایش دوم انجام دهند که نتایج آن در مقاله اخیرشان ارائه شده است.
جونز گفت: «در حالی که در حال اجرای مطالعات بودیم، متوجه شدیم که افراد دیگری نیز در این زمینه کارهای عالی انجام میدهند، از جمله بازی «انسان یا نه» Jannai و همکارانش.» «ما یک نسخه آنلاین دو نفره از بازی ایجاد کردیم که در آن شرکتکنندگان انسان با یک انسان دیگر یا یک مدل هوش مصنوعی جفت میشدند.»
در طول هر دور از بازی دو نفره که جونز و همکارانش استفاده کردند، یک بازپرس انسان با یک «شاهد» که میتواند انسان یا یک عامل هوش مصنوعی باشد، تعامل میکند. بازپرس از شاهد سؤالاتی میپرسد تا سعی کند تشخیص دهد که او انسان است یا نه.
نتایج آزمایش
مکالمات تا پنج دقیقه به طول انجامید و در پایان، بازپرس درباره اینکه آیا شاهد را انسان یا هوش مصنوعی میدانست، قضاوت کرد. جونز توضیح داد: «در طول این پنج دقیقه، شرکتکنندگان میتوانستند در مورد هر چیزی که میخواهند صحبت کنند (به جز گفتن حرفهای توهینآمیز، که ما از فیلتری برای جلوگیری از آن استفاده کردیم)».
در این بازی دو نفره رایانهای، محققان از سه هوش مصنوعی مکالمه مختلف به عنوان شاهد بالقوه استفاده کردند، یعنی مدلهای GPT-4، GPT 3.5 و ELIZA. آنها دریافتند که در حالی که کاربران اغلب میتوانستند تشخیص دهند که مدلهای ELIZA و GPT-3.5 ماشین هستند، توانایی آنها برای تشخیص اینکه GPT-4 انسان است یا ماشین، بهتر از احتمالی نبود که به صورت تصادفی (یعنی شانسی) آن را درست تشخیص دهند.
جونز گفت: «اگرچه انسانهای واقعی در واقع موفقتر بودند و دو سوم اوقات بازپرسها را متقاعد میکردند که انسان هستند، نتایج ما نشان میدهد که در دنیای واقعی، مردم ممکن است به طور قابل اعتمادی نتوانند تشخیص دهند که با یک انسان یا یک سیستم هوش مصنوعی صحبت میکنند». «در واقع، در دنیای واقعی، مردم ممکن است کمتر از این احتمال که با یک سیستم هوش مصنوعی صحبت میکنند، آگاه باشند، بنابراین میزان فریبکاری حتی ممکن است بالاتر باشد. من فکر میکنم این میتواند پیامدهایی برای کارهایی که سیستمهای هوش مصنوعی برای آن استفاده خواهند شد، مانند خودکار کردن مشاغل روبرو با مشتری، یا استفاده برای کلاهبرداری یا اطلاعات نادرست داشته باشد.»
نتایج آزمون تورینگی که توسط جونز و برگن اجرا شد، نشان میدهد که هوش مصنوعی مکالمه ، به ویژه GPT-4، در طول مکالمات کوتاه چت به سختی از انسان قابل تشخیص هستند. این مشاهدات نشان میدهد که مردم ممکن است به زودی نسبت به افرادی که به صورت آنلاین با آنها تعامل دارند، بیاعتمادتر شوند، زیرا ممکن است به طور فزایندهای مطمئن نباشند که آنها انسان هستند یا ربات.
محققان اکنون در حال برنامهریزی برای بهروزرسانی و بازگشایی آزمون تورینگ عمومی هستند که برای این مطالعه طراحی کردهاند تا برخی فرضیههای اضافی را آزمایش کنند. کارهای آینده آنها میتواند بینش جالبتری در مورد میزان تمایز مردم بین انسانها و هوش مصنوعی مکالمه به دست آورد.
جونز افزود: «ما به اجرای یک نسخه سه نفره از بازی علاقهمند هستیم، جایی که بازپرس با یک انسان و یک سیستم هوش مصنوعی به طور همزمان صحبت میکند و باید بفهمد چه کسی چه کسی است». «ما همچنین به آزمایش سایر انواع تنظیمات هوش مصنوعی علاقهمند هستیم، برای مثال، دادن دسترسی به اخبار و آب و هوای زنده به عوامل، یا یک «یادداشتبردار» که قبل از پاسخ دادن بتوانند یادداشت بردارند. در نهایت، ما علاقهمند هستیم که بررسی کنیم آیا قابلیتهای متقاعدکننده هوش مصنوعی به سایر زمینهها، مانند متقاعد کردن مردم به دروغ، رای دادن به سیاستهای خاص یا اهدای پول به یک هدف، گسترش مییابد یا خیر.»
خطر فریب آنلاین از هوش مصنوعی مکالمه افزایش مییابد
مکالمه پیشرفته تشخیص انسان را دشوار میکند. و به حدی ماهر شدهاند که میتوانند انسانها را در مکالمات کوتاه فریب دهند. همانطور که در این مقاله بحث شد
- مطالعه اخیر دانشگاه کالیفرنیا سن دیگو نشان داد که افراد به سختی میتوانستند GPT-4، یک مدل هوش مصنوعی مکالمه پیشرفته، را از انسان در یک آزمون چت دو نفره تشخیص دهند.
- این یافتهها نگرانکننده است زیرا نشان میدهد که مردم ممکن است به زودی نتوانند تشخیص دهند که با چه کسی به صورت آنلاین صحبت میکنند، که میتواند منجر به فریب، کلاهبرداری و انتشار اطلاعات نادرست شود.
- محققان در حال بررسی راههایی برای بهبود توانایی مردم در تشخیص ربات چت ها هستند، اما مشخص نیست که آیا این امر در درازمدت امکانپذیر خواهد بود یا خیر.
تاثیر بالقوه
- بیاعتمادی به تعاملات آنلاین : با افزایش توانایی هوش مصنوعی مکالمه در تقلید از انسان، مردم ممکن است به طور کلی نسبت به تعاملات آنلاین محتاط تر شوند و این امر میتواند بر روابط و تجارت آنلاین تأثیر منفی بگذارد.
- افزایش فریب و کلاهبرداری : مجرمان میتوانند از ها برای فریب مردم به منظور افشای اطلاعات شخصی، انجام تراکنشهای مالی یا انتشار اطلاعات نادرست استفاده کنند.
- پخش اطلاعات نادرست توسط هوش مصنوعی مکالمه : میتوانند برای تولید اخبار جعلی، تبلیغات و سایر اشکال اطلاعات نادرست که تشخیص آنها از محتوای واقعی دشوار است، استفاده شوند.
اقدامات بعدی
- نیاز به تحقیقات بیشتر برای درک بهتر چگونگی عملکرد چت بات های مکالمه و نحوه شناسایی آنها وجود دارد.
- باید اقداماتی برای افزایش آگاهی عمومی در مورد خطرات هوش مصنوعی مکالمه و نحوه محافظت از خود در برابر آنها انجام شود.
- توسعه ابزارهایی برای کمک به مردم در تشخیص ربات مکالمه و محتویات تولید شده توسط آنها ضروری است.
این یک موضوع پیچیده و چالش برانگیز است که نیاز به توجه و اقدام فوری از سوی محققان، سیاستگذاران و عموم مردم دارد.
تاریخ آخرین آپدیت: ۳۰ام خرداد ۱۴۰۳