گفتگو با هوش مصنوعی مکالمه

گفتگو با انسان یا هوش مصنوعی مکالمه؟ به کدام یک می توان اعتماد کرد؟!

اخبار کامپیوتر
زمان مطالعه: 6 دقیقه
4/5 - (1 امتیاز)

هوش مصنوعی مکالمه (LLM) مانند GPT-4 می‌توانند متون و پاسخ‌هایی تولید کنند که به سختی از نوشته‌های انسان قابل تشخیص هستند. محققان دانشگاه کالیفرنیا سن دیگو با اجرای یک آزمون تورینگ نشان دادند که افراد ممکن است که GPT-4 را از انسان در مکالمات کوتاه چت تشخیص ندهند. در این مقاله از سایت Abazi قصد داریم به بحث در این باره بپردازیم.

در این مطالعه، محققان توانایی افراد را در تشخیص GPT-4 از یک انسان در یک آزمون تورینگ ارزیابی کردند. در یک آزمون تورینگ، افراد با یک موجود ناشناخته (در این مورد، GPT-4 یا یک انسان) تعامل می‌کنند و باید قضاوت کنند که آیا آن موجود انسان است یا خیر.

نتایج نشان داد که افراد در 46 درصد موارد می‌توانستند GPT-4 را از انسان تشخیص دهند. به عبارت دیگر، GPT-4 در 54 درصد موارد توانست انسان‌ها را فریب دهد. این یافته‌ها نشان می‌دهد که GPT-4 در تقلید از مکالمه انسان بسیار ماهر است و در آینده ممکن است تشخیص انسان از ماشین در تعاملات آنلاین دشوارتر شود.

یافته‌های محققان نشان می‌دهد که مردم ممکن است در آینده به افرادی که به صورت آنلاین با آنها تعامل دارند بی‌اعتمادتر شوند. دانشمندان در حال برنامه‌ریزی برای انجام آزمایش‌های بیشتر برای بررسی قابلیت‌های هوش مصموعی مکالمه هستند.

یافته های دانشمندان

هوش مصنوعی مکالمه (LLM) مانند مدل GPT-4 که زیربنای پلتفرم گفتگوی پرکاربرد چت‌جی‌پی‌تی است، کاربران را با توانایی خود در درک دستورات نوشتاری و تولید پاسخ‌های مناسب به زبان‌های مختلف شگفت‌زده کرده‌اند. بنابراین، برخی از ما ممکن است تعجب کنیم: آیا متون و پاسخ‌های تولید شده توسط این مدل‌ها آنقدر واقعی هستند که بتوان آن‌ها را با نوشته‌های انسان اشتباه گرفت؟

پژوهشگران دانشگاه کالیفرنیا سن دیگو اخیراً با اجرای یک آزمون تورینگ، روشی معروف به نام دانشمند کامپیوتر آلن تورینگ، که برای ارزیابی میزان هوشمندی انسان‌گونه یک ماشین طراحی شده است، به دنبال پاسخ به این سوال برآمدند.

یافته‌های این آزمایش که در مقاله‌ای پیش‌چاپ‌شده در سرور arXiv شرح داده شده است، نشان می‌دهد که افراد در هنگام تعامل با مدل GPT-4 و یک فرد واقعی به‌عنوان بخشی از یک مکالمه دو نفره، تشخیص آن‌ها را دشوار می‌دانند.

کامرون جونز، هم‌نویسنده این مقاله گفت: «ایده اصلی این مقاله در واقع از کلاسی نشأت گرفت که بن در مورد هوش مصنوعی مکالمه برگزار می‌کرد.» «ما در هفته اول چند مقاله کلاسیک در مورد آزمون تورینگ خواندیم و در مورد اینکه آیا یک هوش مصنوعی مکالمه می‌تواند آن را پاس کند و اینکه آیا پاس کردنش مهم است یا نه بحث کردیم. تا جایی که من می‌دانستم، در آن زمان کسی تلاش نکرده بود، بنابراین تصمیم گرفتم آزمایشی را برای تست این موضوع به عنوان پروژه کلاسی خود بسازم، و سپس به اجرای اولین آزمایش اکتشافی عمومی پرداختیم.»

صحبت های کامرون جونز

آزمون تورینگ جدید درباره هوش مصنوعی مکالمه

اولین مطالعه‌ای که توسط جونز انجام شد و تحت نظارت برگن، استاد علوم شناختی در دانشگاه کالیفرنیا سن دیگو، انجام شد، نتایج جالبی به دست داد و نشان داد که GPT-4 می‌تواند در حدود 50 درصد از تعاملات به‌عنوان انسان جا بزند. با این حال، آزمایش اکتشافی آن‌ها برخی از متغیرهایی را که می‌توانست بر یافته‌ها تأثیر بگذارد به خوبی کنترل نمی‌کرد، بنابراین آن‌ها تصمیم گرفتند یک آزمایش دوم انجام دهند که نتایج آن در مقاله اخیرشان ارائه شده است.

جونز گفت: «در حالی که در حال اجرای مطالعات بودیم، متوجه شدیم که افراد دیگری نیز در این زمینه کارهای عالی انجام می‌دهند، از جمله بازی «انسان یا نه» Jannai و همکارانش.» «ما یک نسخه آنلاین دو نفره از بازی ایجاد کردیم که در آن شرکت‌کنندگان انسان با یک انسان دیگر یا یک مدل هوش مصنوعی جفت می‌شدند.»

در طول هر دور از بازی دو نفره که جونز و همکارانش استفاده کردند، یک بازپرس انسان با یک «شاهد» که می‌تواند انسان یا یک عامل هوش مصنوعی باشد، تعامل می‌کند. بازپرس از شاهد سؤالاتی می‌پرسد تا سعی کند تشخیص دهد که او انسان است یا نه.

آزمایش تورینگ

نتایج آزمایش

مکالمات تا پنج دقیقه به طول انجامید و در پایان، بازپرس درباره اینکه آیا شاهد را انسان یا هوش مصنوعی می‌دانست، قضاوت کرد. جونز توضیح داد: «در طول این پنج دقیقه، شرکت‌کنندگان می‌توانستند در مورد هر چیزی که می‌خواهند صحبت کنند (به جز گفتن حرف‌های توهین‌آمیز، که ما از فیلتری برای جلوگیری از آن استفاده کردیم)».

در این بازی دو نفره رایانه‌ای، محققان از سه هوش مصنوعی مکالمه مختلف به عنوان شاهد بالقوه استفاده کردند، یعنی مدل‌های GPT-4، GPT 3.5 و ELIZA. آنها دریافتند که در حالی که کاربران اغلب می‌توانستند تشخیص دهند که مدل‌های ELIZA و GPT-3.5 ماشین هستند، توانایی آنها برای تشخیص اینکه GPT-4 انسان است یا ماشین، بهتر از احتمالی نبود که به صورت تصادفی (یعنی شانسی) آن را درست تشخیص دهند.

جونز گفت: «اگرچه انسان‌های واقعی در واقع موفق‌تر بودند و دو سوم اوقات بازپرس‌ها را متقاعد می‌کردند که انسان هستند، نتایج ما نشان می‌دهد که در دنیای واقعی، مردم ممکن است به طور قابل اعتمادی نتوانند تشخیص دهند که با یک انسان یا یک سیستم هوش مصنوعی صحبت می‌کنند». «در واقع، در دنیای واقعی، مردم ممکن است کمتر از این احتمال که با یک سیستم هوش مصنوعی صحبت می‌کنند، آگاه باشند، بنابراین میزان فریبکاری حتی ممکن است بالاتر باشد. من فکر می‌کنم این می‌تواند پیامدهایی برای کارهایی که سیستم‌های هوش مصنوعی برای آن استفاده خواهند شد، مانند خودکار کردن مشاغل روبرو با مشتری، یا استفاده برای کلاهبرداری یا اطلاعات نادرست داشته باشد.»

نتایج آزمون تورینگی که توسط جونز و برگن اجرا شد، نشان می‌دهد که هوش مصنوعی مکالمه ، به ویژه GPT-4، در طول مکالمات کوتاه چت به سختی از انسان قابل تشخیص هستند. این مشاهدات نشان می‌دهد که مردم ممکن است به زودی نسبت به افرادی که به صورت آنلاین با آن‌ها تعامل دارند، بی‌اعتمادتر شوند، زیرا ممکن است به طور فزاینده‌ای مطمئن نباشند که آن‌ها انسان هستند یا ربات.

محققان اکنون در حال برنامه‌ریزی برای به‌روزرسانی و بازگشایی آزمون تورینگ عمومی هستند که برای این مطالعه طراحی کرده‌اند تا برخی فرضیه‌های اضافی را آزمایش کنند. کارهای آینده آنها می‌تواند بینش جالب‌تری در مورد میزان تمایز مردم بین انسان‌ها و هوش مصنوعی مکالمه به دست آورد.

جونز افزود: «ما به اجرای یک نسخه سه نفره از بازی علاقه‌مند هستیم، جایی که بازپرس با یک انسان و یک سیستم هوش مصنوعی به طور همزمان صحبت می‌کند و باید بفهمد چه کسی چه کسی است». «ما همچنین به آزمایش سایر انواع تنظیمات هوش مصنوعی علاقه‌مند هستیم، برای مثال، دادن دسترسی به اخبار و آب و هوای زنده به عوامل، یا یک «یادداشت‌بردار» که قبل از پاسخ دادن بتوانند یادداشت بردارند. در نهایت، ما علاقه‌مند هستیم که بررسی کنیم آیا قابلیت‌های متقاعدکننده هوش مصنوعی به سایر زمینه‌ها، مانند متقاعد کردن مردم به دروغ، رای دادن به سیاست‌های خاص یا اهدای پول به یک هدف، گسترش می‌یابد یا خیر.»

خطر فریب آنلاین از هوش مصنوعی مکالمه افزایش می‌یابد

مکالمه پیشرفته تشخیص انسان را دشوار می‌کند. و به حدی ماهر شده‌اند که می‌توانند انسان‌ها را در مکالمات کوتاه فریب دهند. همانطور که در این مقاله بحث شد

  • مطالعه اخیر دانشگاه کالیفرنیا سن دیگو نشان داد که افراد به سختی می‌توانستند GPT-4، یک مدل هوش مصنوعی مکالمه پیشرفته، را از انسان در یک آزمون چت دو نفره تشخیص دهند.

  • این یافته‌ها نگران‌کننده است زیرا نشان می‌دهد که مردم ممکن است به زودی نتوانند تشخیص دهند که با چه کسی به صورت آنلاین صحبت می‌کنند، که می‌تواند منجر به فریب، کلاهبرداری و انتشار اطلاعات نادرست شود.

  • محققان در حال بررسی راه‌هایی برای بهبود توانایی مردم در تشخیص ربات چت ها هستند، اما مشخص نیست که آیا این امر در درازمدت امکان‌پذیر خواهد بود یا خیر.
افزایش توانایی ربات چت ها

تاثیر بالقوه

  • بی‌اعتمادی به تعاملات آنلاین : با افزایش توانایی هوش مصنوعی مکالمه در تقلید از انسان، مردم ممکن است به طور کلی نسبت به تعاملات آنلاین محتاط ‌تر شوند و این امر می‌تواند بر روابط و تجارت آنلاین تأثیر منفی بگذارد.
  • افزایش فریب و کلاهبرداری : مجرمان می‌توانند از ها برای فریب مردم به منظور افشای اطلاعات شخصی، انجام تراکنش‌های مالی یا انتشار اطلاعات نادرست استفاده کنند.
  • پخش اطلاعات نادرست توسط هوش مصنوعی مکالمه : می‌توانند برای تولید اخبار جعلی، تبلیغات و سایر اشکال اطلاعات نادرست که تشخیص آنها از محتوای واقعی دشوار است، استفاده شوند.
پخش اطلاعات نادرست توسط هوش مصنوعی

اقدامات بعدی

  • نیاز به تحقیقات بیشتر برای درک بهتر چگونگی عملکرد چت بات های مکالمه و نحوه شناسایی آنها وجود دارد.
  • باید اقداماتی برای افزایش آگاهی عمومی در مورد خطرات هوش مصنوعی مکالمه و نحوه محافظت از خود در برابر آنها انجام شود.
  • توسعه ابزارهایی برای کمک به مردم در تشخیص ربات مکالمه و محتویات تولید شده توسط آنها ضروری است.

این یک موضوع پیچیده و چالش برانگیز است که نیاز به توجه و اقدام فوری از سوی محققان، سیاستگذاران و عموم مردم دارد.

تاریخ آخرین آپدیت:  ۳۰ام خرداد ۱۴۰۳

پایان

پست های مرتبط

دیدگاهتان را بنویسید