این ابزار که SynthID نام دارد، بخشی از مجموعهای از ابزارهای علامتگذاری برای خروجیهای تولیدی هوش مصنوعی است. این شرکت سال گذشته یک ابزار علامتگذاری برای تصاویر معرفی کرد و سپس از آن در ویدیوهای تولیدی توسط هوش مصنوعی نیز استفاده کرد. در ماه مه، گوگل اعلام کرد که SynthID را در برنامه Gemini و چتباتهای آنلاین خود به کار میبرد و این ابزار را به صورت رایگان در Hugging Face، یک منبع باز برای دادهها و مدلهای هوش مصنوعی، ارائه کرده است. علامتگذاریها به عنوان ابزاری مهم برای کمک به افراد در شناسایی محتوای تولید شده توسط هوش مصنوعی شناخته میشوند و میتوانند به مقابله با مشکلاتی مانند اطلاعات نادرست کمک کنند.
Pushmeet Kohli، معاون تحقیقات در گوگل دیپمایند، میگوید: «اکنون سایر توسعهدهندگان هوش مصنوعی تولیدی میتوانند از این فناوری استفاده کنند تا تشخیص دهند آیا خروجیهای متنی از مدلهای زبانی بزرگ خودشان ایجاد شده است یا خیر، و این امر ساخت مسئولانهتر هوش مصنوعی را برای تعداد بیشتری از توسعهدهندگان آسانتر میکند.»
SynthID از طریق اضافه کردن یک علامت نامرئی در زمان تولید متن توسط مدلهای هوش مصنوعی کار میکند.
مدلهای زبانی بزرگ با تجزیه زبان به «توکنها» و پیشبینی توکنی که احتمال بیشتری برای دنبال کردن توکن قبلی دارد، کار میکنند. هر توکن میتواند شامل یک کاراکتر، کلمه یا بخشی از یک عبارت باشد و به هر کدام یک درصد احتمال اختصاص داده میشود که چقدر احتمال دارد کلمه بعدی مناسب در جمله باشد.
SynthID در زمان تولید با تغییر احتمال تولید توکنها، اطلاعات اضافی را معرفی میکند. برای شناسایی علامت و تعیین اینکه آیا متن توسط ابزار هوش مصنوعی تولید شده است، SynthID امتیازات احتمالی مورد انتظار برای کلمات در متن علامتدار و بدون علامت را مقایسه میکند.
گوگل دیپمایند دریافت که استفاده از علامت SynthID کیفیت، دقت، خلاقیت یا سرعت متن تولید شده را تحت تأثیر قرار نمیدهد. این نتیجه از آزمایش گستردهای به دست آمد که عملکرد SynthID را پس از استقرار علامت در محصولات Gemini و استفاده میلیونها نفر ارزیابی کرد. کاربران در Gemini میتوانند کیفیت پاسخهای مدل هوش مصنوعی را با امتیاز مثبت یا منفی رتبهبندی کنند.
کوهلی و تیمش نتایج حدود ۲۰ میلیون پاسخ چتبات با علامت و بدون علامت را تجزیه و تحلیل کردند. آنها دریافتند که کاربران تفاوتی در کیفیت و مفید بودن بین این دو احساس نمیکنند. نتیجه این آزمایشها در مقالهای که امروز در مجله Nature منتشر شده، شرح داده شده است. در حال حاضر، SynthID برای متن فقط بر روی محتوای تولید شده توسط مدلهای گوگل کار میکند، اما امید این است که با متن باز کردن آن، دامنه ابزارهای سازگار با آن گسترش یابد.
SynthID دارای محدودیتهای دیگری نیز هست. علامت به برخی تغییرات مانند بریدن متن و ویرایشهای سبک یا بازنویسی مقاوم است، اما در مواردی که متن تولید شده با هوش مصنوعی بازنویسی یا از یک زبان به زبان دیگر ترجمه شده باشد، کمدقتتر است.
Soheil Feizi، استاد دانشگاه مریلند که آسیبپذیریهای علامتگذاری هوش مصنوعی را مطالعه کرده، میگوید که تصمیم گوگل دیپمایند برای متن باز کردن این روش علامتگذاری، گامی مثبت برای جامعه هوش مصنوعی است. «این اجازه میدهد جامعه به بررسی این تشخیصدهندهها بپردازد و استحکام آنها را در شرایط مختلف ارزیابی کند، که به درک بهتر محدودیتهای این تکنیکها کمک میکند.»
Irene Solaiman، مسئول سیاست جهانی در Hugging Face، معتقد است که علامتگذاری یک راهحل جامع نیست و برای مدلهای امنتر، نیاز به مجموعهای از اقدامات مکمل وجود دارد.