
شرکت متا به تازگی یک مدل هوش مصنوعی به نام “Voicebox” را معرفی کرده است که میتواند متن را به صدا تبدیل کند. این مدل با بیش از 50 هزار ساعت صداهای فیتلر نشده آموزش دیده است و میتواند بر اساس زمینه و متن، صداها را تکمیل کند.
به گزارش پایگاه خبری صنایع مدرن به نقل از نیوز بایت، از جمله قابلیتهای مهم Voicebox، انتقال سبک گفتار از یک زبان به زبانهای خارجی است. با ارائه نمونهای از صدای خود به همراه متن مربوطه، کاربران میتوانند از Voicebox بخواهند تا متن را با زبانهای مختلف بخواند.
توانایی Voicebox در ترجمه متن از یک زبان به زبان دیگر و حفظ شکل گفتار زبان مقصد نیز به عنوان ویژگیهای مهم این مدل ذکر شده است. تنوع بالای دادههای ورودی به این سیستم، باعث تولید صداهای طبیعیتر میشود. همچنین، صداهای تولید شده توسط Voicebox تنها با 1 درصد خطای تنزل روبهرو بوده است در حالی که این نرخ برای سایر سیستمهای تبدیل متن به صدا بین 45 تا 70 درصد است.
مزایای دیگر این مدل شامل ویرایش صدا، حذف نویز در مکالمات و اصلاح کلمات اشتباه است. با استفاده از این هوش مصنوعی، کاربران میتوانند بخشهای دارای نویز در فایل صوتی را شناسایی و Voicebox را برای تولید مجدد آن بخش استفاده کنند.
روش آموزش جدید متا با نام “هماهنگساز جریان” (Flow Matching) برای Voicebox استفاده میشود که نیاز به حجم بالایی از دادههای ورودی ندارد. نتایج بنچمارکها نشان میدهد که Voicebox از نظر خطا بهتر از بهترین سیستمهای تبدیل متن به صدا (1.9 درصد در مقابل 5.9 درصد) عمل میکند و همچنین سرعت آن تا 20 برابر سریعتر است.











