
پژوهشگران گوگل، از یک مدل زبانی جدید به نام AudioPaLM رونمایی کردند که توانایی شنیدن، حرف زدن و ترجمه را دارد.
به گزارش پایگاه خبری صنایع مدرن به نقل از …، این مدل زبانی با دقت بالایی انجام شده و از ترکیب PaLM-2 و AudioLM ایجاد شده است. یکی از این مدلهای زبان مواردی مانند هویت و لحن گوینده و عملکرد آن را کنترل میکند و مدل زبانی بعدی به درک متن و گفتار میپردازد.
همان طور که میدانید AudioPaLM به طور کلی از کلمات مشترکی استفاده میکند که میتواند هم گفتار و هم متن و صدا را با تعدادی توکنهای مجزا نشان میدهد. این مدا زبانی کمک میکد تا کاربران از وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار و…را انجام میدهد.
این مدل جدید گوگل به دلیل این که دو مدل زبانی مختلف با هم ترکیب کرده است و از همین رو میتواند متن و گفتار را پردازش کند. این موضوع سبب میشود تا عملکرد این مدل جدید نسبت به سایر موارد مشابه بهتر و حرفه ای تر باشد. در حال حاضر AudioPaLM نسبت به سایر ابزارها در زمینه ترجمه گفتار عملکرد بهتر و استفاده کاربری راحتتری دارد.
این مدل زبانی جدید میتواند صداها را براساس جملات گفتاری کوتاه در بین زبانهای مختلف جابهجا کند. همچنین این مدل میتواند صداهای متفاوت را ضبط و آنها را در زبانهای مختلف مجدد تولید کنند.











