محققان مایکروسافت روز پنجشنبه یک مدل جدید هوش مصنوعی تبدیل متن به گفتار به نام «VALL-E» را معرفی کردند. هوش مصنوعی جدید میتواند صدای یک فرد را در طول 3 ثانیهای شبیه سازی کند. زمانی که «VALL-E» صدای خاصی را یاد گرفت، این کار را به گونهای انجام میدهد که لحن احساسی گوینده را حفظ کند.
سازندگان «VALL-E» حدس میزنند که این هوش مصنوعی جدید میتواند برای برنامههای کاربردی جهت تبدیل متن به گفتار با کیفیت بالا استفاده شود. این سیستم یک قابلیت ویرایش گفتار دارد که در آن صدای شخص قابل ویرایش است. همچنین امکان ترکیب با سایر مدلهای هوش مصنوعی مانند «GPT-3» برای ایجاد محتوای صوتی وجود دارد.
هوش مصنوعی «VALL-E» به گفته مایکروسافت، مدل زبان عصبی کدک نامیده میشود. این مدل از فناوری به نام «EnCodec» بهره میبرد که متا (Meta) آن را در اکتبر 2022 معرفی کرد. برخلاف سایر روشهای تبدیل متن به گفتار که معمولاً گفتار را با دستکاری شکل موج ترکیب میکنند، «VALL-E» کدهای کدک صوتی گسسته را از متن و پیامهای صوتی تولید میکند. این هوش مصنوعی اساساً کارهایی که در ادامه بیان میشوند را ارائه میدهد:
همانطور که مایکروسافت در مقاله مربوط به «VALL-E» بیان میکند:
«برای ترکیب گفتار به صوت، «VALL-E» نشانههای صوتی (توکنها) ایجاد میکند که مربوطه به نشانههای صوتی ضبط ثبت شده 3 ثانیهای باشند که به ترتیب گوینده و اطلاعات محتوا را محدود میکنند. در نهایت، نشانههای صوتی تولید شده برای سنتز شکل موج نهایی با رمزگشای کدک عصبی مربوطه استفاده میشوند.»
مایکروسافت قابلیتهای سنتز گفتار «VALL-E» را بر روی یک کتابخانه صوتی به نام «LibriLight» که توسط متا مونتاژ شده است آموزش داد. این آموزش شامل 60 هزار ساعت سخنرانی به زبان انگلیسی از بیش از 7 هزار سخنران است که عمدتاً از کتابهای صوتی عمومی «LibriVox» استخراج شده است.
برای اینکه «VALL-E» نتیجه خوبی ارائه دهد، صدای نمونه 3 ثانیهای باید دقیقاً با صدای دادههای آموزشی مطابقت داشته باشد. در وبسایتی که نمونه «VALL-E» ارائه شده است، مایکروسافت دهها نمونه صوتی از مدل هوش مصنوعی در عمل ارائه میدهد. در میان نمونهها، «Speaker Prompt» صدای 3 ثانیهای ارائه شده به «VALL-E» است که هوش مصنوعی باید از آن تقلید کند.
«Baseline» نمونهای از سنتز است که با روش سنتز متن به گفتار مرسوم ارائه میشود و نمونه «VALL-E» خروجی از مدل «VALL-E» است. محققان تنها نمونه سه ثانیهای «Speaker Prompt» و یک رشته متن را به «VALL-E» وارد کردند. بنابراین نمونه واقعیت عینی را با نمونه «VALL-E» مقایسه کنید. در برخی موارد، این دو نمونه بسیار نزدیک به هم هستند. برخی از نتایج «VALL-E» به نظر میرسد که توسط کامپیوتر تولید شدهاند، اما برخی دیگر به طور بالقوه میتوانند با گفتار انسان اشتباه گرفته شوند که هدف این مدل است.
«VALL-E» علاوه بر حفظ صدای صوتی و لحن احساسی گوینده، میتواند از «محیط آکوستیک» نمونه صوتی نیز تقلید کند. به عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگیهای صوتی و فرکانس یک تماس تلفنی را در خروجی سنتز شده خود شبیه سازی میکند. نمونههای مایکروسافت نشان میدهند که «VALL-E» میتواند تغییراتی در تن صدا ایجاد کند. مایکروسافت کد «VALL-E» را برای آتست توسط دیگران ارائه نکرده است، بنابراین ما نمیتوانیم فعلاً قابلیتهای «VALL-E» را آزمایش کنیم. به نظر میرسد
محققان از آسیب اجتماعی بالقوهای که این فناوری میتواند به همراه داشته باشد آگاه هستند. آنها می گوید: «از آنجایی که «VALL-E» میتواند گفتاری را ترکیب کند که هویت گوینده را حفظ نماید، ممکن است خطرات بالقوهای در استفاده نادرست از مدل داشته باشد. این خطرات میتوانند شامل جعل هویت صدا یا جعل هویت یک گوینده خاص باشد. برای کاهش چنین خطراتی، میتوان یک مدل قابل تشخیص ایجاد کرد. ما همچنین اصول هوش مصنوعی مایکروسافت را در هنگام توسعه بیشتر مدلها به کار خواهیم برد.»