هوش مصنوعی جدید مایکروسافت صدای افراد را در 3 ثانیه شبیه سازی می کند

هوش مصنوعی جدید مایکروسافت صدای افراد را در 3 ثانیه شبیه سازی می کند

your_text

محققان مایکروسافت روز پنجشنبه یک مدل جدید هوش مصنوعی تبدیل متن به گفتار به نام «VALL-E» را معرفی کردند. هوش مصنوعی جدید می‌تواند صدای یک فرد را در طول 3 ثانیه‌ای شبیه ‌سازی کند. زمانی که «VALL-E» صدای خاصی را یاد گرفت، این کار را به گونه‌ای انجام می‌دهد که لحن احساسی گوینده را حفظ کند.

سازندگان «VALL-E» حدس می‌زنند که این هوش مصنوعی جدید می‌تواند برای برنامه‌های کاربردی جهت تبدیل متن به گفتار با کیفیت بالا استفاده شود. این سیستم یک قابلیت ویرایش گفتار دارد که در آن صدای شخص قابل ویرایش است. همچنین امکان ترکیب با سایر مدل‌های هوش مصنوعی مانند «GPT-3» برای ایجاد محتوای صوتی وجود دارد.

هوش مصنوعی «VALL-E» به گفته مایکروسافت، مدل زبان عصبی کدک نامیده می‌شود. این مدل از فناوری به نام «EnCodec» بهره می‌برد که متا (Meta) آن را در اکتبر 2022 معرفی کرد. برخلاف سایر روش‌های تبدیل متن به گفتار که معمولاً گفتار را با دستکاری شکل موج ترکیب می‌کنند، «VALL-E» کدهای کدک صوتی گسسته را از متن و پیام‌های صوتی تولید می‌کند. این هوش مصنوعی اساساً کارهایی که در ادامه بیان می‌شوند را ارائه می‌دهد:

همانطور که مایکروسافت در مقاله مربوط به «VALL-E» بیان می‌کند:
«برای ترکیب گفتار به صوت، «VALL-E» نشانه‌های صوتی (توکن‌ها) ایجاد می‌کند که مربوطه به نشانه‌های صوتی ضبط ثبت ‌شده 3 ثانیه‌ای باشند که به ترتیب گوینده و اطلاعات محتوا را محدود می‌کنند. در نهایت، نشانه‌های صوتی تولید شده برای سنتز شکل موج نهایی با رمزگشای کدک عصبی مربوطه استفاده می‌شوند.»
مایکروسافت قابلیت‌های سنتز گفتار «VALL-E» را بر روی یک کتابخانه صوتی به نام «LibriLight» که توسط متا مونتاژ شده است آموزش داد. این آموزش شامل 60 هزار ساعت سخنرانی به زبان انگلیسی از بیش از 7 هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی «LibriVox» استخراج شده است.

برای اینکه «VALL-E» نتیجه خوبی ارائه دهد، صدای نمونه 3 ثانیه‌ای باید دقیقاً با صدای داده‌های آموزشی مطابقت داشته باشد. در وبسایتی که نمونه «VALL-E» ارائه شده است، مایکروسافت ده‌ها نمونه صوتی از مدل هوش مصنوعی در عمل ارائه می‌دهد. در میان نمونه‌ها، «Speaker Prompt» صدای 3 ثانیه‌ای ارائه شده به «VALL-E» است که هوش مصنوعی باید از آن تقلید کند.
«Baseline» نمونه‌ای از سنتز است که با روش سنتز متن به گفتار مرسوم ارائه می‌شود و نمونه «VALL-E» خروجی از مدل «VALL-E» است. محققان تنها نمونه سه ثانیه‌ای «Speaker Prompt» و یک رشته متن را به «VALL-E» وارد کردند. بنابراین نمونه واقعیت عینی را با نمونه «VALL-E» مقایسه کنید. در برخی موارد، این دو نمونه بسیار نزدیک به هم هستند. برخی از نتایج «VALL-E» به نظر می‌رسد که توسط کامپیوتر تولید شده‌اند، اما برخی دیگر به طور بالقوه می‌توانند با گفتار انسان اشتباه گرفته شوند که هدف این مدل است.
«VALL-E» علاوه بر حفظ صدای صوتی و لحن احساسی گوینده، می‌تواند از «محیط آکوستیک» نمونه صوتی نیز تقلید کند. به عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی‌های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتز شده خود شبیه سازی می‌کند. نمونه‌های مایکروسافت نشان می‌دهند که «VALL-E» می‌تواند تغییراتی در تن صدا ایجاد کند. مایکروسافت کد «VALL-E» را برای آتست توسط دیگران ارائه نکرده است، بنابراین ما نمی‌توانیم فعلاً قابلیت‌های «VALL-E» را آزمایش کنیم. به نظر می‌رسد

محققان از آسیب اجتماعی بالقوه‌ای که این فناوری می‌تواند به همراه داشته باشد آگاه هستند. آنها می گوید: «از آنجایی که «VALL-E» می‌تواند گفتاری را ترکیب کند که هویت گوینده را حفظ نماید، ممکن است خطرات بالقوه‌ای در استفاده نادرست از مدل داشته باشد. این خطرات می‌توانند شامل جعل هویت صدا یا جعل هویت یک گوینده خاص باشد. برای کاهش چنین خطراتی، می‌توان یک مدل قابل تشخیص ایجاد کرد. ما همچنین اصول هوش مصنوعی مایکروسافت را در هنگام توسعه بیشتر مدل‌ها به کار خواهیم برد.»