رد شدن از مرز ناآشنا و مصنوعی بودن در صدای مکالمهای
February 27, 2025
Brendan Iribe, Ankit Kumar, and the Sesame team
چطور میفهمیم کسی واقعاً ما را درک کرده؟
این فهم معمولاً فقط از طریق کلمات نیست — بلکه در ظرافتهای صداست: هیجان در حال اوج، مکثی اندیشمندانه، اطمینانی گرم و آرام.
صدا صمیمیترین وسیلهی ارتباطی ما انسانهاست؛ رسانهای که لایههای معنایی فراوانی را از طریق بیشمار تغییر در لحن، زیر و بمی، ریتم و احساس منتقل میکند.
دستیارهای صوتی دیجیتال امروزی از ویژگیهای اساسیای که آنها را واقعاً کاربردی کند، بیبهرهاند.
تا زمانی که نتوانیم از تمام ظرفیتهای صدا بهره ببریم، این دستیارها نخواهند توانست بهطور مؤثر با ما همکاری کنند.
یک دستیار شخصی که فقط با لحنی یکنواخت صحبت میکند، پس از فروکش کردن جذابیت اولیه، بهسختی میتواند جایی دائمی در زندگی روزمرهی ما پیدا کند.
با گذشت زمان، این یکنواختی احساسی نهتنها ناامیدکننده میشود، بلکه بهراستی خستهکننده خواهد شد.
...تجربهی حضور واقعی با صدای انسانگونه
در سزمی، هدف ما دستیابی به «حضور واقعی صدا» است — ویژگی جادویی که تعاملات گفتاری را واقعی، درکشده و ارزشمند میسازد. ما در حال ایجاد همکاران گفتاری هستیم که تنها درخواستها را پردازش نمیکنند؛ بلکه در گفتوگوهایی واقعی شرکت میکنند که به مرور زمان اعتماد و اطمینان را میسازند. با این کار، امیدواریم به پتانسیل دستنخوردهی صدا بهعنوان بهترین رابط برای آموزش و درک دست پیدا کنیم.
...مولفههای اصلی
هوش هیجانی: درک و واکنش به زمینههای احساسی.
پویاییهای گفتگو: زمانبندی طبیعی، مکثها، قطع کلام و تأکیدها.
آگاهی متنی: تنظیم لحن و سبک متناسب با موقعیت.
شخصیت منسجم: حفظ حضوری هماهنگ، قابل اعتماد و مناسب
ما هنوز به آن مرحله نرسیدهایم
ساخت یک همراه دیجیتال با حضور واقعی صدا آسان نیست، اما ما در چندین حوزه از جمله شخصیت، حافظه، بیان احساسات و تناسب، پیشرفت مستمری داشتهایم.
این نسخه نمایشی، نمونهای از بخشی از کارهای ما در زمینه تولید گفتار مکالمهای است.
همراهان نشان داده شده در اینجا برای دوستی و بیان احساسات بهینهسازی شدهاند تا پتانسیل رویکرد ما را به تصویر بکشند.
نسخه پیشنمایش گفتار مکالمهای ما را امتحان کنید
مطلب فنی
تولید گفتار مکالمهای
نویسندگان
جوهان شالکویک، آنکیت کومار، دن لیت، سفیک امره اسکیمز، زک هوداری، سینجون رز نیک، رامون سانابریا، ریون جیانگ
برای ساخت همراهان هوش مصنوعی که واقعاً تعاملی به نظر برسند، تولید گفتار باید فراتر از ایجاد صدای با کیفیت بالا باشد — باید به صورت همزمان متن را درک کرده و خود را با زمینه سازگار کند. مدلهای سنتی تبدیل متن به گفتار (TTS) مستقیماً از متن صدای گفتاری تولید میکنند، اما فاقد آگاهی زمینهای لازم برای مکالمات طبیعی هستند. اگرچه مدلهای اخیر صدایی بسیار شبیه به انسان تولید میکنند، اما با مشکل «یک به چند» مواجهاند: راههای بسیار متعددی برای گفتن یک جمله وجود دارد، اما تنها برخی از آنها با یک موقعیت خاص هماهنگ هستند. بدون داشتن زمینه اضافی — از جمله لحن، ریتم و سابقهی گفتگو — مدلها اطلاعات کافی برای انتخاب بهترین گزینه را ندارند. گرفتن این ظرافتها نیازمند استدلال در چندین جنبه از زبان و آهنگ گفتار است.
برای حل این مشکل، ما مدل گفتار مکالمهای (CSM) را معرفی میکنیم که این مسئله را بهصورت یک وظیفه یادگیری چندرسانهای انتها به انتها با استفاده از ترنسفورمرها چارچوببندی میکند. این مدل از سابقهی گفتگو بهره میبرد تا گفتاری طبیعیتر و هماهنگتر تولید کند. دو نکته کلیدی از کار ما وجود دارد:
اول، CSM بهعنوان یک مدل تکمرحلهای عمل میکند که باعث افزایش کارایی و بیان احساسات میشود.
دوم، مجموعه ارزیابی ما که برای سنجش پیشرفت در قابلیتهای زمینهای لازم است و به این واقعیت میپردازد که ارزیابیهای عمومی رایج دیگر اشباع شدهاند.
پس زمینه
یکی از روشهای مدلسازی صوت با ترنسفورمرها، تبدیل شکلموجهای پیوسته به توالیهای گسستهای از نشانههای صوتی با استفاده از توکنایزرها است. بیشتر روشهای امروزی ([1]، [2]) بر دو نوع نشانه صوتی متکی هستند:
نشانههای معنایی (Semantic tokens):
نمایشهای فشرده و مستقل از گوینده که ویژگیهای معنایی و آوایی را نشان میدهند. ماهیت فشرده این نشانهها باعث میشود ویژگیهای کلیدی گفتار را با کیفیت پایینتر به تصویر بکشند.نشانههای آکوستیک (Acoustic tokens):
کدگذاریهای جزئیات دقیق صوتی که امکان بازسازی با کیفیت بالای صدا را فراهم میکنند. این نشانهها معمولاً با استفاده از روش «کمیسازی برداری باقیمانده» (Residual Vector Quantization – RVQ) [2] تولید میشوند. بر خلاف نشانههای معنایی، نشانههای آکوستیک ویژگیهای طبیعی گفتار مانند هویت و رنگ صدای خاص گوینده را حفظ میکنند.
استراتژی رایج این است که ابتدا نشانههای معنایی مدلسازی شده و سپس صدا با استفاده از RVQ یا روشهای مبتنی بر انتشار (diffusion-based) تولید میشود. جدا کردن این مراحل، رویکردی ساختاریافتهتر برای سنتز گفتار فراهم میکند — نشانههای معنایی نمایشی فشرده و مستقل از گوینده ارائه میدهند که اطلاعات زبانی و آهنگین سطح بالا را شامل میشود، در حالی که مرحله دوم جزئیات دقیق صوتی لازم برای تولید صدای با کیفیت بالا را بازسازی میکند. با این حال، این روش محدودیت مهمی دارد؛ نشانههای معنایی گلوگاه هستند که باید به طور کامل آهنگ گفتار (prosody) را پوشش دهند، اما تضمین این موضوع در هنگام آموزش دشوار است.
روشهای مبتنی بر RVQ نیز چالشهای خاص خود را دارند. مدلها باید وابستگی ترتیبی بین کدبوکها (codebooks) در یک فریم را در نظر بگیرند. یکی از روشها، الگوی تأخیر (delay pattern) (شکل زیر) [3] است که کدبوکهای بالاتر را به تدریج جابهجا میکند تا پیشبینیها را بر اساس کدبوکهای پایینتر در همان فریم شرطیسازی کند. محدودیت کلیدی این روش این است که زمان رسیدن به اولین صدای تولید شده به خوبی مقیاسپذیر نیست، زیرا یک توکنایزر RVQ با N کدبوک نیاز به N مرحله پایه (backbone) قبل از رمزگشایی اولین بخش صوتی دارد. در حالی که این روش برای کاربردهای آفلاین مانند کتابهای صوتی مناسب است، این تأخیر در سناریوی زمان واقعی مشکلساز است.
مثالی از الگوی تولید با تأخیر در توکنایزر RVQ با ۴ کدبوک:
مدل گفتار مکالمهای
مدل گفتار مکالمهای (CSM) یک مدل چندرسانهای متن و گفتار است که مستقیماً روی توکنهای RVQ عمل میکند. با الهام از RQ-Transformer \[4]، ما از دو ترنسفورمر خودرگرسیو استفاده میکنیم. برخلاف رویکرد \[5]، ما ترنسفورمرها را در کدبوک صفر تقسیم میکنیم.
بخش اول که بهعنوان «ساختار چندرسانهای اصلی» (multimodal backbone) شناخته میشود، متن و صدا را بهصورت درهمآمیخته پردازش میکند تا کدبوک صفر را مدلسازی نماید.
بخش دوم که «رمزگشای صوتی» (audio decoder) است، برای هر کدبوک یک سر خطی مجزا دارد و کدبوکهای باقیمانده (N-1) را مدلسازی میکند تا گفتار را از نمایشهای ساختار اصلی بازسازی کند.
این رمزگشا بهمراتب کوچکتر از ساختار اصلی است و این امکان را فراهم میکند که تولید صدا با تأخیر کم انجام شود و در عین حال مدل به صورت انتها به انتها باقی بماند.
فرآیند استنتاج مدل CSM به این صورت است که توکنهای متن (T) و صوت (A) به صورت درهمتنیده و به ترتیب وارد ساختار اصلی (Backbone) میشوند، که کدبوک سطح صفر را پیشبینی میکند. سپس رمزگشا (Decoder) سطوح ۱ تا N-1 را بر اساس کدبوک پیشبینیشده در سطح صفر نمونهبرداری میکند.
توکن صوت بازسازیشده (A) به صورت خودرگرسیو به ساختار اصلی بازگردانده میشود تا مرحله بعدی انجام شود، و این روند تا زمانی که نماد پایان صدای (EOT) تولید شود، ادامه مییابد.
این فرآیند برای درخواست استنتاج بعدی دوباره آغاز میشود، که در آن صدای موقت (مانند صحبت کاربر) توسط توکنهای درهمتنیدهی صوت و متن رونویسیشده نمایش داده میشود.
هر دو ترنسفورمر، نوعی از معماری Llama هستند. توکنهای متن با استفاده از توکنایزر Llama \[6] تولید میشوند، در حالی که صوت با استفاده از Mimi، یک توکنایزر split-RVQ، پردازش میشود که در هر فریم با فرکانس ۱۲.۵ هرتز یک کدبوک معنایی و N-1 کدبوک آکوستیک تولید میکند \[5].
نمونههای آموزشی به صورت الگوهای درهمتنیده و متناوب از متن و صوت ساختاربندی شدهاند، به طوری که هویت گوینده مستقیماً در نمایش متن رمزگذاری شده است.
محاسبه استهلاک داراییها
این طراحی در هنگام آموزش، چالشهای زیرساختی قابل توجهی را به همراه دارد. رمزگشای صوتی باید بهصورت خودرگرسیو، N سطح از کدبوکهای RVQ را روی یک اندازه دسته مؤثر برابر با B × S پردازش کند؛ جایی که B اندازه دسته (batch size)، S طول دنباله، و N تعداد سطوح کدبوک است. این بار سنگین حافظه—even در مدلهای کوچک—باعث کندی روند آموزش، محدود شدن مقیاسپذیری مدل و کاهش سرعت آزمایشهای تحقیقاتی میشود، که همهی اینها برای بهبود عملکرد بسیار حیاتیاند.
برای حل این چالشها، ما از یک طرح محاسبهی استهلاکشده (compute amortization) استفاده میکنیم که گلوگاه حافظه را کاهش میدهد، در حالی که دقت و کیفیت کامل کدبوکهای RVQ حفظ میشود.
در این روش، رمزگشای صوتی فقط روی یک زیرمجموعه تصادفی معادل ۱/۱۶ از فریمهای صوتی آموزش میبیند، در حالی که کدبوک صفر همچنان روی تمام فریمها آموزش داده میشود.
مشاهدات ما نشان میدهد که با این روش، هیچ تفاوت محسوسی در خطاهای رمزگشای صوتی در طول آموزش مشاهده نمیشود.
فرآیند آموزش بهروش استهلاکشده (Amortized Training Process):
در این روش، ترنسفورمر ستون فقرات (Backbone) سطح صفر (کدبوک صفر) را در تمام فریمها مدلسازی میکند (که با رنگ آبی مشخص شدهاند).
در مقابل، رمزگشای صوتی (Decoder) سطوح باقیمانده از کدبوکها (از سطح ۱ تا N–1) را تنها برای یک شانزدهم از فریمها که بهصورت تصادفی انتخاب شدهاند، پیشبینی میکند (که با رنگ سبز مشخص شدهاند). در بخش بالایی (Top Section) نمودار، فریمهای مشخصی که توسط رمزگشا مدلسازی میشوند و برای آنها خطای آموزش (loss) محاسبه میشود، مشخص شدهاند. این روش باعث صرفهجویی در منابع محاسباتی و حافظه میشود، بدون آنکه بر دقت مدل تأثیر منفی محسوسی داشته باشد.
آزمایشات
دادهٔ آموزشی:
ما از یک دیتاست بزرگ شامل فایلهای صوتی عمومی استفاده کردهایم که آنها را پیادهسازی (transcribe)، گویندهتفکیکی (diarize) و قطعهبندی (segment) کردهایم. پس از اعمال فیلترهای لازم، این دیتاست شامل تقریباً یک میلیون ساعت صوت (عمدتاً به زبان انگلیسی) میشود.
اندازه مدلها:
ما سه مدل با اندازههای مختلف آموزش دادیم که تفاوت آنها در اندازهی ساختار اصلی (Backbone) و رمزگشا (Decoder) است:
مدل Tiny:
ساختار اصلی: ۱ میلیارد پارامتر
رمزگشا: ۱۰۰ میلیون پارامترمدل Small:
ساختار اصلی: ۳ میلیارد پارامتر
رمزگشا: ۲۵۰ میلیون پارامترمدل Medium:
ساختار اصلی: ۸ میلیارد پارامتر
رمزگشا: ۳۰۰ میلیون پارامتر
هر مدل با طول دنبالهٔ ۲۰۴۸ (تقریباً معادل ۲ دقیقه صوت) و طی پنج دوره آموزشی (epoch) آموزش دیده است.
نمونهها
فرازبانشناسی
TTS جملاتی از پایه
کلمات خارجی
TTS جملاتی از پایه
بیان احساسی وابسته به زمینه
اصلاح نحوهی بیان واژهها
مکالمات چندگویندهای
...ارزیابی
مجموعه ارزیابی ما عملکرد مدل را در چهار جنبه کلیدی اندازهگیری میکند: وفاداری به متن، استفاده از زمینه، آهنگ گفتار (پروزودی) و تأخیر (لاتنسی).
ما هم معیارهای عینی و هم ذهنی را گزارش میدهیم — معیارهای عینی شامل نرخ خطای کلمات (WER) و آزمایشهای جدیدی مانند تشخیص ابهام در همنویسی (homograph disambiguation) است، در حالی که ارزیابی ذهنی بر اساس مطالعه انسانی با استفاده از امتیاز میانگین نظر مقایسهای (Comparative Mean Opinion Score – CMOS) و دیتاست Expresso انجام میشود.
...معیارهای عینی
معیارهای سنتی مانند نرخ خطای کلمات (WER) و شباهت گوینده (SIM) به حد اشباع رسیدهاند — مدلهای مدرن از جمله CSM اکنون عملکردی نزدیک به سطح انسانی در این معیارها دارند.
برای ارزیابی بهتر تلفظ و درک متنی، ما مجموعه جدیدی از معیارهای مبتنی بر رونویسی آوایی معرفی میکنیم.
درک متن از طریق رفع ابهام در همنویسی (Homograph Disambiguation):
این معیار بررسی میکند که آیا مدل قادر است کلمات مختلفی که املای یکسان دارند را بهدرستی تلفظ کند (مثلاً کلمه «lead» که به صورت /lɛd/ به معنی «فلز» و /liːd/ به معنی «هدایت کردن» تلفظ میشود).درک صوتی از طریق پایداری ادامه تلفظ (Pronunciation Continuation Consistency):
این معیار بررسی میکند که آیا مدل در گفتار چندمرحلهای، تلفظ یک کلمه خاص را که چندین حالت تلفظی دارد، به صورت ثابت حفظ میکند. مثالی از این کلمه «route» است که ممکن است به صورت /raʊt/ یا /ruːt/ بسته به منطقه گوینده و زمینه تغییر کند.
نمودار بالا نتایج معیارهای عینی را در سه اندازه مدل مختلف مقایسه میکند. برای دقت رفع ابهام در همنویسی، ما ۲۰۰ نمونه گفتاری تولید کردیم که شامل ۵ همنویس متفاوت — lead، bass، tear، wound، row — با ۲ حالت تلفظ برای هر کدام بود و سازگاری تلفظ را با استفاده از مدل wav2vec2-lv-60-espeak-cv-ft ارزیابی کردیم.
برای پایداری تلفظ نیز ۲۰۰ نمونه گفتاری تولید شد که ۱۰ کلمه با حالتهای تلفظ رایج را پوشش میداد: aunt، data، envelope، mobile، route، vase، either، adult، often، caramel.
به طور کلی، مشاهده کردیم که عملکرد با بزرگتر شدن مدلها بهبود مییابد که این موضوع فرضیه ما را تایید میکند که افزایش مقیاس، سنتز گفتاری طبیعیتر و واقعیتر را تقویت میکند.
...معیارهای ذهنی
ما دو مطالعه امتیاز میانگین نظر مقایسهای (Comparative Mean Opinion Score – CMOS) با استفاده از دیتاست Expresso انجام دادیم تا طبیعی بودن و تناسب پروزودی (آهنگ گفتار) گفتار تولیدشده توسط مدل CSM-Medium را ارزیابی کنیم. ارزیابان انسانی به صورت جفتی دو نمونه صوتی—یکی تولیدشده توسط مدل و دیگری ضبط واقعی انسان—را شنیدند و نمونه تولیدشده را بر اساس یک مقیاس ترجیح ۷ درجهای نسبت به نمونه مرجع امتیاز دادند. نمونههای متنوع و بیانگر TTS در Expresso، شامل تغییرات احساسی و آهنگین، این دیتاست را به معیاری قوی برای ارزیابی تناسب با زمینه تبدیل کرده است.
در اولین مطالعه CMOS، نمونههای صوتی تولیدشده و انسانی بدون هیچ زمینهای ارائه شدند و از شنوندگان خواسته شد «انتخاب کنند کدام اجرا طبیعیتر و انسانیتر به نظر میرسد.»
در مطالعه دوم CMOS، علاوه بر نمونههای صوتی، ۹۰ ثانیه صوت و متن زمینهای قبلی نیز ارائه شد و از شنوندگان خواسته شد «انتخاب کنند کدام اجرا ادامهای مناسبتر برای گفتگو است.»
هشتاد نفر برای شرکت در این ارزیابی دستمزد دریافت کردند و هر نفر به طور متوسط ۱۵ نمونه را امتیازدهی کردند.
بدون زمینه: شنوندگان بدون آگاهی از زمینه، انتخاب کردند که «کدام اجرا طبیعیتر و انسانیتر به نظر میرسد.»
با زمینه: شنوندگان با داشتن زمینه صوتی و متنی، انتخاب کردند که «کدام اجرا ادامهای مناسبتر برای گفتگو است.» نسبت برد-باخت ۵۰ به ۵۰ نشان میدهد که شنوندگان ترجیح مشخصی بین نمونههای تولیدشده توسط مدل و نمونههای واقعی انسانی نداشتند.
نمودار بالا نرخ برد ضبطهای صوتی واقعی انسان را در مقابل نمونههای گفتار تولیدشده توسط مدل CSM در هر دو مطالعه نشان میدهد.
بدون زمینه مکالمهای (بالا)، ارزیابان انسانی تمایل مشخصی بین گفتار تولیدشده و گفتار واقعی ندارند که نشاندهنده اشباع در طبیعی بودن گفتار است.
با این حال، زمانی که زمینه مکالمهای لحاظ میشود (پایین)، ارزیابان به طور مداوم ضبطهای اصلی را ترجیح میدهند.
این نتایج نشان میدهد که همچنان شکاف قابل توجهی بین پروزودی (آهنگ و بیان) گفتار تولیدشده و گفتار انسانی در تولید گفتار مکالمهای وجود دارد.
...منتشر کردن کد منبع پروژه ما بهصورت عمومی
ما معتقدیم پیشرفت در زمینه هوش مصنوعی مکالمهای باید یک تلاش جمعی باشد.
به همین منظور، ما متعهد به بازمتنکردن بخشهای کلیدی تحقیقات خود هستیم تا جامعه بتواند آزمایش کند، بر پایهی کار ما بسازد و آن را بهبود دهد.
مدلهای ما تحت مجوز Apache 2.0 در دسترس قرار خواهند گرفت.
- برای دریافت بهروزرسانیها و مشارکتها، به صفحه گیتهاب ما سر بزنید.
...محدودیتها و کارهای آینده
مدل CSM در حال حاضر عمدتاً با دادههای انگلیسی آموزش دیده است؛ توانایی چندزبانهای به دلیل وجود دادههای مختلط (dataset contamination) بهصورت محدود بهوجود آمده، اما هنوز عملکرد خوبی در این زمینه ندارد. همچنین، این مدل از اطلاعات موجود در وزنهای مدلهای زبان از پیش آموزشدیده بهره نمیبرد.
در ماههای آینده قصد داریم اندازه مدل را افزایش دهیم، حجم دیتاست را گسترش دهیم و پشتیبانی از بیش از ۲۰ زبان مختلف را اضافه کنیم. همچنین برنامه داریم روشهایی برای استفاده از مدلهای زبان از پیش آموزشدیده بررسی کنیم و به سمت مدلهای بزرگ چندرسانهای پیش برویم که دانش عمیقی از هر دو حوزه گفتار و متن دارند.
در نهایت، هرچند CSM توانایی تولید پروزودی مکالمهای با کیفیت بالا را دارد، اما تنها میتواند محتوای متن و گفتار در یک مکالمه را مدلسازی کند و نمیتواند ساختار خود مکالمه را بهطور کامل درک کند. مکالمات انسانی فرآیندی پیچیده شامل نوبتگیری، مکثها، سرعت گفتار و موارد دیگر است. ما معتقدیم آینده مکالمات هوش مصنوعی در مدلهای دوطرفه کامل (full duplex) نهفته است که بتوانند این دینامیکها را بهطور ضمنی از دادهها بیاموزند. این مدلها نیازمند تغییرات بنیادین در کل زنجیره توسعه، از گردآوری دادهها تا روشهای پساآموزشی خواهند بود و ما مشتاقانه در این مسیر پیش میرویم.
...به ما بپیوندید
اگر به ساختن طبیعیترین، دلپذیرترین و الهامبخشترین رابطهای صوتی علاقهمندید، با ما تماس بگیرید — ما در حال جذب نیرو هستیم. فرصتهای شغلی باز ما را بررسی کنید.