رد شدن از مرز ناآشنا و مصنوعی بودن در صدای مکالمه‌ای

February 27, 2025

Brendan IribeAnkit Kumar, and the Sesame team

چطور می‌فهمیم کسی واقعاً ما را درک کرده؟
این فهم معمولاً فقط از طریق کلمات نیست — بلکه در ظرافت‌های صداست: هیجان در حال اوج، مکثی اندیشمندانه، اطمینانی گرم و آرام.

صدا صمیمی‌ترین وسیله‌ی ارتباطی ما انسان‌هاست؛ رسانه‌ای که لایه‌های معنایی فراوانی را از طریق بی‌شمار تغییر در لحن، زیر و بمی، ریتم و احساس منتقل می‌کند.

دستیارهای صوتی دیجیتال امروزی از ویژگی‌های اساسی‌ای که آن‌ها را واقعاً کاربردی کند، بی‌بهره‌اند.
تا زمانی که نتوانیم از تمام ظرفیت‌های صدا بهره ببریم، این دستیارها نخواهند توانست به‌طور مؤثر با ما همکاری کنند.
یک دستیار شخصی که فقط با لحنی یکنواخت صحبت می‌کند، پس از فروکش کردن جذابیت اولیه، به‌سختی می‌تواند جایی دائمی در زندگی روزمره‌ی ما پیدا کند.

با گذشت زمان، این یکنواختی احساسی نه‌تنها ناامیدکننده می‌شود، بلکه به‌راستی خسته‌کننده خواهد شد.

...تجربه‌ی حضور واقعی با صدای انسان‌گونه

در سزمی، هدف ما دستیابی به «حضور واقعی صدا» است — ویژگی جادویی که تعاملات گفتاری را واقعی، درک‌شده و ارزشمند می‌سازد. ما در حال ایجاد همکاران گفتاری هستیم که تنها درخواست‌ها را پردازش نمی‌کنند؛ بلکه در گفت‌وگوهایی واقعی شرکت می‌کنند که به مرور زمان اعتماد و اطمینان را می‌سازند. با این کار، امیدواریم به پتانسیل دست‌نخورده‌ی صدا به‌عنوان بهترین رابط برای آموزش و درک دست پیدا کنیم.

...مولفه‌های اصلی

  • هوش هیجانی: درک و واکنش به زمینه‌های احساسی.

  • پویایی‌های گفتگو: زمان‌بندی طبیعی، مکث‌ها، قطع کلام و تأکیدها.

  • آگاهی متنی: تنظیم لحن و سبک متناسب با موقعیت.

  • شخصیت منسجم: حفظ حضوری هماهنگ، قابل اعتماد و مناسب

ما هنوز به آن مرحله نرسیده‌ایم

ساخت یک همراه دیجیتال با حضور واقعی صدا آسان نیست، اما ما در چندین حوزه از جمله شخصیت، حافظه، بیان احساسات و تناسب، پیشرفت مستمری داشته‌ایم.
این نسخه نمایشی، نمونه‌ای از بخشی از کارهای ما در زمینه تولید گفتار مکالمه‌ای است.
همراهان نشان داده شده در اینجا برای دوستی و بیان احساسات بهینه‌سازی شده‌اند تا پتانسیل رویکرد ما را به تصویر بکشند.

نسخه پیش‌نمایش گفتار مکالمه‌ای ما را امتحان کنید

مطلب فنی

تولید گفتار مکالمه‌ای

نویسندگان

جوهان شالکویک، آنکیت کومار، دن لیت، سفیک امره اسکیمز، زک هوداری، سینجون رز نیک، رامون سانابریا، ریون جیانگ

برای ساخت همراهان هوش مصنوعی که واقعاً تعاملی به نظر برسند، تولید گفتار باید فراتر از ایجاد صدای با کیفیت بالا باشد — باید به صورت هم‌زمان متن را درک کرده و خود را با زمینه سازگار کند. مدل‌های سنتی تبدیل متن به گفتار (TTS) مستقیماً از متن صدای گفتاری تولید می‌کنند، اما فاقد آگاهی زمینه‌ای لازم برای مکالمات طبیعی هستند. اگرچه مدل‌های اخیر صدایی بسیار شبیه به انسان تولید می‌کنند، اما با مشکل «یک به چند» مواجه‌اند: راه‌های بسیار متعددی برای گفتن یک جمله وجود دارد، اما تنها برخی از آن‌ها با یک موقعیت خاص هماهنگ هستند. بدون داشتن زمینه اضافی — از جمله لحن، ریتم و سابقه‌ی گفتگو — مدل‌ها اطلاعات کافی برای انتخاب بهترین گزینه را ندارند. گرفتن این ظرافت‌ها نیازمند استدلال در چندین جنبه از زبان و آهنگ گفتار است.

برای حل این مشکل، ما مدل گفتار مکالمه‌ای (CSM) را معرفی می‌کنیم که این مسئله را به‌صورت یک وظیفه یادگیری چندرسانه‌ای انتها به انتها با استفاده از ترنسفورمرها چارچوب‌بندی می‌کند. این مدل از سابقه‌ی گفتگو بهره می‌برد تا گفتاری طبیعی‌تر و هماهنگ‌تر تولید کند. دو نکته کلیدی از کار ما وجود دارد:
اول، CSM به‌عنوان یک مدل تک‌مرحله‌ای عمل می‌کند که باعث افزایش کارایی و بیان احساسات می‌شود.
دوم، مجموعه ارزیابی ما که برای سنجش پیشرفت در قابلیت‌های زمینه‌ای لازم است و به این واقعیت می‌پردازد که ارزیابی‌های عمومی رایج دیگر اشباع شده‌اند.

پس زمینه

یکی از روش‌های مدل‌سازی صوت با ترنسفورمرها، تبدیل شکل‌موج‌های پیوسته به توالی‌های گسسته‌ای از نشانه‌های صوتی با استفاده از توکنایزرها است. بیشتر روش‌های امروزی ([1]، [2]) بر دو نوع نشانه صوتی متکی هستند:

  • نشانه‌های معنایی (Semantic tokens):
    نمایش‌های فشرده و مستقل از گوینده که ویژگی‌های معنایی و آوایی را نشان می‌دهند. ماهیت فشرده این نشانه‌ها باعث می‌شود ویژگی‌های کلیدی گفتار را با کیفیت پایین‌تر به تصویر بکشند.

  • نشانه‌های آکوستیک (Acoustic tokens):
    کدگذاری‌های جزئیات دقیق صوتی که امکان بازسازی با کیفیت بالای صدا را فراهم می‌کنند. این نشانه‌ها معمولاً با استفاده از روش «کمی‌سازی برداری باقیمانده» (Residual Vector Quantization – RVQ) [2] تولید می‌شوند. بر خلاف نشانه‌های معنایی، نشانه‌های آکوستیک ویژگی‌های طبیعی گفتار مانند هویت و رنگ صدای خاص گوینده را حفظ می‌کنند.

استراتژی رایج این است که ابتدا نشانه‌های معنایی مدل‌سازی شده و سپس صدا با استفاده از RVQ یا روش‌های مبتنی بر انتشار (diffusion-based) تولید می‌شود. جدا کردن این مراحل، رویکردی ساختاریافته‌تر برای سنتز گفتار فراهم می‌کند — نشانه‌های معنایی نمایشی فشرده و مستقل از گوینده ارائه می‌دهند که اطلاعات زبانی و آهنگین سطح بالا را شامل می‌شود، در حالی که مرحله دوم جزئیات دقیق صوتی لازم برای تولید صدای با کیفیت بالا را بازسازی می‌کند. با این حال، این روش محدودیت مهمی دارد؛ نشانه‌های معنایی گلوگاه هستند که باید به طور کامل آهنگ گفتار (prosody) را پوشش دهند، اما تضمین این موضوع در هنگام آموزش دشوار است.

روش‌های مبتنی بر RVQ نیز چالش‌های خاص خود را دارند. مدل‌ها باید وابستگی ترتیبی بین کدبوک‌ها (codebooks) در یک فریم را در نظر بگیرند. یکی از روش‌ها، الگوی تأخیر (delay pattern) (شکل زیر) [3] است که کدبوک‌های بالاتر را به تدریج جابه‌جا می‌کند تا پیش‌بینی‌ها را بر اساس کدبوک‌های پایین‌تر در همان فریم شرطی‌سازی کند. محدودیت کلیدی این روش این است که زمان رسیدن به اولین صدای تولید شده به خوبی مقیاس‌پذیر نیست، زیرا یک توکنایزر RVQ با N کدبوک نیاز به N مرحله پایه (backbone) قبل از رمزگشایی اولین بخش صوتی دارد. در حالی که این روش برای کاربردهای آفلاین مانند کتاب‌های صوتی مناسب است، این تأخیر در سناریوی زمان واقعی مشکل‌ساز است.

مثالی از الگوی تولید با تأخیر در توکنایزر RVQ با ۴ کدبوک:

مدل گفتار مکالمه‌ای

مدل گفتار مکالمه‌ای (CSM) یک مدل چندرسانه‌ای متن و گفتار است که مستقیماً روی توکن‌های RVQ عمل می‌کند. با الهام از RQ-Transformer \[4]، ما از دو ترنسفورمر خودرگرسیو استفاده می‌کنیم. برخلاف رویکرد \[5]، ما ترنسفورمرها را در کدبوک صفر تقسیم می‌کنیم.

بخش اول که به‌عنوان «ساختار چندرسانه‌ای اصلی» (multimodal backbone) شناخته می‌شود، متن و صدا را به‌صورت درهم‌آمیخته پردازش می‌کند تا کدبوک صفر را مدل‌سازی نماید.
بخش دوم که «رمزگشای صوتی» (audio decoder) است، برای هر کدبوک یک سر خطی مجزا دارد و کدبوک‌های باقی‌مانده (N-1) را مدل‌سازی می‌کند تا گفتار را از نمایش‌های ساختار اصلی بازسازی کند.

این رمزگشا به‌مراتب کوچک‌تر از ساختار اصلی است و این امکان را فراهم می‌کند که تولید صدا با تأخیر کم انجام شود و در عین حال مدل به صورت انتها به انتها باقی بماند.

فرآیند استنتاج مدل CSM به این صورت است که توکن‌های متن (T) و صوت (A) به صورت درهم‌تنیده و به ترتیب وارد ساختار اصلی (Backbone) می‌شوند، که کدبوک سطح صفر را پیش‌بینی می‌کند. سپس رمزگشا (Decoder) سطوح ۱ تا N-1 را بر اساس کدبوک پیش‌بینی‌شده در سطح صفر نمونه‌برداری می‌کند.

توکن صوت بازسازی‌شده (A) به صورت خودرگرسیو به ساختار اصلی بازگردانده می‌شود تا مرحله بعدی انجام شود، و این روند تا زمانی که نماد پایان صدای (EOT) تولید شود، ادامه می‌یابد.

این فرآیند برای درخواست استنتاج بعدی دوباره آغاز می‌شود، که در آن صدای موقت (مانند صحبت کاربر) توسط توکن‌های درهم‌تنیده‌ی صوت و متن رونویسی‌شده نمایش داده می‌شود.

هر دو ترنسفورمر، نوعی از معماری Llama هستند. توکن‌های متن با استفاده از توکنایزر Llama \[6] تولید می‌شوند، در حالی که صوت با استفاده از Mimi، یک توکنایزر split-RVQ، پردازش می‌شود که در هر فریم با فرکانس ۱۲.۵ هرتز یک کدبوک معنایی و N-1 کدبوک آکوستیک تولید می‌کند \[5].

نمونه‌های آموزشی به صورت الگوهای درهم‌تنیده و متناوب از متن و صوت ساختاربندی شده‌اند، به طوری که هویت گوینده مستقیماً در نمایش متن رمزگذاری شده است.

محاسبه استهلاک دارایی‌ها

این طراحی در هنگام آموزش، چالش‌های زیرساختی قابل توجهی را به همراه دارد. رمزگشای صوتی باید به‌صورت خودرگرسیو، N سطح از کدبوک‌های RVQ را روی یک اندازه دسته مؤثر برابر با ‎B × S‎ پردازش کند؛ جایی که B اندازه دسته (batch size)، S طول دنباله، و N تعداد سطوح کدبوک است. این بار سنگین حافظه—even در مدل‌های کوچک—باعث کندی روند آموزش، محدود شدن مقیاس‌پذیری مدل و کاهش سرعت آزمایش‌های تحقیقاتی می‌شود، که همه‌ی این‌ها برای بهبود عملکرد بسیار حیاتی‌اند.

برای حل این چالش‌ها، ما از یک طرح محاسبه‌ی استهلاک‌شده (compute amortization) استفاده می‌کنیم که گلوگاه حافظه را کاهش می‌دهد، در حالی که دقت و کیفیت کامل کدبوک‌های RVQ حفظ می‌شود.

در این روش، رمزگشای صوتی فقط روی یک زیرمجموعه تصادفی معادل ۱/۱۶ از فریم‌های صوتی آموزش می‌بیند، در حالی که کدبوک صفر همچنان روی تمام فریم‌ها آموزش داده می‌شود.

مشاهدات ما نشان می‌دهد که با این روش، هیچ تفاوت محسوسی در خطاهای رمزگشای صوتی در طول آموزش مشاهده نمی‌شود.

فرآیند آموزش به‌روش استهلاک‌شده (Amortized Training Process):

در این روش، ترنسفورمر ستون فقرات (Backbone) سطح صفر (کدبوک صفر) را در تمام فریم‌ها مدل‌سازی می‌کند (که با رنگ آبی مشخص شده‌اند).
در مقابل، رمزگشای صوتی (Decoder) سطوح باقی‌مانده از کدبوک‌ها (از سطح ۱ تا N–1) را تنها برای یک شانزدهم از فریم‌ها که به‌صورت تصادفی انتخاب شده‌اند، پیش‌بینی می‌کند (که با رنگ سبز مشخص شده‌اند). در بخش بالایی (Top Section) نمودار، فریم‌های مشخصی که توسط رمزگشا مدل‌سازی می‌شوند و برای آن‌ها خطای آموزش (loss) محاسبه می‌شود، مشخص شده‌اند. این روش باعث صرفه‌جویی در منابع محاسباتی و حافظه می‌شود، بدون آن‌که بر دقت مدل تأثیر منفی محسوسی داشته باشد.

آزمایشات

داده‌ٔ آموزشی:
ما از یک دیتاست بزرگ شامل فایل‌های صوتی عمومی استفاده کرده‌ایم که آن‌ها را پیاده‌سازی (transcribe)، گوینده‌تفکیکی (diarize) و قطعه‌بندی (segment) کرده‌ایم. پس از اعمال فیلترهای لازم، این دیتاست شامل تقریباً یک میلیون ساعت صوت (عمدتاً به زبان انگلیسی) می‌شود.

اندازه مدل‌ها:
ما سه مدل با اندازه‌های مختلف آموزش دادیم که تفاوت آن‌ها در اندازه‌ی ساختار اصلی (Backbone) و رمزگشا (Decoder) است:

  • مدل Tiny:
    ساختار اصلی: ۱ میلیارد پارامتر
    رمزگشا: ۱۰۰ میلیون پارامتر

  • مدل Small:
    ساختار اصلی: ۳ میلیارد پارامتر
    رمزگشا: ۲۵۰ میلیون پارامتر

  • مدل Medium:
    ساختار اصلی: ۸ میلیارد پارامتر
    رمزگشا: ۳۰۰ میلیون پارامتر

هر مدل با طول دنبالهٔ ۲۰۴۸ (تقریباً معادل ۲ دقیقه صوت) و طی پنج دوره آموزشی (epoch) آموزش دیده است.

نمونه‌ها

فرازبان‌شناسی

TTS جملاتی از  پایه

کلمات خارجی

TTS جملاتی از  پایه

بیان احساسی وابسته به زمینه

نمونه‌هایی از گفتار Expresso پس از زنگ شروع

اصلاح نحوه‌ی بیان واژه‌ها

جمله‌ی «اصلاح تلفظ» یک ضبط واقعی است، سایر صداها به‌صورت مصنوعی تولید شده‌اند.

مکالمات چندگوینده‌ای

تولید یکباره با دریافت ورودی صوتی از دو گوینده

...ارزیابی

مجموعه ارزیابی ما عملکرد مدل را در چهار جنبه کلیدی اندازه‌گیری می‌کند: وفاداری به متن، استفاده از زمینه، آهنگ گفتار (پروزودی) و تأخیر (لاتنسی).

ما هم معیارهای عینی و هم ذهنی را گزارش می‌دهیم — معیارهای عینی شامل نرخ خطای کلمات (WER) و آزمایش‌های جدیدی مانند تشخیص ابهام در هم‌نویسی (homograph disambiguation) است، در حالی که ارزیابی ذهنی بر اساس مطالعه انسانی با استفاده از امتیاز میانگین نظر مقایسه‌ای (Comparative Mean Opinion Score – CMOS) و دیتاست Expresso انجام می‌شود.

...معیارهای عینی

معیارهای سنتی مانند نرخ خطای کلمات (WER) و شباهت گوینده (SIM) به حد اشباع رسیده‌اند — مدل‌های مدرن از جمله CSM اکنون عملکردی نزدیک به سطح انسانی در این معیارها دارند.

نتایج معیارهای عینی برای آزمایش‌های نرخ خطای کلمات (WER) در بالا و شباهت گوینده (SIM) در پایین، نشان‌دهنده اشباع شدن این معیارها و تطابق عملکرد مدل با سطح انسانی است.

برای ارزیابی بهتر تلفظ و درک متنی، ما مجموعه جدیدی از معیارهای مبتنی بر رونویسی آوایی معرفی می‌کنیم.

  • درک متن از طریق رفع ابهام در هم‌نویسی (Homograph Disambiguation):
    این معیار بررسی می‌کند که آیا مدل قادر است کلمات مختلفی که املای یکسان دارند را به‌درستی تلفظ کند (مثلاً کلمه «lead» که به صورت /lɛd/ به معنی «فلز» و /liːd/ به معنی «هدایت کردن» تلفظ می‌شود).

  • درک صوتی از طریق پایداری ادامه تلفظ (Pronunciation Continuation Consistency):
    این معیار بررسی می‌کند که آیا مدل در گفتار چندمرحله‌ای، تلفظ یک کلمه خاص را که چندین حالت تلفظی دارد، به صورت ثابت حفظ می‌کند. مثالی از این کلمه «route» است که ممکن است به صورت /raʊt/ یا /ruːt/ بسته به منطقه گوینده و زمینه تغییر کند.

نتایج معیارهای عینی برای آزمایش‌های رفع ابهام در هم‌نویسی (سمت چپ) و پایداری تلفظ (سمت راست)، درصد دقت تلفظ صحیح هر مدل را نشان می‌دهد. تولیدات Play.ht، Elevenlabs و OpenAI با تنظیمات پیش‌فرض و صداهای موجود در مستندات API مربوط به هرکدام انجام شده‌اند.

نمودار بالا نتایج معیارهای عینی را در سه اندازه مدل مختلف مقایسه می‌کند. برای دقت رفع ابهام در هم‌نویسی، ما ۲۰۰ نمونه گفتاری تولید کردیم که شامل ۵ هم‌نویس متفاوت — lead، bass، tear، wound، row — با ۲ حالت تلفظ برای هر کدام بود و سازگاری تلفظ را با استفاده از مدل wav2vec2-lv-60-espeak-cv-ft ارزیابی کردیم.

برای پایداری تلفظ نیز ۲۰۰ نمونه گفتاری تولید شد که ۱۰ کلمه با حالت‌های تلفظ رایج را پوشش می‌داد: aunt، data، envelope، mobile، route، vase، either، adult، often، caramel.

به طور کلی، مشاهده کردیم که عملکرد با بزرگ‌تر شدن مدل‌ها بهبود می‌یابد که این موضوع فرضیه ما را تایید می‌کند که افزایش مقیاس، سنتز گفتاری طبیعی‌تر و واقعی‌تر را تقویت می‌کند.

...معیارهای ذهنی

ما دو مطالعه امتیاز میانگین نظر مقایسه‌ای (Comparative Mean Opinion Score – CMOS) با استفاده از دیتاست Expresso انجام دادیم تا طبیعی بودن و تناسب پروزودی (آهنگ گفتار) گفتار تولیدشده توسط مدل CSM-Medium را ارزیابی کنیم. ارزیابان انسانی به صورت جفتی دو نمونه صوتی—یکی تولیدشده توسط مدل و دیگری ضبط واقعی انسان—را شنیدند و نمونه تولیدشده را بر اساس یک مقیاس ترجیح ۷ درجه‌ای نسبت به نمونه مرجع امتیاز دادند. نمونه‌های متنوع و بیان‌گر TTS در Expresso، شامل تغییرات احساسی و آهنگین، این دیتاست را به معیاری قوی برای ارزیابی تناسب با زمینه تبدیل کرده است.

در اولین مطالعه CMOS، نمونه‌های صوتی تولیدشده و انسانی بدون هیچ زمینه‌ای ارائه شدند و از شنوندگان خواسته شد «انتخاب کنند کدام اجرا طبیعی‌تر و انسانی‌تر به نظر می‌رسد.»
در مطالعه دوم CMOS، علاوه بر نمونه‌های صوتی، ۹۰ ثانیه صوت و متن زمینه‌ای قبلی نیز ارائه شد و از شنوندگان خواسته شد «انتخاب کنند کدام اجرا ادامه‌ای مناسب‌تر برای گفتگو است.»
هشتاد نفر برای شرکت در این ارزیابی دستمزد دریافت کردند و هر نفر به طور متوسط ۱۵ نمونه را امتیازدهی کردند.

نتایج ارزیابی ذهنی روی مجموعه داده Expresso.
بدون زمینه: شنوندگان بدون آگاهی از زمینه، انتخاب کردند که «کدام اجرا طبیعی‌تر و انسانی‌تر به نظر می‌رسد.»
با زمینه: شنوندگان با داشتن زمینه صوتی و متنی، انتخاب کردند که «کدام اجرا ادامه‌ای مناسب‌تر برای گفتگو است.» نسبت برد-باخت ۵۰ به ۵۰ نشان می‌دهد که شنوندگان ترجیح مشخصی بین نمونه‌های تولیدشده توسط مدل و نمونه‌های واقعی انسانی نداشتند.

نمودار بالا نرخ برد ضبط‌های صوتی واقعی انسان را در مقابل نمونه‌های گفتار تولیدشده توسط مدل CSM در هر دو مطالعه نشان می‌دهد.
بدون زمینه مکالمه‌ای (بالا)، ارزیابان انسانی تمایل مشخصی بین گفتار تولیدشده و گفتار واقعی ندارند که نشان‌دهنده اشباع در طبیعی بودن گفتار است.
با این حال، زمانی که زمینه مکالمه‌ای لحاظ می‌شود (پایین)، ارزیابان به طور مداوم ضبط‌های اصلی را ترجیح می‌دهند.
این نتایج نشان می‌دهد که همچنان شکاف قابل توجهی بین پروزودی (آهنگ و بیان) گفتار تولیدشده و گفتار انسانی در تولید گفتار مکالمه‌ای وجود دارد.

...منتشر کردن کد منبع پروژه ما به‌صورت عمومی

ما معتقدیم پیشرفت در زمینه هوش مصنوعی مکالمه‌ای باید یک تلاش جمعی باشد.
به همین منظور، ما متعهد به بازمتن‌کردن بخش‌های کلیدی تحقیقات خود هستیم تا جامعه بتواند آزمایش کند، بر پایه‌ی کار ما بسازد و آن را بهبود دهد.
مدل‌های ما تحت مجوز Apache 2.0 در دسترس قرار خواهند گرفت.

...محدودیت‌ها و کارهای آینده

مدل CSM در حال حاضر عمدتاً با داده‌های انگلیسی آموزش دیده است؛ توانایی چندزبانه‌ای به دلیل وجود داده‌های مختلط (dataset contamination) به‌صورت محدود به‌وجود آمده، اما هنوز عملکرد خوبی در این زمینه ندارد. همچنین، این مدل از اطلاعات موجود در وزن‌های مدل‌های زبان از پیش آموزش‌دیده بهره نمی‌برد.

در ماه‌های آینده قصد داریم اندازه مدل را افزایش دهیم، حجم دیتاست را گسترش دهیم و پشتیبانی از بیش از ۲۰ زبان مختلف را اضافه کنیم. همچنین برنامه داریم روش‌هایی برای استفاده از مدل‌های زبان از پیش آموزش‌دیده بررسی کنیم و به سمت مدل‌های بزرگ چندرسانه‌ای پیش برویم که دانش عمیقی از هر دو حوزه گفتار و متن دارند.

در نهایت، هرچند CSM توانایی تولید پروزودی مکالمه‌ای با کیفیت بالا را دارد، اما تنها می‌تواند محتوای متن و گفتار در یک مکالمه را مدل‌سازی کند و نمی‌تواند ساختار خود مکالمه را به‌طور کامل درک کند. مکالمات انسانی فرآیندی پیچیده شامل نوبت‌گیری، مکث‌ها، سرعت گفتار و موارد دیگر است. ما معتقدیم آینده مکالمات هوش مصنوعی در مدل‌های دوطرفه کامل (full duplex) نهفته است که بتوانند این دینامیک‌ها را به‌طور ضمنی از داده‌ها بیاموزند. این مدل‌ها نیازمند تغییرات بنیادین در کل زنجیره توسعه، از گردآوری داده‌ها تا روش‌های پساآموزشی خواهند بود و ما مشتاقانه در این مسیر پیش می‌رویم.

...به ما بپیوندید

اگر به ساختن طبیعی‌ترین، دلپذیرترین و الهام‌بخش‌ترین رابط‌های صوتی علاقه‌مندید، با ما تماس بگیرید — ما در حال جذب نیرو هستیم. فرصت‌های شغلی باز ما را بررسی کنید.