لازال الذكاء الاصطناعي يعد بالشيء الكثير في مجال نقل الكلام إلى نصوص، بعد أن كشفت شركة ميتا، عما اعتبرته "ثورة في الذكاء الاصطناعي التوليدي الخاص بالكلام". و يعد نموذج(فويس بوكس) خطوة مهمة في مجال الذكاء الاصطناعي التوليدي، وهي تتطلع إلى مواصلة استكشافها في الفضاء الصوتي ورؤية كيف يعتمد الباحثون الآخرون على عملها. وتمكنت الشركة من تطوير نموذج ذكاء اصطناعي حديث يمكنه أداء مهام إنشاء الكلام، مثل: التحرير، وأخذ العينات، والأسلوب، وهو يمتاز بأنه يحصل على تدريب خاص على القيام بذلك من خلال التعلم في السياق. كما يمكن ل(فويس بوكس)، بحسب شركة "ميتا"، إنتاج مقاطع صوتية عالية الجودة وتحرير الصوت المسجل سابقًا، مثل: إزالة أبواق السيارات، أو نباح الكلاب، ويجري كل ذلك مع الحفاظ على المحتوى ونبرة الصوت، فضلا عن كونه يمتاز بأنه متعدد اللغات أيضًا ويمكنه إنتاج الكلام بست لغات. وبخصوص المستقبل، توقعت شركة ميتا أن يكون لنماذج الذكاء الاصطناعي المتعددة الأغراض، مثل: (فويس بوكس) القدرة على إعطاء أصواتً طبيعية لمساعدين افتراضيين وشخصيات من غير اللاعبين في الميتافيرس. و يمكن لهذه النماذج السماح للأشخاص الضعاف البصر بسماع رسائل مكتوبة من الأصدقاء يقرؤها الذكاء الاصطناعي بأصواتهم، ومنح منشئي المحتوى أدوات جديدة لإنشاء المقاطع الصوتية لمقاطع الفيديو وتحريرها بسهولة، وغير ذلك الكثير. وباستخدام عينة صوتية لا تتجاوز مدتها ثانيتين، يمكن لنموذج (فويس بوكس) مطابقة نمط الصوت واستخدامه لإنشاء تقنية تحويل النص إلى كلام. و أبرزت شركة ميتا إنه يمكن لنموذج الذكاء الاصطناعي المتعدد الأغراض الجديد إعادة إنشاء جزء من الكلام قاطعته الضوضاء، أو استبدال الكلمات المنطوقة خطأً دون الحاجة إلى إعادة تسجيل الكلام بالكامل. وتتوفر شركة "ميتا" على قدرات لتحويل عينات كلام شخص ما ومقطع من النص بالإنجليزية، أو الفرنسية، أو الألمانية، أو الإسبانية، أو البولندية، أو البرتغالية، يمكن لنموذج (فويس بوكس) قراءة النص بأي من تلك اللغات، حتى عندما يكون نموذج الكلام والنص مختلفي اللغات. و ترى الشركة أنه يمكن لنموذج فويس بوكس أن يولد كلامًا أكثر تمثيلًا لكيفية تحدث الناس في العالم الحقيقي وباللغات الست التي يدعمها حاليًا.