استخدمت شركة غوغل الذكاء الصنعي لإنشاء أدق برنامج لقراءة الشفاه موجود في الوقت الحالي، وجرى بناء هذا البرنامج بالتعاون بين الباحثين في قسم DeepMind للذكاء الصنعي في شركة غوغل مع جامعة أكسفورد للذكاء الصنعي. وعمل العلماء على استخدام 5 آلاف ساعة من البرامج التلفزيونية التابعة لهيئة الإذاعة البريطانية البي بي سي لتدريب الشبكة العصبية على إضافة تعليق توضيحي للقطات الفيديو بدقة تصل إلى 46.8%. ورغم أن هذه النسبة قد لا تثير الإعجاب لا سيما بالمقارنة مع معدلات دقة الذكاء الصنعي عند التدوين الصوتي، إلا أن هذه النسبة تعتبر إنجازاً كبيراً عند مقارنتها بنسبة 12.4 في المئة من الكلمات التي يمكن للعنصر البشري المحترف في قراءة الشفاه معرفتها. وتأتي هذه الأبحاث بعد قيام مجموعة أخرى من جماعة أكسفورد بالعمل على أبحاث مماثلة منشورة في وقت سابق من هذا الشهر، حيث تمكن أولئك العلماء من إنشاء برنامج لقراءة الشفاه يدعى LipNet باستخدام تقنيات ذات صلة. وحقق برنامج LipNet دقة بلغت 93.4 في المئة خلال الاختبارات، بالمقارنة مع دقة 52.3 في المئة التي حققها الإنسان البشري، حيث تم اختبار LipNet على لقطات فيديو سجلت خصيصاً واستخدمت متطوعين يتحدثون جملاً رسمية. بينما تم على سبيل المثال اختبار برنامج DeepMind على لقطات فيديو أكثر صعوبة بكثير، والتي احتوت على الاختزال الطبيعي ومحادثات مرتجلة من برامج بي بي سي السياسية. وتضمنت مقاطع الفيديو التي تم تدريب برنامج DeepMind عليها على 118 ألف جملة مختلفة و17500 كلمة فريدة من نوعها، بالمقارنة مع قاعدة بيانات مقاطع الفيديو المستخدمة في اختبار برنامج LipNet والتي تتكون من 51 كلمة فريدة. ويقترح الباحثون العاملون في DeepMind أن بإمكان البرنامج إمتلاك مجموعة من التطبيقات، بما في ذلك مساعدة الناس ضعاف السمع على فهم المحادثات. ويمكن استخدامه أيضاً لإضافة تعليق توضيحي للأفلام الصامتة أو للسماح للأشخاص بالتحكم بالمساعدين الرقميين مثل سيري أو أليكسا عن طريق ترديد بعض الكلمات للكاميرا.