تمكن علماء في جامعة اوكسفورد من تطوير برمجية قادرة على قراءة الشفاه بدقة 93.4 في المئة وهي نسبة تفوق بكثير دقة أفضل الخبراء البشر في قراءة الشفاه. وقال العلماء ان البرمجية التي أطلقوا عليهم اسم ” لب نت ” ذات امكانات تطبيقية هائلة” منها استخدامها لتحسين اجهزة السمع التي يستخدمها ثقيلو السمع أو امكانية الحديث في الضوضاء والأماكن الصاخبة أو اضافة الكلام الى شفاه الممثلين في الأفلام الصامتة.
ولكن البرمجية يمكن ان تكون ذات استخدامات بوليسية ايضاً تتيح مراقبة ما يقوله المواطنون خارج بيوتهم عن طريق كاميرات الدائرة التلفزيونية المغلقة التى تُشاهد منصوبة في كل ركن وشارع في مدن بريطانيا أو تمكين أي احد من التطفل على أحاديث خاصة ومعرفة ما يُقال فيها. واختبر الباحثون الذين يعملون مع قسم الذكاء الاصطناعي في غوغل، البرمجية على أكثر من 30 الف شريط فيديو لأشخاص ينطقون عبارات مختلفة.
وبمرور الزمن تمكنت البرمجية من مطابقة مفردات معينة مع حركات محدَّدة للشفاه بحيث تعرف الكلمة التي تُنطق من هذه الحركات. دقة ثم عرض الباحثون اشرطة فيديو أخرى لأشخاص يتكلمون جملا كاملة فتمكنت البرمجية من معرفة كلامهم بدقة بلغت 93.4 في المئة بالمقارنة مع 52.3 في المئة هي دقة نجاح طلاب معاقين سمعياً يفهمون ما يُقال من حركة الشفاه.
وتفوقت البرمجية على برامج أخرى لقراءة الشفاه. وبخلاف البرامج السابقة فان برمجية “لب نت” هضمت العبارات بوصفها جملا كاملة وبتمكينها من وضع الكلمات في سياقها وليس تحليلها كل كلمة على انفراد استطاعت البرمجية تحقيق درجة أعلى من الدقة. كما لا تحتاج البرمجية الى تقسيم شريط الفيديو الى اشرطة منفصلة لكل كلمة.
واقتصرت الاختبارات على مجموعة محددة من اشرطة الفيديو فيها مفردات ذات سياق محدد مثل الأمر واللون والضمائر والحروف والأعداد وظروف الحال ، الخ. ولكي تتمكن البرمجية من فهم جمل أعقد وأكثر تنوعاً واشخاص ذوي لكنات مختلفة فانها تحتاج الى مجموعات أكبر بكثير من اشرطة الفيديو يتكلم فيها عدد أكبر من الأشخاص.