مغرس : الترجمة الآلية: ماذا تعرف عن اللغات التي تستعصي عليها؟

الرجاء يشتكي آيت منا إلى القضاء بعد 40 ساعة من المداولات.. 71 سنة سجنا نافذا للمتهمين في قضية "مجموعة الخير" بورصة الدار البيضاء تستهل تداولاتها بأداء إيجابي الرباط: المنظمة العربية للطيران المدني تعقد اجتماعات مكتبها التنفيذي 28 ناجيا من تحطم طائرة بكازاخستان مسؤول روسي: المغرب ضمن الدول ال20 المهتمة بالانضمام إلى مجموعة "بريكس" التوحيد والإصلاح: نثمن تعديل المدونة بلاغ رسمي من إدارة نادي المغرب أتلتيك تطوان: توضيحات حول تصريحات المدرب عبد العزيز العامري مصرع لاعبة التزلج السويسرية صوفي هيديغر جرّاء انهيار ثلجي بعد تتويجه بطلا للشتاء.. نهضة بركان بالمحمدية لإنهاء الشطر الأول بطريقة مثالية الوداد يطرح تذاكر مباراته أمام المغرب الفاسي تأجيل محاكمة عزيز غالي إثر شكاية تتهمه بالمس بالوحدة الترابية توقعات أحوال الطقس ليوم غد الخميس ابتدائية الناظور تلزم بنكا بتسليم أموال زبون مسن مع فرض غرامة يومية الريسوني: مقترحات التعديلات الجديدة في مدونة الأسرة قد تُلزم المرأة بدفع المهر للرجل في المستقبل الحصيلة السنوية للمديرية العامة للأمن الوطني: التحفيز والتأديب الوظيفي آليات الحكامة الرشيدة برنامج يحتفي بكنوز الحرف المغربية نسخ معدلة من فطائر "مينس باي" الميلادية تخسر الرهان "ميسوجينية" سليمان الريسوني ترامب عازم على تطبيق الإعدام ضد المغتصبين لجنة: القطاع البنكي في المغرب يواصل إظهار صلابته مجلس النواب بباراغواي يصادق على قرار جديد يدعم بموجبه سيادة المغرب على أقاليمه الجنوبية باستثناء "قسد".. السلطات السورية تعلن الاتفاق على حل "جميع الفصائل المسلحة" تقرير بريطاني: المغرب عزز مكانته كدولة محورية في الاقتصاد العالمي وأصبح الجسر بين الشرق والغرب؟ ماكرون يخطط للترشح لرئاسة الفيفا بطولة إنكلترا.. ليفربول للابتعاد بالصدارة وسيتي ويونايتد لتخطي الأزمة نزار بركة: 35 مدينة ستستفيد من مشاريع تنموية استعدادا لتنظيم مونديال 2030 مجلس النواب يصادق بالأغلبية على مشروع القانون التنظيمي المتعلق بالإضراب بنحمزة: الأسرة تحظى بالأهمية في فكر أمير المؤمنين .. وسقف الاجتهاد مُطلق مجلس النواب بباراغواي يجدد دعمه لسيادة المغرب على صحرائه ضربات روسية تعطب طاقة أوكرانيا تزايد أعداد الأقمار الاصطناعية يسائل تجنب الاصطدامات ارتفاع معدل البطالة في المغرب.. لغز محير! السعدي : التعاونيات ركيزة أساسية لقطاع الاقتصاد الاجتماعي والتضامني ونجح الاتحاد في جمع كل الاشتراكيين! .. اِشهدْ يا وطن، اِشهدْ يا عالم وزير الخارجية السوري الجديد يدعو إيران لاحترام سيادة بلاده ويحذر من الفوضى الخيانة الزوجية تسفر عن إعتقال زوج وخليلته متلبسين داخل منزل بوسط الجديدة إمزورن..لقاء تشاركي مع جمعيات المجتمع المدني نحو إعداد برنامج عمل جماعة "ما قدهم الفيل زيدهوم الفيلة".. هارون الرشيد والسلطان الحسن الأول ‬برادة يدافع عن نتائج "مدارس الريادة" المخرج شعيب مسعودي يؤطر ورشة إعداد الممثل بالناظور الاعلان عن الدورة الثانية لمهرجان AZEMM'ART للفنون التشكيلية والموسيقى العلوم الاجتماعية والفن المعاصر في ندوة بمعهد الفنون الجميلة بتطوان الدورة العاشرة لمهرجان "بويا" النسائي الدولي للموسيقى في الحسيمة طبيب يبرز عوامل تفشي "بوحمرون" وينبه لمخاطر الإصابة به اليوم في برنامج "مدارات" بالإذاعة الوطنية : البحاثة محمد الفاسي : مؤرخ الأدب والفنون ومحقق التراث ما أسباب ارتفاع معدل ضربات القلب في فترات الراحة؟ الإصابة بالسرطان في أنسجة الكلى .. الأسباب والأعراض "بيت الشعر" يقدم "أنطولوجيا الزجل" خبير أمريكي يحذر من خطورة سماع دقات القلب أثناء وضع الأذن على الوسادة للطغيان وجه واحد بين الدولة و المدينة و الإدارة …فهل من معتبر …؟!!! (الجزء الأول) حماية الحياة في الإسلام تحريم الوأد والإجهاض والقتل بجميع أشكاله عبادي: المغرب ليس بمنأى عن الكوارث التي تعصف بالأمة توفيق بوعشرين يكتب.. "رواية جديدة لأحمد التوفيق: المغرب بلد علماني" توفيق بوعشرين يكتب: "رواية" جديدة لأحمد التوفيق.. المغرب بلد علماني

شكرا على الإبلاغ!

سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.

الترجمة الآلية: ماذا تعرف عن اللغات التي تستعصي عليها؟

بي بي سي العربية نشر في الأيام 24 يوم 21130

هناك أكثر من سبعة آلاف لغة في العالم، من بينها أربعة آلاف لغة مكتوبة. لكن 100 لغة فقط، أو نحو ذلك، يمكن ترجمتها باستخدام أدوات الترجمة الآلية مثل "غوغل ترانسليت". وتجرى في الوقت الحالي أبحاث جديدة واعدة لمساعدتنا في التواصل باللغات الأخرى أيضا.
لنفترض أنك عثرت على رسالة تتضمن معلومات ربما تسهم في إنقاذ حياة شخص، لكن المشكلة أنك لا تفهم كلمة واحدة من الرسالة، والأدهى من ذلك، أنك لا تعرف بأي لغة من بين الآلاف من لغات العالم، كُتبت هذه الرسالة، فماذا تفعل؟
لو كانت هذه الرسالة مكتوبة بالفرنسية أو الإسبانية، لكانت هذه المشكلة ستحل بكتابة الرسالة في محرك الترجمة الآلية وستحصل على إجابة واضحة باللغة الإنجليزية على الفور. لكن الكثير من اللغات لا تزال تستعصي على الترجمة الآلية، منها لغات يتحدث بها ملايين من الناس، مثل اللغة الولوفية واللوغندية ولغة التوي ولغة الإيوي في أفريقيا. وذلك لأن الخوارزميات التي تعتمد عليها هذه المحركات تتعلم من الترجمات البشرية، إذ تحلل ملايين الكلمات من النصوص المترجمة لتتحسن دقتها.
وهناك معين لا ينضب من هذه النصوص ببعض اللغات، مثل الإنجليزية والفرنسية والإسبانية، بفضل غزارة إنتاج المترجمين البشر بالمؤسسات متعددة الجنسيات، مثل البرلمان الكندي والأمم المتحدة والاتحاد الأوروبي، إذ ينتج هؤلاء كميات هائلة من الوثائق والمستندات المترجمة. فالبرلمان الأوروبي ينتج وحده 1.37 مليار كلمة ب 23 لغة خلال عشر سنوات.
لكن بعض اللغات، التي قد تكون واسعة الانتشار، قد لا تترجم بهذه الغزارة، ومن ثم لا يوجد الكثير من المنشورات بهذه اللغات، ولهذا تُعرف بأنها لغات قليلة المصادر. ويعتمد الذكاء الاصطناعي للتدرب على هذه اللغات على المنشورات الدينية، مثل الإنجيل المترجم بلغات عديدة. لكن هذه المعلومات ليست كافية لتدريب أجهزة الروبوت لإنتاج نصوص مترجمة بدقة في مختلف المجالات.
وبينما يتيح تطبيق "غوغل ترانسليت" للناس التواصل بنحو 108 لغات مختلفة، فإن مترجم "بينغ"، الذي طورته مايكروسوفت، يتيح التواصل بنحو 70 لغة. لكن عدد اللغات المنطوقة في العالم يتجاوز سبعة آلاف لغة، من بينها أربعة آلاف لغة على الأقل لديها نظم كتابة.
وقد يقف هذا الحاجز اللغوي عائقا أمام أي شخص يحتاج لجمع معلومات دقيقة على وجه السرعة، مثل الوكالات الاستخباراتية.
ويقول كارل روبينو، مدير برنامج بوكالة مشروعات البحوث الاستخباراتية المتطورة "إياربا"، الذراع البحثي للاستخبارات الأمريكية: "كلما زاد اهتمام الفرد بفهم العالم، زادت الحاجة للوصول إلى البيانات غير المكتوبة باللغة الإنجليزية. ونواجه الآن الكثير من التحديات التي لا تعرف الحدود، مثل انعدام الاستقرار الاقتصادي والسياسي وتفشي فيروس كورونا وتغير المناخ، ومن ثم فإن كل هذه التحديات في جوهرها متعددة اللغات".
وقد يستغرق تدريب المترجم أو المحلل الاستخباراتي على لغة جديدة سنوات عديدة، وبعد هذه السنوات قد لا يكتسب الخبرة الكافية لأداء المهمة المكلف بها. ويقول روبينو: "هناك أكثر من 500 لغة منطوقة في نيجيريا وحدها، على سبيل المثال. وقد لا يفهم خبراؤنا، حتى أشهرهم عالميا، في هذا البلد، سوى القليل منها".
وتمول وكالة "إياربا" أبحاثا لتطوير نظام للترجمة الآلية يمكنه البحث عن أي معلومات مكتوبة أو منطوقة بلغة قليلة الموارد، وترجمتها وتلخيصها.
ويتمثل هذا المشروع في محرك للبحث يمكن أن يكتب فيه المستخدم استفسارا باللغة الإنجليزية، على سبيل المثال، فتُعرض له على الفور قائمة بالمستندات الملخصة باللغة الإنجليزية مترجمة من لغة أجنبية. وإذا ضغط المستخدم على أحد هذه المستندات، سيظهر له المستند المترجم كاملا. ويشارك في المشروع فرق متنافسة من الباحثين في علوم الكمبيوتر، ونشرت أجزاء كبيرة منه بالفعل.
وترى كاثلين ماكيون، عالمة كمبيوتر بجامعة كولومبيا وتقود أحد الفرق المتنافسة، أن الغاية من هذا المشروع هي تسهيل التفاعل بين الناس من مختلف الثقافات وتبادل المزيد من المعلومات عن ثقافاتهم.
وتستخدم الفرق البحثية تقنية الشبكة العصبية الاصطناعية، أحد أشكال الذكاء الاصطناعي التي تحاكي بعض أوجه التفكير البشري. وقد قلبت نماذج الشبكات العصبية الاصطناعية الموازين في مجال معالجة اللغة في السنوات الأخيرة. فبدلا من مجرد حفظ الكلمات والجمل، تتعلم هذه الشبكات معانيها. فقد تفهم من السياق أن مفردات عديدة يمكن استخدامها للتعبير عن نفس المفهوم، حتى لو بدت في ظاهرها مختلفة.
لكن هذه النماذج عادة تحتاج لتحليل ملايين النصوص للتدرب على اللغة المراد تعلمها. ويحاول الباحثون في هذا المشروع تطوير هذه النماذج حتى تتدرب على اللغة بتحليل كميات أقل من البيانات، فالبشر في نهاية الأمر لا يحتاجون لقراءة وثائق رسمية حررت على مدى سنوات لتعلم إحدى اللغات.
وتقول ريجينا بارزيلاي، عالمة كمبيوتر بمعهد ماساتشوستس للتكنولوجيا: "عندما يتعلم البشر إحدى اللغات، فإنهم لا يحتاجون إلا لقراءة جزء ضئيل من البيانات التي تحتاجها أنظمة الترجمة الآلية اليوم للتدرب على الترجمة. ولهذا نحاول تطوير الجيل الجديد من أنظمة الترجمة الآلية التي تنتج نصوصا مترجمة بدقة دون أن تحتاج لهذا الكم الهائل من المعلومات".
ويتضمن كل فريق من الفرق البحثية مجموعات من المتخصصين لحل إحدى مشاكل النظام. وعُدلت المكونات الرئيسية، مثل البحث التلقائي وتقنية التعرف على الكلام والترجمة وتلخيص النصوص لتناسب اللغات قليلة الموارد.
ومنذ عام 2017، ركزت الفرق على ثماني لغات مختلفة، منها السواحيلية والتاغالوغية والصومالية والكازاخية.
ونجحت الفرق في جمع المعلومات المكتوبة والمنطوقة باللغات قليلة الموارد من مواقع الإنترنت في صورة مقالات ومنتديات ومقاطع فيديو. فقد أصبحت هذه المعلومات متوفرة على الإنترنت بفضل المستخدمين حول العالم الذين ينشرون محتويات بلغتهم الأم.
ويقول سكوت ميلر، عالم كمبيوتر بجامعة جنوب كاليفورنيا، ويشارك في المشروع: "إذا أردت معلومات باللغة الصومالية، ستجد مئات الملايين من الكلمات. فبإمكانك العثور على كميات كبيرة من النصوص بأي لغة تقريبا الآن على الإنترنت".
لكن هذه النصوص تكون في الغالب بلغة واحدة، بمعنى أن المقالات الصومالية، على سبيل المثال، لا تكون مصحوبة بالترجمة الإنجليزية. لكن ميلر يقول إن نماذج الشبكات العصبية قد تُدرب مسبقا على اللغات المختلفة من خلال تحليل النصوص المكتوبة بلغة واحدة فقط.
ويقال إن الشبكات العصبية الاصطناعية تتعلم أثناء عملية التدرب خصائص اللغة وتراكيبها، ومن ثم تستخدمها في عملية الترجمة. ويقول ميلر: "لا أحد يعرف التراكيب اللغوية التي تتعلمها هذه النماذج، فهناك الملايين من المعايير".
وبعد مرحلة التدريب على لغات عديدة، تتعلم نماذج الشبكات العصبية الترجمة من لغة لأخرى، بالاستعانة بالقليل من النصوص المترجمة، فربما تكفي بضع مئات الآلاف من الكلمات باللغة المراد تعلمها وما يقابلها في اللغات الأخرى.
وبعدها يكون محرك البحث متعدد اللغات قادرا على البحث عبر المعلومات المنطوقة والمكتوبة، وإن كان هذا ينطوي على تحديات عديدة. فتقنية التعرف على الكلام وتحويل الكلام إلى نصوص، تجد صعوبة عادة في تمييز الأصوات والأسماء والمناطق الجغرافية التي لم تصادفها من قبل.
ويضرب بيتر بيل، خبير تقنيات التخاطب بجامعة إدنبره، ويشارك في أحد الفرق، مثالا على ذلك ببلد قد يكون غير معروف نسبيا للغرب، وربما تعرض أحد الساسة فيه لعملية اغتيال. فإن العثور على اسم هذا السياسي في المقاطع السمعية سيكون عسيرا.
وقد تحايل بيل على هذه المشكلة بالرجوع إلى النصوص التي نُقلت عن مقاطع صوتية، والبحث عن كلمات تبدو غير واضحة لأن النظام لم يصادفها من قبل. وبفحص هذه الكلمات، قد تكون واحدة منها اسم هذا السياسي الذي كان مغمورا.
وبعد العثور على المعلومات وترجمتها، يلخص محرك البحث المعلومات للمستخدم. لكن أثناء عملية التلخيص قد ترتكب الشبكات العصبية أخطاء، يطلق عليها علماء الكمبيوتر اسم "الهلوسة".
Getty Images كسر حاجز اللغة قد يعود بمنافع عديدة، تفوق بمراحل استخدام المعلومات للأغراض الاستخباراتية
فلنفترض أنك كنت تبحث عن تقرير إخباري عن متظاهرين اقتحموا أحد المباني يوم الإثنين، لكنك قرأت في الملخص الذي ظهر لك أنهم اقتحموه يوم الخميس. ويرجع ذلك إلى أن نماذج الشبكات العصبية عندما تلخص تقريرا، تستقي المعلومات من الملايين من الصفحات التي حللتها أثناء مرحلة التدريب. وقد تتضمن هذه النصوص الكثير من الأمثلة عن محتجين يقتحمون مبان أيام الخميس، ولهذا توقعت الشبكة العصبية أن هذا ينطبق على المثال الأخير أيضا.
وقد تقوم نماذج الشبكات العصبية أيضا بإدخال تواريخ أو أرقام من تلقاء نفسها في الملخص، من قبيل "الهلوسة".
وتقول ميريلا لاباتا، عالمة كمبيوتر بجامعة إدنبره: "إن نماذج الشبكات العصبية بالغة التطور، فيمكنها حفظ الكثير من اللغات وإضافة كلمات ليست موجودة في المصدر".
وتفادت لاباتا هذه المشكلة باستخلاص كلمات مفتاحية من كل مستند، بدلا من أن تلخصها الآلة في صورة جمل، وبذلك تمنع هذه النماذج العصبية من إضافة المعلومات والاسترسال.
ويضم المشروع فريقا معنيا باللغات التي اندثرت منذ آلاف السنين. ولا شك أن هذه اللغات القديمة شحيحة المصادر، وربما لا يتبقى منها سوى أجزاء من النصوص. ويستخدم الخبراء هذه اللغات كوسيلة لتجربة التقنيات الجديدة التي قد تطبق على اللغات الحديثة قليلة الموارد.
وطور جيامينغ لو، طالب الدكتوراة بمعهد ماساتشوستس للتكنولوجيا، وفريقه خوارزميات يمكنها اكتشاف اللغات الحديثة المنحدرة من اللغات القديمة. ويغذي الفريق الخوارزميات بمعلومات بسيطة عن هذه اللغات ونبذة عامة عن التغيرات التي طرأت عليها.
واكتشف نموذج الشبكة العصبية استنادا إلى القليل من المعلومات، أن اللغة الأوغاريتية القديمة في الشرق الأقصى، وثيقة الصلة بالعبرية، وأن اللغة الإيبيرية، إحدى اللغات الأوروبية القديمة، أقرب إلى الباسكية (البشكنشية) منها إلى سائر اللغات الأوروبية.
وتقول بارزيلاي: "إن الاعتماد على كميات ضخمة من الوثائق المترجمة، يعد من مظاهر ضعف النظام، ولهذا فإن إنتاج أدوات تكنولوجية فعالة، سواء لمعالجة الرموز أو لترجمة اللغات غير المنتشرة، سيسهم في النهوض بمجال الترجمة الآلية".
وطورت الفرق نماذج من محركات البحث متعددة اللغات، وحسنت كفاءتها بإضافة لغات جديدة. ويقول روبينو: "إن هذه الأدوات التكنولوجية كفيلة بإحداث ثورة في الطرق التي يجمع بها المحللون البيانات من النصوص المكتوبة باللغات الأجنبية، إذ ستتيح للمحللين الذين لا يتحدثون سوى الإنجليزية تحليل البيانات التي لم يكونوا قادرين على قراءتها أو فهمها سابقا".
ويشارك أيضا في هذا المشروع ناطقون باللغات قليلة الموارد، إذ يحتاج هؤلاء للمعلومات المهمة المكتوبة بلغات أجنبية، لا لغرض التجسس، بل لتحسين جودة الحياة اليومية.
ويقول ديفيد إفيولوا أديلاني، طالب الدكتوراة في علوم الكمبيوتر بجامعة سارلاند الألمانية، وينحدر من نيجيريا وأحد الناطقين باللغة اليوروبية: "عندما تفشى فيروس كورونا، كنا في حاجة ماسة لترجمة النصائح الصحية الضرورية إلى لغات عديدة. واستشعرنا حينها مدى أهمية وجود أدوات تكنولوجية تساعدنا على الترجمة إلى اللغات قليلة الموارد".
ويطور أديلاني، قاعدة بيانات من اليوروبية إلى الإنجليزية في إطار مشروع "كسر الحاجز اللغوي بين متحدثي اللغات المتعددة في أفريقيا" الذي لا يهدف للربح. وأضاف أديلاني وأعضاء فريقه إلى قاعدة البيانات سيناريوهات الأفلام والأخبار والأعمال الأدبية والأحاديث العامة المترجمة إلى اليوروبية، واستخدموا قاعدة البيانات لتحسين دقة نموذج شبكة عصبية قد تدرب بالفعل على نصوص دينية، مثل منشورات جماعة شهود يهوه.
وبالتوازي مع هذه الجهود، يشارك أفراد مجتمعات في أفريقيا في تطوير قواعد بيانات بلغات أفريقية أخرى، مثل الإيوية ولغات الفون والتوي واللوغاندا.
ربما سيأتي يوم نستخدم فيه جميعا محركات البحث متعددة اللغات في حياتنا اليومية، لنكتشف معلومات من جميع أنحاء العالم بضغطة زر. لكن في الوقت الراهن، إذا أردت أن تفهم نصوصا بإحدى اللغات قليلة الموارد، فليس بوسعك إلا أن تتعلم هذه اللغة لتنضم إلى أعضاء فرق متحدثي اللغات المتعددة الذين يطورون قواعد بيانات لتحسين كفاءة أدوات وتقنيات الترجمة الآلية.
يمكنك قراءة الموضوع الأصلي على BBC Future

انقر هنا لقراءة الخبر من مصدره.