المغرب يعزز دوره القيادي عالميا في مكافحة الإرهاب بفضل خبرة وكفاءة أجهزته الأمنية والاستخباراتية    هزة ارضية تضرب نواحي إقليم الحسيمة    ارتفاع رقم معاملات السلطة المينائية طنجة المتوسط بنسبة 11 في المائة عند متم شتنبر    إيداع "أبناء المليارديرات" السجن ومتابعتهم بتهم الإغتصاب والإحتجاز والضرب والجرح واستهلاك المخدرات    بلومبرغ: زيارة الرئيس الصيني للمغرب تعكس رغبة بكين في تعزيز التعاون المشترك مع الرباط ضمن مبادرة "الحزام والطريق"    لقجع وبوريطة يؤكدان "التزام" وزارتهما بتنزيل تفعيل الطابع الرسمي للغة الأمازيغية بالمالية والخارجية    أشبال الأطلس يختتمون تصفيات "الكان" برباعية في شباك ليبيا    مؤامرات نظام تبون وشنقريحة... الشعب الجزائري الخاسر الأكبر    الرباط.. إطلاق معرض للإبداعات الفنية لموظفات وموظفي الشرطة    بوريطة: الجهود مستمرة لمواجهة ظاهرة السمسرة في مواعيد التأشيرات الأوروبية    اللقب الإفريقي يفلت من نساء الجيش    منتخب المغرب للغولف يتوج بعجمان    ‬النصيري يهز الشباك مع "فنربخشة"    الجمارك تجتمع بمهنيي النقل الدولي لمناقشة حركة التصدير والاستيراد وتحسين ظروف العمل بميناء بني انصار    عبد الله بوصوف.. النظام الجزائري من معركة كسر العظام الى معركة كسر الأقلام    نهضة بركان يتجاوز حسنية أكادير 2-1 ويوسع الفارق عن أقرب الملاحقين    عمليات تتيح فصل توائم في المغرب    المخرج المغربي الإدريسي يعتلي منصة التتويج في اختتام مهرجان أجيال السينمائي    حفل يكرم الفنان الراحل حسن ميكري بالدار البيضاء    بعد قرار توقيف نتنياهو وغالانت.. بوريل: ليس بوسع حكومات أوروبا التعامل بانتقائية مع أوامر المحكمة الجنائية الدولية    أنشيلوتي يفقد أعصابه بسبب سؤال عن الصحة العقلية لكيليان مبابي ويمتدح إبراهيم دياز    كندا تؤكد رصد أول إصابة بالسلالة الفرعية 1 من جدري القردة        المغرب يرفع حصته من سمك أبو سيف في شمال الأطلسي وسمك التونة الجاحظ ويحافظ على حصته من التونة الحمراء    التفاصيل الكاملة حول شروط المغرب لإعادة علاقاته مع إيران    الأخضر يوشح تداولات بورصة الدار البيضاء    كرة القدم النسوية.. توجيه الدعوة ل 27 لاعبة استعدادا لوديتي بوتسوانا ومالي    اغتصاب جماعي واحتجاز محامية فرنسية.. يثير الجدل في المغرب    الحسيمة تستعد لإطلاق أول وحدة لتحويل القنب الهندي القانوني    هتك عرض فتاة قاصر يجر عشرينيا للاعتقال نواحي الناظور        قمة "Sumit Showcase Morocco" لتشجيع الاستثمار وتسريع وتيرة نمو القطاع السياحي    انتخاب لطيفة الجبابدي نائبة لرئيسة شبكة نساء إفريقيات من أجل العدالة الانتقالية    توقعات أحوال الطقس ليوم غد الأحد    نمو صادرات الصناعة التقليدية المغربية    اعتقال الكاتب بوعلام صنصال من طرف النظام العسكري الجزائري.. لا مكان لحرية التعبير في العالم الآخر    بعد متابعة واعتقال بعض رواد التفاهة في مواقع التواصل الاجتماعي.. ترحيب كبير بهذه الخطوة (فيديو)    محمد خيي يتوج بجائزة أحسن ممثل في مهرجان القاهرة    المعرض الدولي للبناء بالجديدة.. دعوة إلى التوفيق بين الاستدامة البيئية والمتطلبات الاقتصادية في إنتاج مواد البناء    الطيب حمضي: الأنفلونزا الموسمية ليست مرضا مرعبا إلا أن الإصابة بها قد تكون خطيرة للغاية    مثير.. نائبة رئيس الفلبين تهدد علنا بقتل الرئيس وزوجته    ترامب يعين سكوت بيسنت وزيرا للخزانة في إدارته المقبلة    فعالية فكرية بطنجة تسلط الضوء على كتاب يرصد مسارات الملكية بالمغرب        19 قتيلا في غارات وعمليات قصف إسرائيلية فجر السبت على قطاع غزة    "السردية التاريخية الوطنية" توضع على طاولة تشريح أكاديميّين مغاربة    بعد سنوات من الحزن .. فرقة "لينكن بارك" تعود إلى الساحة بألبوم جديد    "كوب29" يمدد جلسات المفاوضات    ضربة عنيفة في ضاحية بيروت الجنوبية    بنسعيد: المسرح قلب الثقافة النابض وأداة دبلوماسية لتصدير الثقافة المغربية    طبيب ينبه المغاربة لمخاطر الأنفلونزا الموسمية ويؤكد على أهمية التلقيح    الأنفلونزا الموسمية: خطورتها وسبل الوقاية في ضوء توجيهات د. الطيب حمضي    لَنْ أقْتَلِعَ حُنْجُرَتِي وَلَوْ لِلْغِناءْ !    تناول الوجبات الثقيلة بعد الساعة الخامسة مساء له تأثيرات سلبية على الصحة (دراسة)    اليونسكو: المغرب يتصدر العالم في حفظ القرآن الكريم    بوغطاط المغربي | تصريحات خطيرة لحميد المهداوي تضعه في صدام مباشر مع الشعب المغربي والملك والدين.. في إساءة وتطاول غير مسبوقين !!!    في تنظيم العلاقة بين الأغنياء والفقراء    سطات تفقد العلامة أحمد كثير أحد مراجعها في العلوم القانونية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



الترجمة الآلية: ماذا تعرف عن اللغات التي تستعصي عليها؟

هناك أكثر من سبعة آلاف لغة في العالم، من بينها أربعة آلاف لغة مكتوبة. لكن 100 لغة فقط، أو نحو ذلك، يمكن ترجمتها باستخدام أدوات الترجمة الآلية مثل "غوغل ترانسليت". وتجرى في الوقت الحالي أبحاث جديدة واعدة لمساعدتنا في التواصل باللغات الأخرى أيضا.
لنفترض أنك عثرت على رسالة تتضمن معلومات ربما تسهم في إنقاذ حياة شخص، لكن المشكلة أنك لا تفهم كلمة واحدة من الرسالة، والأدهى من ذلك، أنك لا تعرف بأي لغة من بين الآلاف من لغات العالم، كُتبت هذه الرسالة، فماذا تفعل؟
لو كانت هذه الرسالة مكتوبة بالفرنسية أو الإسبانية، لكانت هذه المشكلة ستحل بكتابة الرسالة في محرك الترجمة الآلية وستحصل على إجابة واضحة باللغة الإنجليزية على الفور. لكن الكثير من اللغات لا تزال تستعصي على الترجمة الآلية، منها لغات يتحدث بها ملايين من الناس، مثل اللغة الولوفية واللوغندية ولغة التوي ولغة الإيوي في أفريقيا. وذلك لأن الخوارزميات التي تعتمد عليها هذه المحركات تتعلم من الترجمات البشرية، إذ تحلل ملايين الكلمات من النصوص المترجمة لتتحسن دقتها.
وهناك معين لا ينضب من هذه النصوص ببعض اللغات، مثل الإنجليزية والفرنسية والإسبانية، بفضل غزارة إنتاج المترجمين البشر بالمؤسسات متعددة الجنسيات، مثل البرلمان الكندي والأمم المتحدة والاتحاد الأوروبي، إذ ينتج هؤلاء كميات هائلة من الوثائق والمستندات المترجمة. فالبرلمان الأوروبي ينتج وحده 1.37 مليار كلمة ب 23 لغة خلال عشر سنوات.
لكن بعض اللغات، التي قد تكون واسعة الانتشار، قد لا تترجم بهذه الغزارة، ومن ثم لا يوجد الكثير من المنشورات بهذه اللغات، ولهذا تُعرف بأنها لغات قليلة المصادر. ويعتمد الذكاء الاصطناعي للتدرب على هذه اللغات على المنشورات الدينية، مثل الإنجيل المترجم بلغات عديدة. لكن هذه المعلومات ليست كافية لتدريب أجهزة الروبوت لإنتاج نصوص مترجمة بدقة في مختلف المجالات.
وبينما يتيح تطبيق "غوغل ترانسليت" للناس التواصل بنحو 108 لغات مختلفة، فإن مترجم "بينغ"، الذي طورته مايكروسوفت، يتيح التواصل بنحو 70 لغة. لكن عدد اللغات المنطوقة في العالم يتجاوز سبعة آلاف لغة، من بينها أربعة آلاف لغة على الأقل لديها نظم كتابة.
وقد يقف هذا الحاجز اللغوي عائقا أمام أي شخص يحتاج لجمع معلومات دقيقة على وجه السرعة، مثل الوكالات الاستخباراتية.
ويقول كارل روبينو، مدير برنامج بوكالة مشروعات البحوث الاستخباراتية المتطورة "إياربا"، الذراع البحثي للاستخبارات الأمريكية: "كلما زاد اهتمام الفرد بفهم العالم، زادت الحاجة للوصول إلى البيانات غير المكتوبة باللغة الإنجليزية. ونواجه الآن الكثير من التحديات التي لا تعرف الحدود، مثل انعدام الاستقرار الاقتصادي والسياسي وتفشي فيروس كورونا وتغير المناخ، ومن ثم فإن كل هذه التحديات في جوهرها متعددة اللغات".
وقد يستغرق تدريب المترجم أو المحلل الاستخباراتي على لغة جديدة سنوات عديدة، وبعد هذه السنوات قد لا يكتسب الخبرة الكافية لأداء المهمة المكلف بها. ويقول روبينو: "هناك أكثر من 500 لغة منطوقة في نيجيريا وحدها، على سبيل المثال. وقد لا يفهم خبراؤنا، حتى أشهرهم عالميا، في هذا البلد، سوى القليل منها".
وتمول وكالة "إياربا" أبحاثا لتطوير نظام للترجمة الآلية يمكنه البحث عن أي معلومات مكتوبة أو منطوقة بلغة قليلة الموارد، وترجمتها وتلخيصها.
ويتمثل هذا المشروع في محرك للبحث يمكن أن يكتب فيه المستخدم استفسارا باللغة الإنجليزية، على سبيل المثال، فتُعرض له على الفور قائمة بالمستندات الملخصة باللغة الإنجليزية مترجمة من لغة أجنبية. وإذا ضغط المستخدم على أحد هذه المستندات، سيظهر له المستند المترجم كاملا. ويشارك في المشروع فرق متنافسة من الباحثين في علوم الكمبيوتر، ونشرت أجزاء كبيرة منه بالفعل.
وترى كاثلين ماكيون، عالمة كمبيوتر بجامعة كولومبيا وتقود أحد الفرق المتنافسة، أن الغاية من هذا المشروع هي تسهيل التفاعل بين الناس من مختلف الثقافات وتبادل المزيد من المعلومات عن ثقافاتهم.
وتستخدم الفرق البحثية تقنية الشبكة العصبية الاصطناعية، أحد أشكال الذكاء الاصطناعي التي تحاكي بعض أوجه التفكير البشري. وقد قلبت نماذج الشبكات العصبية الاصطناعية الموازين في مجال معالجة اللغة في السنوات الأخيرة. فبدلا من مجرد حفظ الكلمات والجمل، تتعلم هذه الشبكات معانيها. فقد تفهم من السياق أن مفردات عديدة يمكن استخدامها للتعبير عن نفس المفهوم، حتى لو بدت في ظاهرها مختلفة.
لكن هذه النماذج عادة تحتاج لتحليل ملايين النصوص للتدرب على اللغة المراد تعلمها. ويحاول الباحثون في هذا المشروع تطوير هذه النماذج حتى تتدرب على اللغة بتحليل كميات أقل من البيانات، فالبشر في نهاية الأمر لا يحتاجون لقراءة وثائق رسمية حررت على مدى سنوات لتعلم إحدى اللغات.
وتقول ريجينا بارزيلاي، عالمة كمبيوتر بمعهد ماساتشوستس للتكنولوجيا: "عندما يتعلم البشر إحدى اللغات، فإنهم لا يحتاجون إلا لقراءة جزء ضئيل من البيانات التي تحتاجها أنظمة الترجمة الآلية اليوم للتدرب على الترجمة. ولهذا نحاول تطوير الجيل الجديد من أنظمة الترجمة الآلية التي تنتج نصوصا مترجمة بدقة دون أن تحتاج لهذا الكم الهائل من المعلومات".
ويتضمن كل فريق من الفرق البحثية مجموعات من المتخصصين لحل إحدى مشاكل النظام. وعُدلت المكونات الرئيسية، مثل البحث التلقائي وتقنية التعرف على الكلام والترجمة وتلخيص النصوص لتناسب اللغات قليلة الموارد.
ومنذ عام 2017، ركزت الفرق على ثماني لغات مختلفة، منها السواحيلية والتاغالوغية والصومالية والكازاخية.
ونجحت الفرق في جمع المعلومات المكتوبة والمنطوقة باللغات قليلة الموارد من مواقع الإنترنت في صورة مقالات ومنتديات ومقاطع فيديو. فقد أصبحت هذه المعلومات متوفرة على الإنترنت بفضل المستخدمين حول العالم الذين ينشرون محتويات بلغتهم الأم.
ويقول سكوت ميلر، عالم كمبيوتر بجامعة جنوب كاليفورنيا، ويشارك في المشروع: "إذا أردت معلومات باللغة الصومالية، ستجد مئات الملايين من الكلمات. فبإمكانك العثور على كميات كبيرة من النصوص بأي لغة تقريبا الآن على الإنترنت".
لكن هذه النصوص تكون في الغالب بلغة واحدة، بمعنى أن المقالات الصومالية، على سبيل المثال، لا تكون مصحوبة بالترجمة الإنجليزية. لكن ميلر يقول إن نماذج الشبكات العصبية قد تُدرب مسبقا على اللغات المختلفة من خلال تحليل النصوص المكتوبة بلغة واحدة فقط.
ويقال إن الشبكات العصبية الاصطناعية تتعلم أثناء عملية التدرب خصائص اللغة وتراكيبها، ومن ثم تستخدمها في عملية الترجمة. ويقول ميلر: "لا أحد يعرف التراكيب اللغوية التي تتعلمها هذه النماذج، فهناك الملايين من المعايير".
وبعد مرحلة التدريب على لغات عديدة، تتعلم نماذج الشبكات العصبية الترجمة من لغة لأخرى، بالاستعانة بالقليل من النصوص المترجمة، فربما تكفي بضع مئات الآلاف من الكلمات باللغة المراد تعلمها وما يقابلها في اللغات الأخرى.
وبعدها يكون محرك البحث متعدد اللغات قادرا على البحث عبر المعلومات المنطوقة والمكتوبة، وإن كان هذا ينطوي على تحديات عديدة. فتقنية التعرف على الكلام وتحويل الكلام إلى نصوص، تجد صعوبة عادة في تمييز الأصوات والأسماء والمناطق الجغرافية التي لم تصادفها من قبل.
ويضرب بيتر بيل، خبير تقنيات التخاطب بجامعة إدنبره، ويشارك في أحد الفرق، مثالا على ذلك ببلد قد يكون غير معروف نسبيا للغرب، وربما تعرض أحد الساسة فيه لعملية اغتيال. فإن العثور على اسم هذا السياسي في المقاطع السمعية سيكون عسيرا.
وقد تحايل بيل على هذه المشكلة بالرجوع إلى النصوص التي نُقلت عن مقاطع صوتية، والبحث عن كلمات تبدو غير واضحة لأن النظام لم يصادفها من قبل. وبفحص هذه الكلمات، قد تكون واحدة منها اسم هذا السياسي الذي كان مغمورا.
وبعد العثور على المعلومات وترجمتها، يلخص محرك البحث المعلومات للمستخدم. لكن أثناء عملية التلخيص قد ترتكب الشبكات العصبية أخطاء، يطلق عليها علماء الكمبيوتر اسم "الهلوسة".
Getty Images كسر حاجز اللغة قد يعود بمنافع عديدة، تفوق بمراحل استخدام المعلومات للأغراض الاستخباراتية
فلنفترض أنك كنت تبحث عن تقرير إخباري عن متظاهرين اقتحموا أحد المباني يوم الإثنين، لكنك قرأت في الملخص الذي ظهر لك أنهم اقتحموه يوم الخميس. ويرجع ذلك إلى أن نماذج الشبكات العصبية عندما تلخص تقريرا، تستقي المعلومات من الملايين من الصفحات التي حللتها أثناء مرحلة التدريب. وقد تتضمن هذه النصوص الكثير من الأمثلة عن محتجين يقتحمون مبان أيام الخميس، ولهذا توقعت الشبكة العصبية أن هذا ينطبق على المثال الأخير أيضا.
وقد تقوم نماذج الشبكات العصبية أيضا بإدخال تواريخ أو أرقام من تلقاء نفسها في الملخص، من قبيل "الهلوسة".
وتقول ميريلا لاباتا، عالمة كمبيوتر بجامعة إدنبره: "إن نماذج الشبكات العصبية بالغة التطور، فيمكنها حفظ الكثير من اللغات وإضافة كلمات ليست موجودة في المصدر".
وتفادت لاباتا هذه المشكلة باستخلاص كلمات مفتاحية من كل مستند، بدلا من أن تلخصها الآلة في صورة جمل، وبذلك تمنع هذه النماذج العصبية من إضافة المعلومات والاسترسال.
ويضم المشروع فريقا معنيا باللغات التي اندثرت منذ آلاف السنين. ولا شك أن هذه اللغات القديمة شحيحة المصادر، وربما لا يتبقى منها سوى أجزاء من النصوص. ويستخدم الخبراء هذه اللغات كوسيلة لتجربة التقنيات الجديدة التي قد تطبق على اللغات الحديثة قليلة الموارد.
وطور جيامينغ لو، طالب الدكتوراة بمعهد ماساتشوستس للتكنولوجيا، وفريقه خوارزميات يمكنها اكتشاف اللغات الحديثة المنحدرة من اللغات القديمة. ويغذي الفريق الخوارزميات بمعلومات بسيطة عن هذه اللغات ونبذة عامة عن التغيرات التي طرأت عليها.
واكتشف نموذج الشبكة العصبية استنادا إلى القليل من المعلومات، أن اللغة الأوغاريتية القديمة في الشرق الأقصى، وثيقة الصلة بالعبرية، وأن اللغة الإيبيرية، إحدى اللغات الأوروبية القديمة، أقرب إلى الباسكية (البشكنشية) منها إلى سائر اللغات الأوروبية.
وتقول بارزيلاي: "إن الاعتماد على كميات ضخمة من الوثائق المترجمة، يعد من مظاهر ضعف النظام، ولهذا فإن إنتاج أدوات تكنولوجية فعالة، سواء لمعالجة الرموز أو لترجمة اللغات غير المنتشرة، سيسهم في النهوض بمجال الترجمة الآلية".
وطورت الفرق نماذج من محركات البحث متعددة اللغات، وحسنت كفاءتها بإضافة لغات جديدة. ويقول روبينو: "إن هذه الأدوات التكنولوجية كفيلة بإحداث ثورة في الطرق التي يجمع بها المحللون البيانات من النصوص المكتوبة باللغات الأجنبية، إذ ستتيح للمحللين الذين لا يتحدثون سوى الإنجليزية تحليل البيانات التي لم يكونوا قادرين على قراءتها أو فهمها سابقا".
ويشارك أيضا في هذا المشروع ناطقون باللغات قليلة الموارد، إذ يحتاج هؤلاء للمعلومات المهمة المكتوبة بلغات أجنبية، لا لغرض التجسس، بل لتحسين جودة الحياة اليومية.
ويقول ديفيد إفيولوا أديلاني، طالب الدكتوراة في علوم الكمبيوتر بجامعة سارلاند الألمانية، وينحدر من نيجيريا وأحد الناطقين باللغة اليوروبية: "عندما تفشى فيروس كورونا، كنا في حاجة ماسة لترجمة النصائح الصحية الضرورية إلى لغات عديدة. واستشعرنا حينها مدى أهمية وجود أدوات تكنولوجية تساعدنا على الترجمة إلى اللغات قليلة الموارد".
ويطور أديلاني، قاعدة بيانات من اليوروبية إلى الإنجليزية في إطار مشروع "كسر الحاجز اللغوي بين متحدثي اللغات المتعددة في أفريقيا" الذي لا يهدف للربح. وأضاف أديلاني وأعضاء فريقه إلى قاعدة البيانات سيناريوهات الأفلام والأخبار والأعمال الأدبية والأحاديث العامة المترجمة إلى اليوروبية، واستخدموا قاعدة البيانات لتحسين دقة نموذج شبكة عصبية قد تدرب بالفعل على نصوص دينية، مثل منشورات جماعة شهود يهوه.
وبالتوازي مع هذه الجهود، يشارك أفراد مجتمعات في أفريقيا في تطوير قواعد بيانات بلغات أفريقية أخرى، مثل الإيوية ولغات الفون والتوي واللوغاندا.
ربما سيأتي يوم نستخدم فيه جميعا محركات البحث متعددة اللغات في حياتنا اليومية، لنكتشف معلومات من جميع أنحاء العالم بضغطة زر. لكن في الوقت الراهن، إذا أردت أن تفهم نصوصا بإحدى اللغات قليلة الموارد، فليس بوسعك إلا أن تتعلم هذه اللغة لتنضم إلى أعضاء فرق متحدثي اللغات المتعددة الذين يطورون قواعد بيانات لتحسين كفاءة أدوات وتقنيات الترجمة الآلية.
يمكنك قراءة الموضوع الأصلي على BBC Future


انقر هنا لقراءة الخبر من مصدره.