تُعد الكتابة باليد من بين المهارات القديمة التي طورها الإنسان؛ ولعل أقدم الآثار المكتوبة هي تلك التي عثر عليها في العراق. ويظهر على هذه الموجودات الأثرية المكتوبة، التي يُعتقد أن تاريخها يعود إلى أكثر من 5 آلاف عام، الكتابة باللغة السومرية. واليوم، بعد مرور آلاف السنين، وحتى مع التقدم التقني الذي حققته البشرية وتمكنها من تطوير تكنولوجيات مثل لوحات مفاتيح الكتابة وبرامج تحويل الكلام إلى نص، ما زال الكثيرون يفضلون أن تكون اللغة المقروءة مكتوبة بخط اليد كما فعل الإنسان أول مرة.
وبهدف مساعدة مناصري المحافظة على الكتابة بخط اليد، يعمل فريق من الباحثين في جامعة محمد بن زايد للذكاء الاصطناعي على تطوير برنامج ذكاء اصطناعي يجمع بين التقنيات القديمة والمعاصرة، ويمكنه تعلم نمط الكتابة اليدوية لشخص معين وإنتاج نص مكتوب على نحو يشبه الكتابة بخط اليد.
وقد حصل مؤخراً الباحثون الذين طوروا هذا الابتكار على براءة اختراع من “مكتب الولايات المتحدة لبراءات الاختراع والعلامات التجارية”، حيث يمكن لهذا الاختراع أن يساعد الأشخاص الذين يعانون من إصابات تمنعهم من استخدام القلم. كما يمكن استخدامه بكفاءة لتوليد كمية كبيرة من البيانات لتحسين قدرة نماذج تعلم الآلة على معالجة النصوص المكتوبة بخط اليد.
مجرد فضول علمي؟!
لقد بدأت رحلة تطوير هذا الاختراع، وكأي مشروع بحثي – حسب هشام شولاكال، الأستاذ المساعد في قسم الرؤية الحاسوبية في الجامعة وأحد المشاركين في تطوير هذه التكنولوجيا الجديدة – بمجرد فضول علمي: “أردنا فقط أن نعرف إذا ما كان بإمكاننا تغذية نموذج ذكاء اصطناعي بعينات مكتوبة بخط يد شخص، والنظر في ما إذا كان النموذج سيكون قادراً على التعرف على نمط خط يد ذلك الشخص ومن ثم كتابة أي شيء وفق النمط نفسه”.
أول النتائج البحثية المبدئية ضمن هذا المشروع التي توصل إليها تشولاكال وزملاؤه تعود إلى عام 2021، والتي قدمها الفريق خلال أعمال المؤتمر الدولي للرؤية الحاسوبية.
ويتكون الفريق البحثي الذي أسهم في هذا الإنجاز من د. راو محمد أنور، أستاذ مساعد في قسم الرؤية الحاسوبية؛ و د. سلمان خان، أستاذ مشارك في الرؤية الحاسوبية ونائب رئيس قسم الرؤية الحاسوبية؛ د. فهد شهباز خان، أستاذ الرؤية الحاسوبية؛ ود. أنكان كومار بونيا ود. مبارك شاه من جامعة سنترال فلوريدا.
وقد ألقى الفريق البحثي خلال أعمال “المؤتمر الدولي للرؤية الحاسوبية” الذي شارك فيه عام 2021 الضوء على المقاربات السابقة التي حاولت محاكاة نمط الكتابة باليد التي تم تطويرها باستخدام تقنية تعلم الآلة المعروفة باسم “الشبكة الخصومية التوليدية”.
الملاحظ، عموماً، هو أن تقنية “الشبكة الخصومية التوليدية” يمكنها محاكاة نمط خط اليد – فعلى سبيل المثال، يمكن لهذه التقنية محاكاة درجة ميلان الخط الذي يكتب به الشخص الحروف، أو درجة سمك الخط؛ غير أن هذه التقنية تواجه صعوبة عندما يتعلق الأمر بمحاكاة نمط كتابة كل حرف والخطوط، وهو ما يعرف باسم الحروف المركبة داخل كلمة، أو الخطوط التي تربط بين هذه الحروف.
وبهدف معالجة هذه المشكلة قام الفريق البحثي باستخدام مُحولات الرؤية بدلاً من تقنية “الشبكة الخصومية التوليدية”. وتعد “محولات الرؤية” نوع من الشبكات العصبية المصممة لمهام الرؤية الحاسوبية. وقد ركز الباحثون في بحثهم على دراسة كيفية استخدام هذه المحولات لمحاكاة الكتابة باليد.
ويختلف الحل المقترح القائم على استخدام “محولات الرؤية” بدلاً عن اعتماد استعمال “الشبكة الخصومية التوليدية” في قدرة “محولات الرؤية” على معالجة ما يُعرف بـ “التبعيات طويلة المدى”. ويُحيل هذا المفهوم على العناصر التي تتكون منها الصورة والكيفية التي تتباعد بها عن بعضها البعض والمعنى الذي تشكله العلاقة بين هذه العناصر في الصورة رغم تباعدها.
ويوضح د. فهد خان هذا الفرق أكثر قائلاً: “تتطلب محاكاة نمط كتابة خط اليد لشخص ما النظر إلى النص المكتوب بأكمله حتى نتمكن من فهم طريقة الربط بين الحروف، أو بين أشكال الحروف، أو بين الكلمة وكلمة أخرى”. ويُتابع الدكتور شرحه قائلاً: “يتطلب رصد كل هذه العناصر رؤية مجالية شاملة، وتحقيق هذا الهدف اعتماداً على “الشبكات العصبية التلافيفية” ليس بالأمر السهل، وهذه كانت الفجوة التي اكتشفها فريقنا البحثي وقام بمعالجتها اعتماداً على المحولات”.
وفي الوقت الذي ركز فيه الفريق البحثي دراسته الأولية على توليد كتابة خط اليد باللغة الإنجليزية، يهتم الفريق كذلك باستعمال التقنية نفسها مع لغات أخرى، مثل اللغة العربية التي يصعب تحليلها بسبب الطريقة التي ترتبط بها الحروف العربية في نص مكتوب بخط اليد.
تفوق واضح
قارن الباحثون في الدراسة التي أنجزوها بين صور النصوص المكتوبة بخط اليد – التقنية التي أطلق عليها الفريق اسم محول الكتابة اليدوية (HWT)، مع تقنيتين أخرتين لتوليد الكتابة اليدوية، ثم قام الفريق بعرض النصوص المكتوبة بخط اليد التي تم إنتاجها باستخدام النماذج الثلاثة على 100 شخص وسألوهم عن النموذج الذي يفضلونه. وأظهرت النتائج أن المشاركين في الدراسة فضلوا محول الكتابة اليدوية (HWT) على مولدات النصوص المكتوبة بخط اليد الأخرى بنسبة 81%.
الصورة أعلاه تظهر مقارنة لنوعية الكتابة بخط اليد التي يولدها محول الكتابة اليدوية (HWT) مع مُوَلِّدَينِ آخرين للكتابة اليدوية هما: GANwriting وDavis et al.
تم إعطاء الأمر للنماذج الثلاثة بإنتاج النص نفس اعتماداً على نمط خط يد شخص وكان النص المطلوب كتابته كالآتي:
“لا يمكن لشخصين الكتابة بالطريقة نفسها تماماً كما لا يمكن لشخصين أن يكون لهما بصمات الأصابع نفسها”.
“No two people can write precisely the same way just as no two people can have the same fingerprints.”
تم تدريب النماذج الثلاثة على عينات من النصوص المكتوبة بخط اليد (العمود أقصى اليسار) التي كتبها ستة أشخاص مختلفين. وتبين المقارنة بين النماذج الثلاثة أن Davis et al يمكنه محاكاة النمط العام لكتابة خط اليد، درجة ميلان الخط مثلا، لكنه يجد صعوبة في تقليد تفاصيل نمط خط اليد؛ أما بالنسبة لنموذج GANwriting، فقد ظهر أن قدراته محدودة بطول الكلمات التي يمكنه محاكاتها ولم يمكن قادراً على إكمال النص المطلوب – على سبيل المثال، قام بكتابة “دقيق” (Precise) بدلاً عن كلمة “بالضبط” (Precisely) الموجودة في النص المطلوب محاكاته. وبالمقارنة مع النموذجين، فإن النموذج الذي طوره باحثوا جامعة محمد بن زايد للذكاء الاصطناعي يحاكي بشكل أفضل نمط كتابة خط اليد في شكله العام وفي تفاصيله مما يؤدي إلى توليد كتابة خط يد أكثر واقعية.
من عرض: محولات الكتابة اليدوية المقدم خلال أعمال المؤتمر الدولي للرؤية الحاسوبية عام 2021.
“وبهدف التأكد من مستوى أداء النموذج الذي طورناه”، يقول د. سلمان خان، ” قمنا بعرض النص الذي تمت محاكاته على مجموعة من الأشخاص الذين طُلب منهم مقارنة النص المولد بالنص الأصلي، والمفاجأة أن الكتابة اليدوية التي تم إنشاؤها كانت جيدة جدًا إلى درجة أن المشاركين في هذه التجربة لم يتمكنوا من التمييز بين خط اليد المقلد وخط اليد الفعلي، وكان من المُرضي رؤية هذه النتيجة”.
يُشار إلى أن النموذج الذي طوره الباحثون لا يتطلب الكثير من البيانات للتدريب، وكل ما يحتاجه سوى بضع فقرات أصلية مكتوبة بخط اليد المراد محاكاته فقط؛ ومع هذا التطور يوجد هامش خطر يوضحه د. أنور قائلا: “إننا في فريق العمل حذرون للغاية وندرك أنه قد يساء استخدام هذه التقنية التي تحاكي جزءاً من هوية الشخص ألا وهي كتابة خط اليد، وهذا أمر نأخذه على محمل الجد ونفكر فيه ملياً قبل أن نأخذ خطوة نشر استعمال هذه التقنية”.
ومن جانبه قال د. تشولاكال أنه على الرغم من وجود مخاطر، فإن النتائج الجديدة المتوصل إليها تعزز الوعي بالتهديدات المحتملة، إذ أنه من المهم إدراك أن استخدام الذكاء الاصطناعي لتوليد خط يحاكي نمط خط يد الإنسان هو أمر ممكن.
From optimal decision making to neural networks, we look at the basics of machine learning and how.....
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
A team from MBZUAI used instruction tuning to help multimodal LLMs generate HTML code and answer questions.....