(الصفحة الثالثة من 7 صفحات)

قواعد بيانات القرآن الكريم كأساس للمعجم الآلي الموسع للغة العربية

للدكتور الفاضل / محمد زكي محمد خضر

 ندوة إتحاد المجامع اللغوية العربية - عمان – الأردن - 16-19/9/2002 م

5- قاعدة بيانات رسم الكلمات

كان لا بد من البدء بتكوين قاعدة بيانات لرسم المصحف وفق الرسم العثماني . فالكلمات الأساس في قاعدة البيانات هذه هي حقل رسم الكلمة بالرسم العثماني ، محذوفًا منه علامات الوقف والتجويد فقط . ويلاحظ أن هناك كلمات في الرسم العثماني مكتوية في أماكن مختلفة في المصحف بأشكال مختلفة فقد تختلف فيما بينها في رسم التاء مرة كتاء مربوطة ومرة كتاء طويلة وكذلك في وجود ألف واو الجماعة مرة وعدم وجودها مرة أخرى وهكذا.

أما الملاحظة الثانية فهي عن رسم الهمزة . فرسم الهمزة في المصحف مختلف عن الرسم الحديث للهمزة في اللغة العربية المتداولة اليوم في كثير من المواضع.

لا شك إن معظم الكلمات القرآنية متطابقة في كتابتها بين القديم والحديث . ولكن هناك عدد لا يستهان به من الكلمات المختلفة في شكل كتابتها . ويمكن إجمال الاختلافات بما يأتي :

أ‌-   استعمال الألف الخنجرية في كثير من الكلمات مثل العالمين ( تكتب العلمين ) .

ب‌- كتابة الهمزة بشكل مختلف عما هو متعارف عليه في الخط الحديث مثل ءالذكرين  التي تكتب اليوم آلذكرين باستعمال المدة فوق الألف ( التي هي همزة بعدها فتحة طويلة ( أي ألف ) رغم أن المصاحف تستعمل المدة كعلامة من علامات التجويد).

ج - ألف واو الجماعة تكتب أحيانا بالألف وأحيانا بدون الألف. كما أن هناك أحيانًا واوًا أصلية في الكلمة مضافًا لها ألف مثل أدعوا.

د -  كتابة التاء تارة كتاء مربوطة وتارة كتاء طويلة .

هـ - كتابة بعض الكلمات بشكل خاص مثل الربا تكتب ( الربوا ) .

و - دمج بعض الكلمات أحيانا وعدم دمجها أحيانًا أخرى مثل أم من ( تكتب أحيانا أمَّن ) وأن لا تكتب أحيانا ( ألّا ) وإن لم ( إلَّم ) .

ز - دمج بعض الكلمات بطريقة مغايرة لما متعارف عليه اليوم مثل " يا ابن أمي" ( يبنؤم ) و " فما للذين"  ( فمال الذين ) .

ح - الحروف في فواتح بعض السور التي تسمى بالنورانية غير متعارف عليها في الخط الحديث. ولكنها ربما تشبه استعمال الرموز في المعادلات الرياضية أو في الأشكال الهندسية أو تبويب الفقرات هجائيًا.

وعلى هذا فإن أول خطوة في تكوين قاعدة بيانات رسم الكلمات هو إعادة كتابة الكلمات المختلف عليها برسم حديث فتتكون قاعدة البيانات هذه من حقلين الأول هو الرسم العثماني الدقيق والثاني هو الرسم الحديث .

إحتوت قاعدة بيانات القرآن الكريم الرئيسة على 83829 قيدًا تحوي بينها 114 علامة # لبداية السور و6236 علامة @ لبداية الآيات حيث أن عدد كلمات المصحف بالرسم العثماني هو 77479 فيها 4 كلمات هي كلمات البسملة في بدء سورة الفاتحة. وعند استخلاص الكلمات القرآنية ووضعها في قاعدة بيانات ثانوية خاصة بالكلمات القرآنية فإن عددها سيكون 18841 كلمة. أما عند حذف تشكيل الآخر والشدّة على أول حرف إن وجدت بسبب التنوين في الكلمة السابقة فعددها ينزل إلى 15263.

وسِّعت قاعدة البيانات الثانية بخطوات متعاقبة وذلك بحذف الشدة على الحرف الأول لبعض الكلمات نتيجة وقوعها بعد كلمة محتوية على تنوين مثل تشديد اللام في ( هدىًَ لِّلمتقين ) وتشديد الميم في ( ريب مّما ) وقد تأتي هذه الشدة حتى في بداية آية إن كان في نهاية الآية التي قبلها تنوين مثل قوله تعالى ( عدواً مبيناً – رَّبكم أعلم ) وتنحصر هذه الحالات إن كانت بداية الكلمة لامًا أو ميمًا أو راءًا أو نونًا أو ياء أو واوًا وكانت الكلمة التي تسبقها منونة كما في الأمثلة السالفة . ولهذا حذفت هذه الشدة على مرحلتين المرحلة الأولى بواسطة برنامج يدقق إن كانت هناك شدة على الحرف الأول من كل كلمة تبتدئ بهذه الحروف فيقوم بفصلها والمرحلة الثانية كانت بأن تدقق يدويًا ومن ثم تحذف . وهناك مواضع أخرى للشدّة التي كان يجب أن تحذف من  بداية الكلمة مثل " لهم مّا يشاؤون " نتيجة التقاء  ميمين في كلمتين متعاقبتين . كما عولجت مشكلة تشكيل اللام ألف . وتجدر الإشارة هنا إلى أن معالجات النصوص الشائعة تكتب اللام إلف بشكل غريب إن كانت اللام مشكولة أو عليها شدة ( تكتب "لـَّا" أو "لـَا" وليس "لا" ) ولذلك استعيض عن تشكيل اللام بتأخير الفتحة إلى ما بعد الألف بحيث تصبح "لاَ" . وهذا خطأ كان لا بدّ من القبول به في هذه المرحلة . وبالطبع فإن المشكلة تزيد سوءًا إذا كانت الألف بعد اللام هي همزة مثل "لَأنتم" حيث كتبت "لأَنتم" أو" لَإلى الله" حيث كتبت "لإِلى الله"  وقد حذفت الحركة على اللام في مثل هذه الحالات . وقد يلتقي اللام ألف والشدّة على اللام نتيجة تنوين الكلمة السابقة لها وبذلك تجتمع المسألتان أعلاه في موضع واحد .

هناك حقل ثالث مهم يجب إضافته لقاعدة البيانات هذه ، ألا وهو الرسم بالخط العادي بدون تشكيل . فالكتابة الشائعة اليوم غير مشكولة بصورة عامة ولا شك أن ذلك يحدث كثيرا من اللبس في كتابة العديد من الكلمات وهذا الحقل ضروري لكي تؤخذ إمكانية التعامل مع هذا اللبس في أي معالجة آلية للغة العربية ذات معنى .

تكوين قاعدة البيانات هذه قد مرّ بمرحلتين . مرحلة آلية وذلك باستحداث قاعدة بيانات للكلمات المتشابهة ثم يجري  تعديلها إلى الرسم العادي يدويًا وفي مرحلة لاحقة يحذف منها التشكيل وتعاد هذه الحقول إلى قاعدة البيانات الرئيسة لتتكون قاعدة بيانات مكونة من نص بالرسم العثماني وآخر بالرسم الحديث ( العادي ) وثالث بدون تشكيل .

إن كتابة الهمزة بالرسم الحديث تستند إلى قواعد مقننة من قبل مجامع اللغة العربية ويمكن فصلها في قاعدة بيانات خاصة بالهمزة والتعامل معها ببرنامج وفق هذه القواعد .

كما تجدر الإشارة إلى مسألة الشواذ في الكتابة . فكلمات مثل هذا والرحمن تكتب بالرسم العادي بلا ألف كما أن واو الجماعة لا تلفظ كما أن مسألة دمج بعض الكلمات في الرسم العثماني لها ما يقابلها من كلمات منفصلة في الرسم العادي . وبذلك فإن عدد كلمات المصحف بالرسم العثماني ستختلف عن عدد كلمات المصحف بالرسم العادي أي أن تقابل هذه الكلمات بعضها تجاه البعض يحتاج إلى معالجات خاصة . أنظر شكل (1) كما يبين الشكل (2) جدولاً بالجذور الأكثر ترددًا في القرآن الكريم والتي يزيد عدد مرات تكرارها عن 120 مرة. لاحظ أن بعض الكلمات ( خاصة الحروف) قد أدرجت مع الجذور أيضًأ. ومن هذا الجدول يمكن أن تستنبط الأفعال الأكثر ترددًا في اللغة العربية والتي يمكن البدء بها عند تعليم العربية لغير العرب. يبين الشكل (3) قاعدة بيانات الكلمات القرآنية .

 

6- قاعدة بيانات الجمل القرآنية

كما سبق ذكره فإن الجمل القرآنية متداخلة مع فواصل الآيات. أي أن الجمل القرآنية يمكن أن تكون بعض آية أو آية كاملة أو جزءًا من آية مع جزء من آية أخرى أو آية كاملة مع أجزاء من آية أخرى أو عددًا من الآيات.

لذلك كان من الضروري وضع إشارات ضمن النص تشير إلى نهاية جملة وبدء جملة جديدة . وذلك للقرآن كله. وتجدر الإشارة إلى أن علامات الوقف والتجويد قد يشير بعضها إلى مثل هذه المواضع حيث أن إشارة ( الوقف اللازم أو الوقف أولى ) تشير إلى بعض من هذه المواضع.

خذ مثلاً سورة الفاتحة ، فالجمل فيها :

بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ@

الْحَمْدُ لِلَّهِ رَبِّ الْعَالَمِينَ@الرَّحْمَنِ الرَّحِيمِ@مَالِكِ يَوْمِ الدِّينِ@

إِيَّاكَ نَعْبُدُ

وَإِيَّاكَ نَسْتَعِينُ@

اهْدِنَا الصِّرَاطَ الْمُسْتَقِيمَ@صِرَاطَ الَّذِينَ أَنْعَمْتَ عَلَيْهِمْ غَيْرِ الْمَغْضُوبِ عَلَيْهِمْ وَلاَ الضَّالِّينَ@

وهذه التجزئة هي إستقرائية لا غير. وقد تختلف مواقع تجزئة النص إلى جمل بحسب فهم من يقوم بها من المفسرين. فمثلا فاتحة سورة البقرة يمكن أن تجزأ كما يأتي:

الم@

ذَلِكَ الْكِتَابُ لاَ رَيْبَ

فِيهِ هُدًى لِّلْمُتَّقِينَ@

ويمكن أن تجزأ كالآتي:

الم@

ذَلِكَ الْكِتَابُ لاَ رَيْبَ فِيهِ

هُدًى لِّلْمُتَّقِينَ@

وهناك بعض المواضع التي تشير إليها علامات خاصة من علامات الوقف والتجويد التي تبين إمكان الوقف على أي من الكلمتين ( فيه أو هدىً) بشكل متبادل ( أي أحدهما فقط ) . ولكل من الصيغتين إعراب مختلف لكل جملة.

وهكذا تتكون قاعدة بيانات للجمل القرآنية يكون أساسًا لقاعدة بيانات النحو.

 

7- قاعدة بيانات الصرف

هناك من الخطوات التي ينبغي إجراءها قبل البدء بتكوين قاعدة بيانات الصرف لنص القرآن الكريم . أول هذه الخطوات هو تجزئة الكلمات القرآنية إلى لواصقها الأولى ولواصقها النهائية وأدوات التشكيل ويمكن كحد أعلى اعتبار القطع 4 لواصق أولية كحد أعلى و 2 من اللواصق الآخرية وجذع الكلمة وتشكيل للجذع وتشكيل آخر .

وبذلك فإن الكلمة يحجز لها 9 حقول . خذ مثلا كلمة " أفبالباطل " تحتوي 4 لواصق أولية هي " أ - فَـ -  بِـ - الْـ " وجذعها هو باطل يعقبها كسرة في الأخير . أما كلمة " فسيكفيكهم "  فتحتوي على لواصق أولية عددها 2 هما " فَـ - ـسـَ " والجذع يكفي واللواصق الأخرية هي " كـَ "  و " هم " والتشكيل على الجذع هو السكون ( غير الظاهر على الياء ) وتشكيل آخر اللواصق هو السكون أيضا ( الذي يظهر أو يختفي حسب الكلمة التالية للميم )

وتجدر الإشارة إلى أن ألف لام التعريف عند حذفها يكون الحرف الأول من الكلمة مشددًا إن كان من الحروف الشمسية لذلك يجب حذف هذه الشدة من جذع الكلمة . أما إن كان من الحروف القمرية فإن اللام ( من ألف لام ) تحمل سكونًا يجب حذفه .

أما جذع الكلمة فيمكن أن تكون مشتقة من فعل ثلاثي على وزن ما . ويمكن أن يتم ذلك بواسطة برنامج خاص يقوم باستنباط الوزن الذي اشتقت منه هذه الكلمة . وهذا الاشتقاق يمكن أن يكون بسيطًا إذا كانت أحرف الجذر ليس بينها حرف علّة . أما عندما يكون أحدها ( أو أكثر من واحد ) حرف علة فإن قواعد تحويل الواو إلى ياء أو ألف أو بالعكس تجعل القواعد أكثر تعقيدا كما هو معروف .

أما إذا لم يكن الجذع مشتقًا فيعني ذلك عدم وجود جذر للكلمة . وعلى هذا فإن عدد حقول قاعدة بيانات الصرف تصبح 12 حقلا هي

الكلمة ، 4 حقول للواصق الأولية ، جذع الكلمة ، تشكيلها ، لواصق آخرية ، تشكيل الآخر ، جذر الجذع ، وزن الجذع .

يبين الشكل ( 5 ) نموذجًا لقاعدة البيانات الصرف كما يعطي الشكل (6) قاعدة بيانات اللواصق وهي قد قلصت فيها اللواصق الأولية إلى اثنين فقط ( دمجت اللواصق التي تزيد عن إثنتين إلى اثنتين وهي حالات محدودة) . هذا وقد استعين في تحديد جذور الكلمات القرآنية بالمعجم المفهرس لألفاظ القرآن الكريم (4) ولسان العرب (5).

(انتهت الصفحة الثالثة من 7 صفحات)

الصفحة الرئيسية

المصدر : من موقع الدكتور  

http://www.al-mishkat.com/khedher

مع تحيات موقع الأرقام