دراسة أداء أنظمة وصف الصور المعتمدة على نماذج مختلفة للتعلم العميق
الملخص
تم في البحث الحالي إنجاز عملية وصف الصورة Image Description عبر وضع تسميات توضيحية لمكونات الصورة Image Captioning بثلاث نماذج مختلفة والمقارنة بينها. من أجل بناء نماذج الوصف، تم استخدام مكتبة Keras وهي مكتبة تستخدم كإطار عمل لتعلم الآلة Machine Learning Framework والتي تضم أهم المكاتب اللازمة لإنشاء وتدريب شبكات التعلم العميق. تم استخدام ثلاثة نماذج مطبقة على مكتبة Keras وذلك لاستخدامها في استخلاص سمات الصور وهي نموذج شبكة ResNet50 ونموذج شبكة VGG16 بالإضافة إلى نموذج شبكة VGG19. تتميز هذه النماذج باعتمادها على بنية الشبكة العصبونية الالتفافية Convolutional Neural Network (CNN) وأكثر دقة في استخلاص سمات الصورة من النماذج السابقة. أما لعملية التدريب وربط الوصف مع السمات فقد تم استخدام شبكة عصبونية تكرارية Recurrent Neural Network (RNN).
تم استخدام مجموعة بيانات MSCOCO العالمية حيث تم أخذ مجموعة جزئية منها مؤلفة من 10000 صورة، حيث تم أخذ 9000 صورة منها لمجموعة التدريب Training و1000 صورة لمجموعة التحقق Validation. أما لعملية الاختبار فقد تم استخدام صور من الحياة الطبيعية من خارج مجموعتي التدريب والتحقق.
تمت مقارنة النماذج الثلاثة باستخدام معايير تقييم مختلفة وهي Top-1 وTop-5والعمق والدقة والتي تحدد مدى قرب الوصف الناتج من الوصف الفعلي للصورة. من النتائج تبين أن النموذج ResNet50 يتفوق على النموذجين VGG16 وVGG19 من ناحية دقة الوصف ومدى التشابه مع الوصف الصحيح للصور المدروسة. كما تم ملاحظة أن النماذج الثلاثة تعطي وصفاً أدق وأكثر تشابهاً للصورة عند حساب القيمة المتوسطة لأفضل ثالث توصيف من خرج النظام.
In the current research, an image description process is done by generating captions of the image’s components by three different models and comparing them. In order to build the description models, the Keras library was used as Machine Learning Framework that includes the most important libraries needed to establish and train deep learning networks. Three models were applied to the Keras library to extract features from images, the ResNet50, the VGG16 and the VGG19 network models. These models were characterized by their reliance on the Convolutional Neural Network (CNN) and more accurately in extracting image attributes from previous models. For the training process and matching the description with the features, a Recurrent Neural Network (RNN) was used.
The MSCOCO dataset was used with a subset of 10,000 images taken, 9,000 of which were taken for Training and 1000 for Validation. For the testing process, images of normal life were taken from outside the training and verification groups.
The three models were compared using several measurements which are Top-1, Top-5, depth and accuracy. These metrics define how closely the resulting description of the actual description of the image. The results show that the ResNet50 model outperforms both models VGG16 and VGG19 in terms of the accuracy and the convergence with the correct description of the studied images. Furthermore, the three models give a better accurate and convergence when they use the average value of the best third description of the system output.
التنزيلات
منشور
إصدار
القسم
الرخصة
الحقوق الفكرية (c) 2020 مجلة جامعة تشرين للبحوث والدراسات العلمية- سلسلة العلوم الهندسية

هذا العمل مرخص بموجب Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
-
يحتفظ المؤلفون بحقوق النشر ويمنحون حق النشر في المجلة لأول مرة مع نقل الحقوق التجارية إلى مجلة جامعة تشرين للبحوث والدراسات العلمية-سلسلة العلوم الهندسية بموجب الترخيص CC BY-NC-SA 04 الذي يسمح للأخرين بمشاركة العمل مع الإقرار بتأليف العمل والنشر الأولي في هذه المجلة. يمكن للمؤلفين أن يستخدموا نسخة من مقالاتهم في نشاطهم العملي وعلى مواقع علمية خاصة بهم على أن يتم الإشارة إلى مكان النشر مجلة جامعة تشرين للبحوث والدراسات العلمية-سلسلة العلوم الهندسية ويمتلك القراء الحق بنسخ ونقل من المقالات والمزج والإضافة إلى اعمالهم العلمية والاستشهاد مع ذكر مجلة جامعة تشرين للبحوث والدراسات العلمية-سلسلة العلوم الهندسية الناشر .
- المجلة تستخدم ترخيص CC BY-NC-SA مما يعني
- الإسناد - يجب عليك منح الائتمان المناسب ، وتقديم ارتباط إلى الترخيص ، وبيان ما إذا تم إجراء تغييرات.
- يمكنك القيام بذلك بأي طريقة معقولة ، ولكن ليس بأي طريقة توحي بأن المرخص يؤيدك أو يؤيد استخدامك.
- غير تجاري - لا يجوز لك استخدام المواد لأغراض تجارية -
- . ShareAlike إذا قمت بإعادة مزج المواد أو تحويلها أو البناء عليها ، فيجب عليك توزيع مساهماتك بموجب نفس الترخيص مثل الأصل. لا قيود إضافية - لا يجوز لك تطبيق الشروط القانونية أو التدابير التكنولوجية التي تقيد الآخرين قانونًا من فعل أي شيء يسمح به الترخيص
- .