التصنيف القائم على النص كتقنية للتنقيب في البيانات
حالة مجموعة بيانات شكاوى المستهلكين
الكلمات المفتاحية:
الكلمات المفتاحية: التنقيب عن البيانات، قاعدة بيانات شكاوي المستهلكين، التصنيف النصي، مصنف SVM.الملخص
التصنيف القائم على النص Text-based classification هو تقنية يمكن استخدامها لتحديد أنواع مختلفة من البيانات من وجهة نظر التطبيقات. تجري أبحاث مختلفة لتحديد طرق معرفة فئات البيانات من مجموعة من بيانات الإدخال. في هذه الورقة، قمنا بتنفيذ موديل SVM في تصنيف النصوص الواردة ضمن شكاوي المستهلكين في قاعدة بيانات شكاوى المستهلكين المقدمة إلى مكتب الحماية المالية للمستهلك (Consumer Financial Protection Bureau (CFPB)).
تم تطبيق المعالجة المسبقة للبيانات ثم تقسيمها إلى بيانات تدريب واختبار، وبعدها تم استخراج الميزات تحضيراً لإنشاء الموديل. تم إجراء مجموعة من الاختبارات للتحقق من المصنف المحدد وقد أظهرت النتائج التجريبية أن مصنف SVM وصل إلى دقة بيانات التدريب 99.576 % ودقة بيانات الاختبار 82.72%. يقدم النموذج المقترح نهجاً تدريجياً لتصنيف النص لأنه يدرب المصنف ديناميكياً من مجموعة جديدة من البيانات التي يوفرها المستخدمون.