Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تحيز مجموعة البيانات

تعرف على كيفية تحديد وتخفيف تحيز مجموعة البيانات في الذكاء الاصطناعي لضمان نماذج تعلم آلي عادلة ودقيقة وموثوقة للتطبيقات الواقعية.

يشير تحيز مجموعة البيانات إلى خطأ منهجي أو عدم توازن في المعلومات المستخدمة لتدريب نماذج التعلم الآلي (ML) ، مما يتسبب في انعكاس هذا الانحراف في تنبؤات النظام الناتج. في مجال الرؤية الحاسوبية (CV)، تعمل النماذج كمحركات للتعرف على الأنماط تعتمد كليًا على مدخلاتها. إذا كانت بيانات التدريب غير ممثلة للبيئة الواقعية التي سيواجهها النموذج، فإن الذكاء الاصطناعي سوف "يرث" هذه النقاط العمياء. غالبًا ما تؤدي هذه الظاهرة إلى تعميم ضعيف، حيث يحقق النموذج درجات عالية أثناء الاختبار ولكنه يفشل بشكل كبير عند استخدامه للاستدلال في الوقت الفعلي في سيناريوهات متنوعة.

المصادر الشائعة للتحيز

يمكن أن يتسلل التحيز إلى مجموعة البيانات في عدة مراحل من دورة حياة التطوير، وغالبًا ما ينشأ عن قرارات بشرية أو مشكلات تتعلق بتوافر البيانات.

  • تحيز الاختيار: يحدث هذا عندما لا تمثل البيانات التي تم جمعها عشوائياً السكان المستهدفين. على سبيل المثال، قد يؤدي إنشاء مجموعة بيانات للتعرف على الوجه باستخدام صور للمشاهير في الغالب إلى تحيز النموذج نحو المكياج الثقيل والإضاءة الاحترافية، مما يتسبب في فشله في التعرف على صور كاميرا الويب اليومية.
  • أخطاء التوسيم: قد تؤدي الذاتية أثناء توسيم البيانات إلى ظهور تحيز بشري. إذا قام المعلقون بتصنيف الكائنات الغامضة بشكل خاطئ باستمرار بسبب عدم وجود إرشادات واضحة، فإن النموذج يعامل هذه الأخطاء على أنها حقيقة أساسية.
  • تحيز التمثيل: حتى لو تم اختيارها عشوائياً، قد يتم إغراق المجموعات الأقلية إحصائياً من قبل الطبقة الأغلبية. في الكشف عن الأشياء، فإن مجموعة بيانات تحتوي على 10,000 صورة للسيارات ولكن 100 صورة فقط للدراجات ستؤدي إلى نموذج متحيز نحو الكشف عن السيارات.

أمثلة واقعية في تطبيقات الذكاء الاصطناعي

تتجاوز عواقب تحيز مجموعة البيانات المقاييس الأكاديمية، وتؤثر بشكل مباشر على سلامة وموثوقية الذكاء الاصطناعي في الصناعة.

  1. القيادة الذاتية: تعتمد أنظمة القيادة الذاتية على مجموعات إدراك المركبات الذاتية لتحديد المخاطر. إذا تم تدريب نموذج بشكل أساسي على البيانات التي تم جمعها في كاليفورنيا المشمسة، فقد يظهر تحيزًا شديدًا ضد الظروف الجوية الثلجية أو الممطرة. هذا النقص في التنوع البيئي يخلق مخاطر تتعلق بالسلامة عندما تعمل المركبة في مناخات مختلفة، مما يستلزم إجراء تقييم صارم للنموذج عبر مجالات جوية متنوعة .
  2. التشخيص الطبي: في الرعاية الصحية، يتم استخدام النماذج بشكل متزايد لتحليل الصور الطبية detect أمراض الجلد . إذا كانت مجموعة بيانات التدريب تتكون أساسًا من ألوان بشرة فاتحة، فقد تنخفض دقة التشخيص للمرضى ذوي البشرة الداكنة بشكل كبير. يسلط هذا التباين الضوء على الضرورة الأخلاقية لتنظيم مجموعات بيانات شاملة لضمان رعاية عادلة للمرضى .

استراتيجيات التخفيف

يمكن للمطورين استخدام عدة تقنيات لتحديد التحيز والحد منه، مما يضمن امتثالًا أكثر صرامة لأخلاقيات الذكاء الاصطناعي.

  • زيادة البيانات: من خلال تعديل صور التدريب بشكل مصطنع — مثل التدوير أو التغيير في الحجم أو ضبط السطوع — يمكن للمهندسين محاكاة مجموعة واسعة من الظروف. تساعد زيادة البيانات النموذج على تعلم الميزات التي لا تتأثر بالتفاصيل العرضية مثل الاتجاه أو الإضاءة.
  • البيانات الاصطناعية: عندما تكون البيانات الواقعية للحالات الاستثنائية نادرة، يمكن للبيانات الاصطناعية التي تولدها محركات الألعاب أو النماذج التوليدية أن تملأ الفجوات، مما يؤدي إلى تحقيق التوازن في توزيع الفئات.
  • تدقيق الإنصاف: استخدام أدوات مثل IBM's AI Fairness 360 يسمح للفرق بحساب المقاييس التي تقيس بشكل خاص أداء النموذج عبر مختلف المجموعات المحمية أو الفئات السكانية الفرعية.

مثال على الكود: التخفيف من تحيز التوجه

يوضح المثال التالي كيفية تطبيق التوسيع أثناء التدريب باستخدام نموذج Ultralytics الموصى به. من خلال تمكين الانعكاس الأفقي، يتعلم النموذج detect الكائنات بغض النظر عن الاتجاه الذي تواجهه، مما يقلل من التحيز في الاتجاه.

from ultralytics import YOLO

# Load the YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific augmentations to improve robustness
# 'fliplr' (flip left-right) helps mitigate bias if objects only face one way in the raw data
results = model.train(
    data="coco8.yaml",
    epochs=10,
    fliplr=0.5,  # 50% probability of flipping the image horizontally
    hsv_v=0.4,  # Vary brightness to handle lighting bias
)

تحيز مجموعة البيانات مقابل المصطلحات ذات الصلة

من المفيد التمييز بين تحيز مجموعة البيانات والمفاهيم المماثلة في مجال الذكاء الاصطناعي المسؤول :

  • مقابل التحيز الخوارزمي: التحيز في مجموعة البيانات يركز على البيانات؛ وهو يعني أن المدخلات (المكونات) معيبة. التحيز الخوارزمي يركز على النموذج؛ وهو ينشأ من تصميم الخوارزمية نفسها أو خوارزمية التحسين المستخدمة، والتي قد تعطي الأولوية للفئات الأغلبية لتعظيم المقاييس الإجمالية على حساب الفئات الأقلية.
  • مقابل التحيز في الذكاء الاصطناعي: هذا هو المصطلح الشامل الذي يشمل جميع أشكال التحيز في الذكاء الاصطناعي، بما في ذلك تحيز مجموعة البيانات، وتحيز الخوارزميات، والتحيز المعرفي الذي أدخله المطورون البشريون.

معالجة التحيز في مجموعات البيانات هي عملية مستمرة تتطلب اليقظة في جمع البيانات والالتزام بأطر عمل مثل إطار عمل إدارة مخاطر الذكاء الاصطناعي التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST).

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن