تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
الانتشار العكسي هو
الخوارزمية الأكثر شيوعًا لتدريب الشبكات العصبية.
ويجعل هذا الإجراء من الممكن استخدام طريقة التدرج التنازلي للشبكات العصبية المتعدّدة الطبقات.
تعالج العديد من مكتبات الرموز البرمجية لتعلُّم الآلة (مثل Keras) عملية النشر العكسي تلقائيًا، لذلك لن تحتاج إلى إجراء أي من العمليات الحسابية الأساسية بنفسك. يمكنك مشاهدة الفيديو التالي للحصول على
نظرة عامة على كيفية عمل تقنية الانتشار العكسي:
أفضل الممارسات المتعلّقة بتدريب الشبكات العصبية
يوضّح هذا القسم حالات تعذُّر انتشار المعلومات إلى الخلف والطريقة
الأكثر شيوعًا لتنظيم شبكة عصبية.
التدرّجات التي تُختفي
يمكن أن تصبح التدرّجات لطبقات الشبكة العصبية
الدنيا (تلك الأقرب إلى طبقة الإدخال) صغيرة جدًا.
في الشبكات العميقة (الشبكات التي تحتوي على
أكثر من طبقة مخفية واحدة)، يمكن أن تتضمّن عملية احتساب هذه التدرجات أخذ
منتج العديد من العبارات الصغيرة.
عندما تقترب قيم التدرّج من 0 للطبقات السفلية، يُقال إنّ التدرّجات "تختفي". لا يتم تدريب الطبقات التي تحتوي على تدرجات متلاشية إلا ببطء شديد أو
لا يتم تدريبها على الإطلاق.
يمكن أن تساعد دالة تنشيط ReLU في منع تلاشي التدرجات.
تدرّجات الألوان المتفجرة
إذا كانت الأوزان في الشبكة كبيرة جدًا، فإنّ التدرجات للطبقات
الأدنى تتضمّن منتجاتًا للعديد من العبارات الكبيرة. في هذه الحالة يمكن أن يكون لديك تدرجات متفجرة: التدرجات التي تكون كبيرة للغاية بحيث لا تتقارب.
يمكن أن يساعد تسويف الدُفعات في منع الانحدار المتزايد، كما يمكن أن يؤدي خفض
معدّل التعلّم إلى ذلك.
وحدات ReLU المتوقّفة
بعد أن ينخفض المجموع المرجح لوحدة ReLU عن 0، يمكن أن تتوقف وحدة ReLU عن العمل. وتُخرج القيمة 0، ولا تساهم بأي شيء في ناتج الشبكة،
ولا يمكن أن تتدفق التدرجات من خلالها أثناء الانتشار العكسي. في حال انقطاع مصدر التدرجات، قد لا يتغيّر الإدخال إلى دالة ReLU أبدًا بشكلٍ كافٍ
لإعادة تجميع المجموع المرجح فوق 0.
يمكن أن يساعد خفض معدّل التعلّم في منع إيقاف وحدات ReLU.
تسوية الإسقاط
هناك شكل آخر من أشكال التنظيم يُعرف باسم
تنظيم الإزالة، وهو مفيدة للشبكات العصبية. ويعمل هذا الأسلوب من خلال "إسقاط"
عمليات تفعيل الوحدات بشكل عشوائي في شبكة لخطوة متدرجة واحدة.
كلما انسحبت أكثر، زادت التسوية:
تاريخ التعديل الأخير: 2024-11-08 (حسب التوقيت العالمي المتفَّق عليه)
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],["تاريخ التعديل الأخير: 2024-11-08 (حسب التوقيت العالمي المتفَّق عليه)"],[[["Backpropagation is the primary training algorithm for neural networks, enabling gradient descent for multi-layer networks and often handled automatically by machine learning libraries."],["Vanishing gradients occur when gradients in lower layers become very small, hindering their training, and can be mitigated by using ReLU activation function."],["Exploding gradients happen when large weights cause excessively large gradients, disrupting convergence, and can be addressed with batch normalization or lowering the learning rate."],["Dead ReLU units emerge when a ReLU unit's output gets stuck at 0, halting gradient flow, and can be avoided by lowering the learning rate or using ReLU variants like LeakyReLU."],["Dropout regularization is a technique to prevent overfitting by randomly dropping unit activations during training, with higher dropout rates indicating stronger regularization."]]],[]]