أصدقائي ، نواصل القصة حول الشبكات العصبية ، والتي بدأناها في المرة الأخيرة ، وعن كيف تعمل تقنية التعرف على الوجوه.
ما هي الشبكة العصبية
في أبسط الحالات ، الشبكة العصبية هي نموذج رياضي يتكون من عدة طبقات من العناصر التي تؤدي عمليات حسابية متوازية. في البداية ، تم إنشاء مثل هذه البنية عن طريق القياس مع أصغر العناصر الحسابية في المخ البشري هي الخلايا العصبية. أصغر العناصر الحسابية للشبكة العصبية الاصطناعية تسمى أيضًا الخلايا العصبية. تتكون الشبكات العصبية عادةً من ثلاث طبقات أو أكثر: طبقة إدخال ، وطبقة مخفية (أو طبقات) وطبقة إخراج (الشكل 1) ، وفي بعض الحالات لا يتم احتساب طبقات الإدخال والإخراج ، وعندئذ يتم حساب الطبقات في الشبكة بعدد الطبقات المخفية. يسمى هذا النوع من الشبكات العصبية بيرسبترون (نموذج رياضي أو حاسوبي لإدراك المعلومات بواسطة الدماغ)
من السمات المهمة للشبكة العصبية قدرتها على التعلم علي الأمثلة ، وهذا ما يسمى التعلم تحت إشراف المعلم. يتم تدريب الشبكة العصبية على عدد كبير من الأمثلة التي تتكون من أزواج المدخلات والمخرجات (المدخلات والمخرجات تتوافق مع بعضها البعض). في مشاكل التعرف على الموضوعات ، سيكون هذا الزوج هو صورة الإدخال والتسمية المقابلة هي إسم الموضوع. تدريب الشبكة العصبية هو عملية تكرارية تقلل من انحراف خروج الشبكة عن “إجابة المعلم” - التسمية المقابلة لصورة معينة (الشكل 2). تتكون هذه العملية من خطوات تسمى عصور التعلم (عادة ما تكون بالآلاف) ، يتم في كل منها تعديل “أوزان” الشبكة العصبية - علامات الطبقات المخفية للشبكة. عند الانتهاء من عملية التعلم ، عادة ما تكون جودة الشبكة العصبية جيدة بما يكفي لأداء المهمة التي تم تدريبها من أجلها ، على الرغم من أنه غالبًا ما يكون من المستحيل العثور على المجموعة المثلى من المعايير التي تتعرف تمامًا على جميع الصور.
ما هي الشبكات العصبية العميقة
الشبكات العصبية العميقة أو السحيقة عبارة عن شبكات عصبية تتكون من عدة طبقات مخفية (الشكل 3). هذا الشكل هو تصوير لشبكة عصبية عميقة ، مما يعطي القارئ فكرة عامة عن كيف تبدو الشبكة العصبية. ومع ذلك ، فإن البنية الحقيقية للشبكات العصبية العميقة أكثر تعقيدًا.
بالطبع ، استلهم مبدعو الشبكات العصبية التلافيفية في البداية من الهياكل البيولوجية للنظام البصري. تُعرف النماذج الحسابية الأولى القائمة على مفهوم التنظيم الهرمي للتدفق البصري للرئيسيات باسم نيوكوجنيترون [1] فوكوشيما (الشكل 4). يشبه الفهم الحديث لفيزيولوجيا النظام المرئي نوع معالجة المعلومات في الشبكات التلافيفية ، على الأقل من أجل التعرف السريع على الأشياء.
في وقت لاحق ، تم تنفيذ هذا المفهوم من قبل الباحث الكندي يان ليكون في شبكته العصبية التلافيفية ، والتي أنشأها للتعرف على الأحرف المكتوبة بخط اليد [2]. تكونت هذه الشبكة العصبية من نوعين من الطبقات: طبقات تلافيفية وطبقات اختزال فرعية(subsampling) (أو طبقات التجميع الفرعية). تحتوي كل طبقة فيها على بنية طبوغرافية ، أي أن كل خلية عصبية مرتبطة بنقطة ثابتة من الصورة الأصلية ، وكذلك مع مجال تقبلي (منطقة الصورة المدخلة التي تتم معالجتها بواسطة هذه الخلية العصبية). في كل موقع من كل طبقة ، يوجد عدد من الخلايا العصبية المختلفة ، لكل منها مجموعتها الخاصة من أوزان الإدخال المرتبطة بالخلايا العصبية في الرقاقة المستطيلة من الطبقة السابقة. ترتبط الرقائق مستطيلة الإدخال المختلفة مع نفس مجموعة الأوزان بالخلايا العصبية من مواقع مختلفة.
البنية العامة للشبكة العصبية العميقة للتعرف على الأنماط موضحة في الشكل 5. صورة الإدخال ممثلة كمجموعة من وحدات البكسل أو مناطق صغيرة من الصورة (على سبيل المثال 5×5 بكسل)
عادةً ما يتم تصوير الشبكات العصبية العميقة في شكل مبسط: كمراحل معالجة ، والتي تسمى أحيانًا المرشحات. تختلف كل مرحلة عن الأخرى في عدد من الخصائص ، مثل حجم المجال الاستقبالي ، ونوع العلامات التي تتعلم الشبكة التعرف عليها في هذه الطبقة ، ونوع الحساب الذي يتم إجراؤه في كل مرحلة.
لا تقتصر مجالات تطبيق الشبكات العصبية العميقة ، بما في ذلك الشبكات التلافيفية ، على التعرف على الوجوه. فهي تُستخدم على نطاق واسع في التعرف على الكلام والإشارات الصوتية ، ومعالجة القراءات من الأنواع المختلفة من أجهزة الاستشعار ، أو لتجزئة الصور المعقدة متعددة الطبقات (مثل خرائط الأقمار الصناعية [3]) أو الصور الطبية (صور الأشعة السينية ، صور التصوير المقطعي بالرنين المغناطيسي الوظيفي - انظر هنا).
الشبكات العصبية في القياسات الحيوية والتعرف على الوجوه
لتحقيق دقة التعرف العالية ، تم تدريب الشبكة العصبية مسبقًا على مجموعة كبيرة من الصور ، على سبيل المثال ، كما هو الحال في قاعدة بيانات MegaFace . هذه هي طريقة التدريب الرئيسية للتعرف على الوجوه.
بعد تدريب الشبكة على التعرف على الوجوه ، يمكن وصف عملية التعرف على الوجوه على النحو التالي (الشكل 7). في البداية ، تتم معالجة الصورة باستخدام كاشف الوجه: الخوارزمية تحدد مقطعًا مستطيلًا من الصورة به وجه. يتم تطبيع هذا الجزء من أجل تسهيل معالجته بواسطة الشبكة العصبية: سيتم تحقيق أفضل نتيجة إذا كانت جميع الصور المدخلة من نفس الحجم واللون وما إلى ذلك. يتم تغذية الصورة التي تم تطبيعها إلى مدخلات الشبكة العصبية للمعالجة بواسطة الخوارزمية. عادة ما تكون هذه الخوارزمية تطويرًا فريدًا للشركة لتحسين جودة التعرف ، ولكن هناك أيضًا حلول “قياسية” لهذه المهمة. تقوم الشبكة العصبية ببناء متجه علامات فريد ، والذي يتم نقله بعد ذلك إلى قاعدة البيانات. يقارنها محرك البحث بجميع متجهات العلامات المميزة المخزنة في قاعدة البيانات ، ويعطي نتيجة البحث في شكل عدد معين من الأسماء أو ملفات تعريف المستخدمين بعلامات وجه متشابهة ، يتم تخصيص رقم معين لكل منها. يمثل هذا الرقم درجة تشابه متجه العلامات المميزة الخاص بنا مع المتجه الموجود في قاعدة البيانات.
تحديد جودة الخوارزمية
الدقة
عندما نختار الخوارزمية التي يجب تطبيقها على مهمة التعرف على الوجوه أو كائن معين ، يجب أن يكون لدينا وسيلة لمقارنة فعالية الخوارزميات المختلفة. في هذا الجزء ، سنصف الأدوات التي يتم بها ذلك [5].
يتم إجراء تقييم جودة نظام التعرف على الوجوه باستخدام مجموعة من المقاييس التي تتوافق مع السيناريوهات النموذجية لاستخدام النظام للمصادقة بمساعدة القياسات الحيوية.
كقاعدة عامة ، يمكن قياس أداء أي شبكة عصبية من حيث الدقة: بعد تحديد إعدادات المعلمات وإكمال عملية التعليم ، يتم اختبار الشبكة على مجموعة اختبار ، والتي من أجلها لدينا استجابة من المعلم ، ولكنها منفصلة عن مجموعة التدريب. عادةً ما يكون هذا المعامل مقياسًا كميًا: رقم (غالبًا كنسبة مئوية) يشير إلى مدى قدرة النظام على التعرف على الكائنات الجديدة. يوجد مقياس شائع آخر هو الخطأ (يمكن التعبير عنه كنسبة مئوية أو في معادل رقمي). ومع ذلك ، هناك تدابير أكثر دقة للقياسات الحيوية.
في القياسات الحيوية بشكل عام والقياسات الحيوية للتعرف على الوجوه بشكل خاص ، هناك نوعان من التطبيقات: التحقق وتحديد الهوية. التحقق يمثل عملية تأكيد هوية معينة عن طريق مقارنة صورة فرد (متجه لعلامات الوجه المميزة أو متجه آخر للعلامات المميزة ، على سبيل المثال ، شبكية العين أو بصمات الأصابع) مع واحد أو أكثر من النماذج المحفوظة مسبقًا. تحديد الهوية هو عملية تحديد هوية الفرد. يتم جمع عينات القياسات الحيوية ومقارنتها مع جميع النماذج الموجودة في قاعدة البيانات. يوجد تعريف في مجموعة مغلقة من العلامات المميزة إذا تم افتراض وجود الشخص في قاعدة البيانات. وبالتالي ، فإن التعرف يجمع بين أحد المصطلحين أو كليهما - التحقق وتحديد الهوية.
في كثير من الأحيان ، بالإضافة إلى نتيجة المقارنة المباشرة ، من المطلوب تقييم مستوى “ثقة” النظام في قراره. يسمى هذا المعني”درجة التماثل”أو درجة التشابه، (similarity score) تشير درجة التشابه الأعلى إلى أن عينتي القياسات الحيوية المقارنتين أكثر تشابهًا.
هناك عدد من الطرق لتقييم جودة عمل النظام (كما هو الحال في مهمة التحقق وتحديد الهوية). سنتحدث عنهم في المرة القادمة. وأنتم ابقوا معنا ولا تترددوا في ترك التعليقات وطرح الأسئلة.
ملاحظات
- Fukushima (1980) «Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,» Biological Cybernetics.
- LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard and L.D. Jackel (1989) «Backpropagation Applied to Handwritten Zip Code Recognition», Neural Computation, vol. 1, pp., 541−551.
- Jiaxuan You, Xiaocheng Li, Melvin Low, David Lobell, Stefano Ermon
Deep Gaussian Process for Crop Yield Prediction Based on Remote Sensing Data. - Ian Goodfellow, Yoshua Bengio, Aaron Courville (2016) Deep Learning. MIT press.
- Poh, C-H. Chan, J. Kittler, Julian Fierrez (UAM), and Javier Galbally (UAM)(2012) Description of Metrics For the Evaluation of Biometric Performance.
- How computers are learning to be creative. (TED)