أيها الأصدقاء ، قررنا أن الحديث عن التطبيق العملي للشبكات العصبية سيكون مستحيلا بدون الحديث عن الشبكات العصبية نفسها ، وبالتالي سيتم تخصيص جزء من منشوراتنا لهذا الموضوع بالذات. سنبدأ بمقدمة قصيرة في مسألة التعرف على الوجوه والقياسات الحيوية للوجه.

إن أحد أهم الابتكارات في عالم الأبحاث على مدار العقد الماضي هو إدخال تقنيات التعرف. منذ منتصف القرن الماضي ، تم اعتبار مشكلة التعرف على الأشياء أصعب مهمة في مجال رؤية الكمبيوتر.

يعد التعرف على الأنماط أحد أهم خصائص نظامنا البصري. إنه أساس الوظائف المعرفية الأخرى في الدماغ ، مثل الحركة والتفاعلات الاجتماعية. لذلك ، فإن التعرف على الأنماط في شكل آلي هي إحدى المهام المركزية في مجال الفسيولوجيا العصبية الحسابية.

يعتبر الإدراك البصري من أهم الحواس الخمس التي نستخدمها في حياتنا اليومية. ما يقرب من ثلثي المعلومات التي نتلقاها من حواسنا ذات طابع مرئي. أثناء الإدراك البصري، نقوم بمعالجة أكبر مجموعة من المهام: نجد أشياء في الصورة تجذب انتباهنا ، ونفهم نوع الأشياء، بغض النظر عن التغييرات في موضعها أو حجمها أو التغييرات في الإضاءة أو التغييرات في لون الصورة؛ و نتعرف على الأشياء الغامضة وغير ذلك الكثير. يقوم الشخص بهذه المهام دون أي جهد. ومع ذلك، من الصعب للغاية تصميمها على مستوى نظام الذكاء الاصطناعي.

تمت دراسة العمليات الإدراكية الكامنة وراء الآليات العصبية من قبل علماء الفسيولوجيا العصبية الحاسوبية لعقود. يمكن اعتبار سانتياغو رامون إي كاخال أحد أشهر الرواد في دراسة عمل الخلايا العصبية، والذي قام ولأول مرة بدراسة شاملة (قدر الإمكان في القرن التاسع عشر) وتصوير ووصف الأنواع الرئيسية للخلايا العصبية في الدماغ البشري. يمكنك مشاهدة رسوماته الجميلة هنا.

منذ الخمسينيات من القرن الماضي تقريبا، حاول العلماء محاكاة عمل الدماغ أولا بإستخدام النماذج المتناظرة[1]، ثم بعد ذلك بإستخدام الشبكات العصبية الرقمية. تم تقديم مفهوم الشبكة العصبية الاصطناعية بواسطة العلماء وارن ماكولوتش و والتر بيتس في عام 1943 [2]. تم أخذ مبادئ تعلم الشبكات العصبية في الأصل من أساسيات عمل الدماغ وقواعد بناء نقاط التشابك العصبي والروابط بين الخلايا العصبية الفيزيائية [3]. نتيجة لذلك، تم اقتراح تمثيل تسلسل هرمي للنظام البصري البشري، بناءً على طبقات من الخلايا المعقدة والبسيطة الموجودة في مناطق الرؤية في المخ. في النصف الثاني من القرن الماضي، تم استخدام مفهوم التسلسل الهرمي هذا في تدفق المعالجة البصرية لأول مرة من قبل العلماء في مجال الرؤية الحاسوبية لبناء أول نموذج هرمي نظري للتعرف على الأشياء [4]. كنماذج معقولة بيولوجيًا، تم استخدام هذه الشبكات العصبية في مجال رؤية الكمبيوتر في العقود التالية. ومع ذلك، وحتى وقت قريب، منع التعقيد الحسابي لهذا النوع من البناء الباحثين من إنشاء وتدريب نموذج معقد متعدد المستويات يعتمد على هذا البناء النظري. بدأت النماذج الأولى من هذا النوع في الظهور مؤخرًا فقط. بسبب هيكلها الطبقي المعقد، سميت هذه الأبنية “العميقة” أو “السحيقة”.

دقة التعرف لدي أنظمة الرؤية الحاسوبية الحديثة في العديد من المهام أعلى من دقة التعرف عند الإنسان [5]. هذه الأنظمة قادرة على أداء عدة مهام في نفس الوقت: مهام التعرف المرئي منخفضة المستوى (على سبيل المثال: اكتشاف حدود الكائن)، ومهام المستوى المتوسط ​​(إفراز الأجزاء المرئية من الصورة)، والمستوى المتوسط ​​(تحديد الكائن)، و المهام ذات المستوى الأعلي (التجزئة الدلالية). دعونا نحاول بإيجاز وصف التكنولوجيا التي تكمن وراء كل هذه المهام، بالإضافة إلى المبدأ الأساسي لتطبيق هذه التقنية على مشكلة التعرف على الوجوه.

الصعوبات في التعرف على الوجوه

بالمقارنة مع مهام التعرف على الأشياء العادية، يعد التعرف على الوجوه البشرية أكثر صعوبة، حيث يتطلب أدوات أكثر دقة لاكتشاف الوجه وتحديد الهوية. هناك العديد من المشاكل المرتبطة بهذا. بالإضافة إلى الصعوبات المعتادة مثل: وجود أشياء تغطي الوجه (شعر، نظارات، قناع طبي، لحية) ؛ تحولات الرأس، والتغيرات المرتبطة بالعمر، وما إلى ذلك، توجد هناك عدد من المشاكل الخاصة بالتعرف على الوجوه، على سبيل المثال:

  • ضرورة إيجاد الفروق الدقيقة في بعض الأحيان بين وجوه الأشخاص المتشابهين
  • القدرة على وصف تلك الفئات من الأشياء غير الموجودة في عينة التدريب

كل هذه الأسباب تعقد مهمة التعرف على الوجوه للحصول على البيانات الحيوية.

وصف التكنولوجيا

هناك العديد من أنظمة الرؤية الحاسوبية المخصصة من أجل تحليل الصور والتعرف عليها. تم استخدام العديد من طرق التعرف في وقت سابق، مثل SIFT (scale-invariant feature transform)[6]، وهي خوارزمية لاكتشاف ووصف السمات المحلية في الصور، أو جدول بياني للتدرجات الاتجاهية (HOG)[7] واصفات النقاط المميزة التي تُستخدم في الرؤية الحاسوبية لمعالجة الصور من أجل اكتشاف كائن ما والتعرف عليه. عادة ما تجمع الطرق التقليدية للتعرف على الصور إحدى هذه الخوارزميات مع مصنف مثل دعم الإتجاهات (SVM)[8] لإنجاز مهمة التعرف على الكائن. ومع ذلك، فإن طريقة الشبكة العصبية تتفوق بشكل كبير على الأساليب التقليدية.

منذ عام 2010، تم قياس أداء الطرق المختلفة للتعرف على الأنماط في خلال المسابقة السنوية واسعة النطاق للتعرف علي الأنماط ImageNet، أكبر قاعدة بيانات للصور (ILSVCR)، وهي أكبر منافسة تنافست فيها مجموعات بحثية مختلفة في تصنيف الكائنات والمشاهد والتعرف عليها. في عام 2012، حققت الشبكة العصبية التلافيفية العميقة أعلى دقة في التاريخ، متفوقة على المنافسين بنسبة 16٪. منذ ذلك الحين، تفوقت الشبكات العصبية التلافيفية، في حالة وجود القدر الكاف من البيانات، على الطرق الأخرى في كل مثل هذه المسابقات.

بحلول بداية عام 2015، استنادًا إلى أمثلة لأداء بعض مهام ILSVCR، أفاد الخبراء أن الكمبيوتر قد تجاوز قدرات البشر في التعرف (عن هذا و على وجه الخصوص انظر هنا وهنا). ومن المثير للاهتمام، أن آخر اختبار ILSVCR سيعقد هذا العام: يتحول الباحثون إلى مهام أكثر صعوبة، وإحدي هذه المهام هي التعرف على الوجوه.

تم إطلاق مسابقة مماثلة، ولكن للتعرف على الوجوه ، في عام 2015) MegaFace challenge. ( تضمنت مجموعة البيانات الخاصة بهذه المهمة مليون صورة فوتوغرافية لأكثر من 690 ألف شخص مختلف. لقد تجاوزت خوارزميات القياسات الحيوية للوجه القائمة على الشبكات العصبية جميع الأساليب التقليدية وفازت بالمنافسة في عامي 2015 و 2016 [9].

في ديسمبر 2015 ، كانت خوارزمية شركة NtechLab هي التي فازت بمسابقة MegaFace، متغلبة على برامج المنافسين الكبيرين مثل Google.

سنخبركم بالمزيد حول ماهية الشبكة العصبية وأنواع الشبكات العصبية في إحدى المنشورات التالية. لا تقم بالتبديل!

ملاحظات

[1] Rosenblatt, Frank (1957), The Perceptron—a perceiving and recognizing automaton. Report 85−460−1, Cornell Aeronautical Laboratory.

[2] A logical calculus of the ideas immanent in nervous activity // Bulletin of Mathematical Biology. — New York: Springer New York, 1943. — Т. 5, № 4. — С. 115—133.

[3] Donald Olding Hebb. The Organization of Behavior: A Neuropsychological Theory. — Wiley, 1949. — 335 p

[4] Fukushima К., Miyake S., Takayuki I. Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transaction on Systems, Man and Cybernetics SMC-13(5):826−34. — 1983.

[5] Fukushima К., Miyake S., Takayuki I. Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transaction on Systems, Man and Cybernetics SMC-13(5):826−34. — 1983.

[6] Lowe D. (1999). «Object recognition from local scale-invariant features» (PDF). Proceedings of the International Conference on Computer Vision. 2. pp. 1150−1157.

[7] Dalal N., Triggs B.(2005) Histograms of Oriented Gradients for Human Detection. In proc. Of CVPR conference.

[8] Vapnik, Vladimir N.; The Nature of Statistical Learning Theory, Springer-Verlag, 1995. ISBN 0−387−98780−0

[9] «The MegaFace Benchmark: 1 Million Faces for Recognition at Scale», Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016