ถึงเพื่อนรัก! การพูดคุยเกี่ยวกับการประยุกต์ใช้งานโครงข่ายประสาทเทียมที่หลากหลายจะเป็นไปไม่ได้เลย และจะไม่สมบูรณ์หากไม่มีเรื่องราวของโครงข่ายประสาทเทียม ประวัติการวิจัย และประเภทหลักของระบบประสาทเทียม ดังนั้น เราจะเริ่มพูดถึงจากสิ่งนี้
คำนำ
หนึ่งในนวัตกรรมที่สำคัญที่สุดในโลกของการวิจัยในช่วงสิบปีที่ผ่านมา คือ การแนะนำการใช้งานด้านประสาทวิทยาศาสตร์ และคอมพิวเตอร์วิทัศน์บนแอปพลิเคชั่นเพื่อทำความเข้าใจภาพถ่าย และฉากหลัง ในช่วงห้าสิบปีที่ผ่านมา ปัญหาการจดจำวัตถุถือเป็นงานที่ซับซ้อนที่สุดในด้านคอมพิวเตอร์วิทัศน์
การจดจำวัตถุเป็นคุณสมบัติพื้นฐาน และเป็นโครงสร้างพื้นฐานมากที่สุดของระบบการมองเห็นของเรา เป็นพื้นฐานของงานด้านความรู้ความเข้าใจอื่น ๆ เช่น การเคลื่อนไหว และการมีโต้ตอบกันในสังคม ดังนั้น ความเข้าใจเชิงทฤษฎี และแบบจำลองของการรู้จำวัตถุจึงเป็นปัญหาสำคัญประการหนึ่งในประสาทวิทยาเชิงคำนวณ
สำหรับคนส่วนใหญ่ การรับรู้ทางสายตาถือเป็นประสาทสัมผัสที่สำคัญที่สุดในประสาทสัมผัสทั้งห้าซึ่งพวกเขาใช้ในชีวิตประจำวัน เกือบสองในสามของข้อมูลที่เราได้รับจากประสาทสัมผัสของเราคือข้อมูลภาพ มีงานมากมายที่เราทำระหว่างการประมวลผลของการรับรู้ด้วยภาพ: การค้นหาวัตถุในภาพซึ่งดึงดูดความสนใจของเรา ทำความเข้าใจว่าวัตถุนั้นเป็นตัวแทนของอะไรโดยไม่คำนึงถึงตำแหน่ง และการเปลี่ยนแปลงของขนาด การเอาชนะอุปสรรคของแสงสว่าง และการเปลี่ยนแปลงของสี การจดจำความไม่เป็นระเบียบ วัตถุ และอื่น ๆ อีกมากมาย มนุษย์ทำงานเหล่านี้โดยไม่ต้องใช้ความพยายาม อย่างไรก็ตาม งานเหล่านี้ดูเหมือนจะทำได้ยากมากเมื่อเราพยายามจำลองงานเหล่านี้ด้วยระบบประดิษฐ์

หนึ่งในผู้บุกเบิกการวิจัยเซลล์ประสาท คือ นักประสาทวิทยาชาวสเปนซึ่งเป็นผู้ที่ได้รับรางวัลโนเบล Santiago Ramón y Cajal และเป็นคนแรกที่อธิบาย และวาดภาพ (เมื่อเราพูดถึงศตวรรษที่ 19) ประเภทหลักของเซลล์ประสาทสมองในเพศชายจากด้านบนลงล่าง คุณสามารถชมภาพวาดที่ยอดเยี่ยมของเขาได้ ที่นี่ แน่นอนว่าปัจจุบันเราได้ทราบว่าข้อสรุปบางอย่างของเขาไม่ถูกต้องแต่หลักการสำคัญในการทำงานของสมองของเขา เขาได้อธิบายเอาไว้อย่างถูกต้อง
นักวิทยาศาสตร์หลายชั่วอายุคนหลังจาก Ramón y Cajal ศึกษาพื้นฐานของอวัยวะมนุษย์ที่ซับซ้อนที่สุดนี้ แต่ถึงกระนั้นทุกวันนี้ เรายังไม่เข้าใจการทำงานของสมองมากนัก นักวิทยาศาสตร์ได้พยายามจำลองการทำงานของสมองตั้งแต่ช่วงทศวรรษ 1950 เป็นต้นไป โดยใช้ระบบแอนะล็อก[1] และโครงข่ายประสาทดิจิทัล แนวคิดของโครงข่ายประสาทเทียมได้รับการแนะนำโดย Warren McCulloch และ Walter Pitts ในปี พ.ศ. 2486[2] หลักการของการเรียนรู้ของโครงข่ายประสาทเทียมนั้นเริ่มต้นจากพื้นฐานของการทำงานของสมอง และกฎของการสร้างสารสื่อประสาทไซแนปส์ ซึ่งเป็นโครงสร้างที่อนุญาตให้เซลล์ประสาท (หรือเซลล์ประสาท) ส่งสัญญาณไฟฟ้า หรือเคมีไปยังเซลล์ประสาทอื่นได้[3]
ซึ่งส่งผลให้มีการเสนอมุมมองลำดับชั้นของระบบการมองเห็นของมนุษย์บนพื้นฐานของการพิจารณาจากชั้นของเซลล์ที่ซับซ้อน และเรียบง่ายในเปลือกสมองของการมองเห็น ในช่วงห้าสิบปีก่อนหน้า แนวคิดเรื่องลำดับชั้นจากการสตรีมมิ่งได้นำการประมวลผลภาพถ่ายมาใช้ครั้งแรกโดยนักวิทยาศาสตร์คอมพิวเตอร์วิทัศน์เพื่อสร้างแบบจำลองลำดับชั้นเชิงทฤษฎีสำหรับการจดจำวัตถุ แบบจำลองทางชีววิทยาที่เป็นไปได้ และโครงข่ายประสาทเทียมได้ถูกนำมาใช้ในคอมพิวเตอร์วิทัศน์ในช่วงสามสิบปีที่ผ่านมา แต่จนกระทั่งเมื่อไม่นานมานี้ ความซับซ้อนในการคำนวณของสถาปัตยกรรมประเภทนี้จะไม่อนุญาตให้นักวิจัยสร้าง และฝึกแบบจำลองที่ซับซ้อนบนพื้นฐานโครงสร้างทางทฤษฎีนี้ในโลกแห่งความจริง เมื่อประมาณ 10 ปีที่แล้ว รุ่นแรกของคอมพิวเตอร์วิทัศน์เริ่มปรากฏตัวขึ้นให้เห็น เนื่องจากมีโครงสร้างหลายชั้นที่ซับซ้อน สถาปัตยกรรมเหล่านี้จึงถูกเรียกว่า ‘ลึก’
ความแม่นยำของระบบคอมพิวเตอร์วิทัศน์ในสมัยใหม่นั้นมีมากกว่าของมนุษย์[4] ซึ่งสามารถทำงานหลายอย่าง เช่น: งานการจดจำภาพระดับต่ำ เช่น การตรวจจับขอบเขต งานระดับกลาง (การตรวจจับความสามารถพิเศษ การแบ่งส่วนความหมาย) และงานระดับสูงเป็นการระบุวัตถุ
ในบทความนี้ เราจะอธิบายสั้น ๆ เกี่ยวกับเทคโนโลยีซึ่งรองรับงานเหล่านี้ทั้งหมด และอธิบายหลักการพื้นฐานของการนำเทคโนโลยีนี้ไปใช้กับปัญหาของการจดจำใบหน้า
อุปสรรคของการจดจำใบหน้า
เมื่อเทียบกับงานการจดจำวัตถุทั่วไป การจดจำใบหน้านั้นท้าทายกว่า เนื่องจากต้องใช้เครื่องมือที่แม่นยำกว่าสำหรับการตรวจจับใบหน้า การจดจำ และการระบุตัวตน มีอุปสรรคมากมาย เช่น: การสบกันของฟันบน และล่าง (ผม แว่นตา หน้ากาก เครา) การเปลี่ยนแปลงของสี แสงสว่าง และการเปลี่ยนแปลงของการส่องแสงสว่าง การหันศรีษะ และอายุ เป็นต้น
นอกจากปัญหาที่เห็นได้ชัดเหล่านี้แล้ว ยังมีปัญหาเฉพาะที่เกี่ยวข้องกับการจดจำใบหน้าอย่างอื่นอีกเช่น:
- ความสามารถในการตรวจจับความแตกต่างที่มีเล็กน้อยระหว่างใบหน้าของบุคคลที่มีใบหน้าคล้ายกัน
- ความสามารถในการอธิบายประเภทของวัตถุที่ไม่ได้อยู่ในตัวอย่างของการฝึกฝน
และด้วยเหตุผลทั้งหมดนี้ จึงทำให้เทคโนโลยีที่ใช้ในการระบุตัวตนมีอุปสรรคด้านการจดจำใบหน้า
รายละเอียดของเทคโนโลยี
มีระบบคอมพิวเตอร์วิทัศน์จำนวนมากสำหรับการจดจำภาพถ่าย ก่อนหน้านี้มีการใช้วิธีการต่าง ๆ มากมาย เช่น การแปลงค่าคงที่ของมาตราส่วน (SIFT) อัลกอริทึธึมในคอมพิวเตอร์วิทัศน์เพื่อตรวจจับ และอธิบายคุณลักษณะภายในจากภาพถ่าย หรือฮิสโตแกรมของการไล่ระดับสีเชิงทิศทาง (HOG) ตัวบอกคุณลักษณะที่ใช้คอมพิวเตอร์วิทัศน์ และการประมวลผลภาพถ่ายเพื่อวัตถุประสงค์ในการตรวจจับวัตถุ ในงานด้านการจดจำวัตถุทั่ว ๆ ไป หนึ่งในอัลกอริธึมเหล่านี้มักจะถูกนำไปรวมเข้ากับตัวแยกประเภทอย่างเรียบง่าย เช่น support vector machine (SVM) เพื่อทำงานด้านการจดจำวัตถุ อย่างไรก็ตาม แนวทางโครงข่ายประสาทเทียมมีความได้เปรียบที่เหนือชั้นในตลาด เนื่องจากวิธีนี้มีประสิทธิภาพเหนือกว่าวิธีการทั่วไปมากตั้งแต่ปี พ.ศ. 2555
ประสิทธิภาพของวิธีการจดจำภาพถ่ายแบบต่าง ๆ ถูกนำมาเปรียบเทียบกับ Imagenet Large Scale Visual Recognition Challenge (ILSVCR) ประจำปีตั้งแต่ปี พ.ศ. 2553 ILSVCR เป็นการแข่งขันที่ทางทีมวิจัยจัดส่งโปรแกรมที่จำแนก และตรวจจับวัตถุ และฉากหลังเข้าร่วมแข่งขัน ในปี พ.ศ. 2555 โครงข่ายประสาทเทียมแบบคอนโวลูชันลึกมีความแม่นยำสูงสุดในประวัติศาสตร์ด้วยการแซงหน้าคู่แข่งที่ 16% ตั้งแต่นั้นมา โครงข่ายประสาทเทียมแบบคอนโวลูชันก็เอาชนะอุปสรรคทั้งหมดได้มาจนถึงปัจจุบัน ภายในปี พ.ศ. 2558 นักวิจัยรายงานว่าซอฟต์แวร์มีความสามารถในการจดจำมนุษย์ได้มากกว่าความสามารถในงาน ILSVCR บางงาน ดังนั้น แนวทางปฏิบัติของโครงข่ายประสาทเทียม โดยเฉพาะอย่างยิ่งโครงข่ายประสาทเทียม (หากมีข้อมูลเพียงพอ) ถือเป็นอัลกอริธึมที่มีประสิทธิภาพดีที่สุดสำหรับการจดจำภาพถ่าย (โปรดดู ที่นี่ และ ที่นี่)
อุปสรรคที่คล้ายคลึงกัน และสำหรับการจดจำใบหน้าบนภาพถ่ายได้เกิดขึ้นในปี พ.ศ. 2558 (อุปสรรคของ MegaFace ครั้งแรก) ชุดข้อมูลสำหรับอปุสรรคนี้ประกอบไปด้วยภาพถ่ายจำนวนหนึ่งล้านภาพที่จับภาพของบุคคลต่าง ๆ ได้มากกว่า 690,000 ภาพ อัลกอริธึมที่ใช้โครงข่ายประสาทเทียมมีประสิทธิภาพเหนือกว่าวิธีการทั่วไปทั้งหมด และสามารถเอาชนะอุปสรรคได้ทั้งในปี พ.ศ. 2558 และ 2559
อย่างไรก็ตาม ในปี พ.ศ. 2558 อัลกอริธึมของ NtechLab ชนะการแข่งขัน MegaFace โดยเอาชนะห้องปฏิบัติการดิจิทัลชั้นนำของโลกซึ่งรวมไปถึง Google มหาวิทยาลัยปักกิ่ง และอีกหลายทีมจากทั่วรัสเซีย
โครงข่ายประสาทเทียมคืออะไร และประเภทหลักของโครงข่ายประสาทเทียมคืออะไร กระบวนการเรียนรู้ของเครื่องทำงานอย่างไร เราจะบอกคุณให้ลึกซึ้งมากขึ้นจากหนึ่งในโพสต์ต่อไปนี้ อย่าเพิ่งไปไหน! และโปรดแสดงความคิดเห็น หรือถามคำถามของคุณ
[1] Rosenblatt, Frank (1957), The Perceptron-a perceiving and recognizing automaton. Report 85−460−1, Cornell Aeronautical Laboratory.
[2] A logical calculus of the ideas immanent in nervous activity // Bulletin of Mathematical Biology. — New York: Springer New York, 1943. — Т. 5, № 4. — С. 115—133.
[3] Donald Olding Hebb. The Organization of Behavior: A Neuropsychological Theory. — Wiley, 1949. — 335 p
[4] Fukushima К., Miyake S., Takayuki I. Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transaction on Systems, Man and Cybernetics SMC-13(5):826−34. — 1983.