Các bạn, chúng tôi quyết định rằng không thể nói về ứng dụng thực tế của mạng nơ-ron mà không nói về chính mạng thần kinh, và do đó, một phần bài viết của chúng tôi sẽ được dành cho chủ đề cụ thể này. Chúng tôi sẽ bắt đầu với một giới thiệu ngắn về nhận dạng khuôn mặt và sinh trắc học khuôn mặt.

Một trong những đổi mới quan trọng nhất của giới nghiên cứu trong thập kỷ qua là sự ra đời của các công nghệ nhận dạng. Từ giữa thế kỷ trước, vấn đề nhận dạng vật thể đã được coi là nhiệm vụ khó khăn nhất trong lĩnh vực thị giác máy tính.

Nhận dạng mẫu là một trong những thuộc tính quan trọng nhất của hệ thống thị giác của chúng ta. Nó là cơ sở của các chức năng nhận thức khác trong não, chẳng hạn như chuyển động và tương tác xã hội. Do đó, tự động hóa nhận dạng mẫu là một trong những nhiệm vụ trung tâm trong lĩnh vực sinh lý thần kinh tính toán.

Nhận thức bằng thị giác được coi là quan trọng nhất trong năm giác quan mà chúng ta sử dụng trong cuộc sống hàng ngày. Gần 2/3 thông tin chúng ta nhận được từ các giác quan chủ yếu là từ thị giác. Trong quá trình nhận thức bằng mắt, chúng ta xử lý phạm vi nhiệm vụ rộng nhất: chúng ta tìm thấy các đối tượng trong hình ảnh thu hút sự chú ý của mình, chúng ta hiểu chúng là loại đối tượng nào, bất kể những thay đổi về vị trí, kích thước của đối tượng, thay đổi về ánh sáng hoặc thay đổi về màu sắc của bức hình; chúng ta nhận ra các đối tượng mờ và nhiều thứ khác nữa. Con người thực hiện các nhiệm vụ này mà không cần bất kỳ nỗ lực nào. Tuy nhiên, ở cấp độ nhân tạo, cực kỳ khó để lập trình một hệ thống như vậy.

Những quá trình nhận thức dựa trên các cơ chế thần kinh đã được các nhà sinh lý học thần kinh chuyên về tính toán nghiên cứu trong nhiều thập kỷ. Một trong những người tiên phong nổi tiếng nhất trong việc nghiên cứu hoạt động của các tế bào thần kinh có thể được coi là Santiago Ramón y Cajal (được coi là từ thế kỷ XIX), người đã lần đầu tiên nghiên cứu, phản ánh và mô tả các kiểu tế bào thần kinh chính trong não người một cách kỹ lưỡng nhất. Bạn có thể xem những bức vẽ tuyệt vời của ông ấy tại đây.

Kể từ những năm 50 của thế kỷ trước, lúc đầu các nhà khoa học đã cố gắng mô phỏng hoạt động của bộ não bằng cách sử dụng mạng nơ-ron tương tự[1] và sau đó là mạng nơ-ron kỹ thuật số. Khái niệm về mạng nơ-ron nhân tạo được Warren McCulloch và Walter Pitts đưa ra năm 1943[2]. Các nguyên tắc đào tạo của các mạng nơ-ron ban đầu được lấy từ các nguyên lý cơ bản của não và các quy tắc để xây dựng các xi-náp — kết nối giữa các nơ-ron vật lý[3]. Kết quả là, một biểu đồ phân cấp của hệ thống thị giác của con người đã được đề xuất, nó dựa trên các lớp tế bào phức tạp và đơn giản nằm trong vùng thị giác của não. Vào nửa sau của thế kỷ trước, khái niệm phân cấp trong luồng xử lý thị giác lần đầu tiên được các nhà khoa học trong lĩnh vực thị giác máy tính sử dụng để xây dựng mô hình phân cấp lý thuyết đầu tiên về nhận dạng đối tượng[4]. Là mô hình giống như thật về mặt sinh học, các mạng nơ-ron này đã được sử dụng trong thị giác máy tính trong nhiều thập kỷ sau đó. Tuy nhiên, cho đến gần đây, sự phức tạp về tính toán của kiểu kiến ​​trúc này đã ngăn cản các nhà nghiên cứu tạo và đào tạo một mô hình phân lớp phức tạp dựa trên chính cấu trúc lý thuyết này. Những mô hình đầu tiên của loại này chỉ bắt đầu xuất hiện gần đây. Do cấu trúc nhiều lớp phức tạp của chúng, những kiến ​​trúc này đã được gọi là “sâu” (deep).

Độ chính xác nhận dạng của hệ thống thị giác máy tính hiện đại trong nhiều nhiệm vụ cao hơn so với con người [5]. Chúng có khả năng thực hiện một số nhiệm vụ cùng lúc: nhiệm vụ nhận dạng hình ảnh cấp thấp (ví dụ: phát hiện ranh giới đối tượng), nhiệm vụ cấp trung (làm nổi bật các phần có thể nhìn thấy của hình ảnh), cấp trung bình (nhận dạng đối tượng) và nhiệm vụ cấp cao hơn (phân đoạn ngữ nghĩa). Chúng ta hãy thử mô tả ngắn gọn công nghệ làm nền tảng cho tất cả các nhiệm vụ này, cũng như nguyên tắc cơ bản của việc áp dụng công nghệ này vào vấn đề nhận dạng khuôn mặt.

Những khó khăn trong việc nhận dạng khuôn mặt

So với các nhiệm vụ nhận dạng các vật thể thông thường, nhận dạng khuôn mặt người khó hơn, vì nó đòi hỏi các công cụ chính xác hơn để phát hiện và nhận dạng khuôn mặt. Có rất nhiều vấn đề liên quan đến điều này. Ngoài những khó khăn thông thường, như: sự hiện diện của các vật cản trên mặt (tóc, kính, khẩu trang y tế, râu); việc quay đầu, thay đổi liên quan đến tuổi, v.v., còn có một số vấn đề cụ thể đối với nhận dạng khuôn mặt, ví dụ:

  • cần phải phân biệt những khác nhau rất nhỏ giữa khuôn mặt của những người giống nhau
  • khả năng mô tả những lớp đối tượng không có trong mẫu đào tạo

Tất cả những nguyên nhân này làm phức tạp thêm nhiệm vụ nhận dạng khuôn mặt để lấy dữ liệu sinh trắc học.

Mô tả công nghệ

Có nhiều hệ thống thị giác máy tính sử dụng để phân tích và nhận dạng hình ảnh. Nhiều phương pháp nhận dạng đã được sử dụng trước đó, chẳng hạn như SIFT (scale-invariant feature transform, biến đổi tính năng bất biến tỷ lệ)[6], một thuật toán để phát hiện và mô tả các đặc trưng cục bộ trong hình ảnh hoặc biểu đồ của gradient có hướng (HOG)[7], những mô tả của các điểm đặc biệt được sử dụng trong thị giác máy tính để xử lý hình ảnh nhằm phát hiện và nhận dạng một đối tượng. Các phương pháp tiếp cận nhận dạng hình ảnh truyền thống thường kết hợp một trong những thuật toán này với một bộ phân loại như máy vectơ hỗ trợ (SVM)[8] để hoàn thành nhiệm vụ nhận dạng đối tượng. Tuy nhiên, cách tiếp cận mạng nơ-ron vượt trội hơn hẳn so với các cách tiếp cận truyền thống.

Kể từ năm 2010, hiệu quả của các phương pháp nhận dạng mẫu khác nhau đã bắt đầu được đo lường trong cuộc thi nhận dạng mẫu quy mô lớn hàng năm ImageNet, cơ sở dữ liệu hình ảnh khổng lồ (ILSVCR), cuộc thi lớn nhất trong đó các nhóm nghiên cứu khác nhau cạnh tranh việc phân loại và nhận dạng các đối tượng và các cảnh. Vào năm 2012, mạng nơ-ron tích chập sâu đạt được độ chính xác cao nhất trong lịch sử, vượt trội đối thủ cạnh tranh tới 16%. Kể từ đó, mạng nơ-ron tích chập, trong điều kiện có đủ dữ liệu, đã vượt trội hơn đáng kể so với các phương pháp khác trong tất cả các cuộc thi như vậy.

Vào đầu năm 2015, dựa trên các ví dụ về việc thực hiện một số tác vụ ILSVCR, các chuyên gia đã báo cáo rằng máy tính đã vượt quá khả năng nhận dạng của con người (xem cụ thể tại đâyđây). Điều thú vị là ILSVCR cuối cùng sẽ diễn ra trong năm nay: các nhà nghiên cứu đang chuyển sang các nhiệm vụ khó hơn, một trong số đó là nhận dạng khuôn mặt.

Một cuộc thi tương tự, nhưng để nhận dạng khuôn mặt, đã được đưa ra vào năm 2015 (MegaFace challenge). Bộ dữ liệu cho nhiệm vụ này bao gồm một triệu bức ảnh của hơn 690.000 người khác nhau. Các thuật toán sinh trắc học khuôn mặt dựa trên mạng nơ-ron đã vượt qua tất cả các phương pháp truyền thống và giành chiến thắng trong cuộc thi vào năm 2015 và 2016[9].

Vào tháng 12 năm 2015, thuật toán của công ty NtechLab đã giành chiến thắng trong cuộc thi MegaFace, đánh bại các chương trình của các đối thủ nặng ký như Google.

Chúng tôi sẽ cho bạn biết thêm về mạng nơ-ron là gì, về các loại mạng thần kinh trong một trong các bài viết sau. Đừng chuyển hướng khác!

CHÚ THÍCH

[1] Rosenblatt, Frank (1957), The Perceptron—a perceiving and recognizing automaton. Report 85−460−1, Cornell Aeronautical Laboratory.

[2] A logical calculus of the ideas immanent in nervous activity // Bulletin of Mathematical Biology. — New York: Springer New York, 1943. — Т. 5, № 4. — С. 115—133.

[3] Donald Olding Hebb. The Organization of Behavior: A Neuropsychological Theory. — Wiley, 1949. — 335 p

[4] Fukushima К., Miyake S., Takayuki I. Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transaction on Systems, Man and Cybernetics SMC-13(5):826−34. — 1983.

[5] Fukushima К., Miyake S., Takayuki I. Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transaction on Systems, Man and Cybernetics SMC-13(5):826−34. — 1983.

[6] Lowe D. (1999). «Object recognition from local scale-invariant features» (PDF). Proceedings of the International Conference on Computer Vision. 2. pp. 1150−1157.

[7] Dalal N., Triggs B.(2005) Histograms of Oriented Gradients for Human Detection. In proc. Of CVPR conference.

[8] Vapnik, Vladimir N.; The Nature of Statistical Learning Theory, Springer-Verlag, 1995. ISBN 0−387−98780−0

[9] «The MegaFace Benchmark: 1 Million Faces for Recognition at Scale», Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016