Facial recognition video analytics is evolving. Trends in 2022

Phân tích video là phần mềm dựa trên trí tuệ nhân tạo. Phần mềm phát hiện và nhận dạng khuôn mặt và các đối tượng khác trong luồng video rồi trích xuất nhiều loại dữ liệu khác nhau từ các luồng này. Thị trường phần mềm phân tích video toàn cầu hiện được định giá 5,9 tỷ đô la Mỹ và được kỳ vọng đạt mức 14,9 tỷ đô la Mỹ vào năm 2026, theo MarketsandMarkets [1].

Vượt ra ngoài phạm vi an ninh

Hệ thống video giám sát không còn được coi là công cụ an ninh nữa. Các công dụng mới bao gồm việc đưa các công nghệ phân tích video vào nhà thông minh, nhà máy thông minh, cảng biển thông minh hoặc thành phố thông minh để tạo ra môi trường thoải mái và an toàn cho mọi người, kể cả người khuyết tật.

Ví dụ, nếu ai đó vấp ngã rồi sau đó nằm bất tỉnh trên đường, hệ thống của chúng tôi sẽ nhận ra và gửi cảnh báo đi. Một ví dụ khác khi camera thành phố thu thập dữ liệu giao thông và sử dụng thông tin này để nhận ra các địa điểm nguy hiểm tiềm tàng.

Ví dụ, bạn có thể nhận diện một địa điểm nơi học sinh thường qua đường ở một địa điểm nhất định, sau đó giới thiệu gờ giảm tốc hoặc đảo an toàn để giảm thiểu tai nạn tiềm tàng. Trong ví dụ này, việc nhận dạng khuôn mặt là không cần thiết, thay vào đó phát hiện bóng người là đủ.

Thuật toán trở thành sản phẩm

Vào thời kỳ đầu lịch sử lĩnh vực thị giác máy tính, những nhà phát triển xây dựng thuật toán phân tích video trong môi trường giáo dục sử dụng dữ liệu tổng hợp để giảng dạy và về cơ bản là lập trình thuật toán. Việc này được thực hiện trong môi trường chân không để đánh giá xem công nghệ có hoạt động hay không. Như trong tất cả các lĩnh vực máy tính, chúng ta đã đi một chặng đường dài kể từ đó. Ngày nay, việc phát triển phân tích video tập trung vào ứng dụng thực tế. Ví dụ, các công ty viết thuật toán được thiết kế để giải quyết các thử thách có thật, rồi phát hành phần mềm như là một sản phẩm có thể sử dụng ngay. Một ví dụ điển hình cho việc này là hệ thống thanh toán tự phục vụ cho phép khách hàng thanh toán dựa vào nhận dạng khuôn mặt.

Ngày nay, việc nghiên cứu và hoàn thiện này có mặt ở khắp mọi nơi, từ sinh trắc học đến nhận dạng phương tiện, phân tích hình ảnh y tế và nhiều lĩnh vực khác. Thậm chí cả các nhà nghiên cứu hàn lâm cũng sử dụng dữ liệu thực để dạy thuật toán tập trung vào ứng dụng thực tế.

Khái niệm sản phẩm tất cả trong một

Các thuật toán phân tích video thời kỳ đầu được phát triển và sử dụng riêng biệt. Nhận dạng khuôn mặt, xe ô tô và phản ứng với tình huống bất ngờ chỉ có trong một vài ứng dụng riêng biệt. Tuy nhiên, ngày nay các nhà phát triển đã kết hợp nhiều thuật toán vào gói tất cả trong một với các phân tích được kết nối với nhau. Điều này là vì lợi ích người sử dụng do vì hiệu ứng tổng hợp này cho phép sử dụng trong các trường hợp mới mà trước đây không thể có.

Ngày nay các gói phần mềm thường bao gồm nhận dạng khuôn mặt, bóng người, xe và các vật thể khác. Phần mềm nhận dạng hành động con người cũng sắp xuất hiện. Người sử dụng có thể kiểm soát tất cả các “đối tượng” từ một giao diện người dùng đơn lẻ và dữ liệu của tất cả các đối tượng được thu từ cùng một camera.

Tối ưu hoá tài nguyên

Trong các thuật toán phân tích video rất nhiều phần mềm hoạt động tốt nhưng đòi hỏi lượng lớn tài nguyên máy tính. Điều này đương nhiên không phù hợp với tất cả người dùng và việc tối ưu hoá là cần thiết. Ví dụ, việc phần cứng để triển khai phân tích video lớn đòi hỏi khoản đầu tư lớn.

Và kết quả làm, các nhà phát triển đang tối ưu hóa các thuật toán để hoạt động nhanh trên phần cứng trung bình nhằm giúp khách hàng tiết kiệm chi phí. Thuật toán càng cần ít tài nguyên, càng nhiều khách hàng có khả năng chi trả cho công nghệ phân tích video.

Yêu cầu về tính dễ sử dụng của các nền tảng phân tích video mới này cũng đang tăng lên. Điều này dẫn tới sự phát triển của các hệ thống gần như chỉ cần cắm điện và chạy. Người sử dụng không còn cần nhiều thời gian và tài nguyên để cấu hình hệ thống, họ chỉ cần mở hộp sản phẩm, nhấn vài nút và nền tảng sẽ tự khởi chạy.

Dự đoán các hành vi gây hấn ngày nay là chuyện trong huyền thoại

Trong khi các khu vực đô thị lớn nói chung đang trở nên an toàn hơn để sinh sống, cho dù đó là New York [2] hay Mát-xcơ-va [3], chúng ta sẽ nhớ đến năm 2021 cùng với một số vụ bạo lực súng đạn nổi bật, cả trên đường phố và trong các khuôn viên của các cơ sở giáo dục.

Hàng chục người đã bị sát hại và bị thương trong một cuộc tấn công tại trường học tại Kazan và trường đại học tại Perm. Điều này dẫn tới sự quan tâm rất lớn đến phần mềm có thể phát hiện súng và các hành vi hung hãn cũng như phần mềm có thể dự đoán hành vi gây hấn.

Ngày nay, người ta đã có thể sử dụng phân tích video để xác định súng và các hành động nguy hiểm, chẳng hạn như đánh nhau và người ngã trên đường phố. Chúng tôi kỳ vọng phần mềm này sẽ được vận hành trong môi trường thực với độ chính xác cao sớm nhất là trong năm tới.

Tuy nhiên, trí tuệ nhân tạo vẫn chưa thể dự đoán hành vi gây hấn, ít nhất là bằng phân tích video. Các thuật toán dự đoán này có tồn tại; chúng đang ở giai đoạn đầu trong quá trình phát triển. Chúng chưa thể được sử dụng trong đời thật vì nhiều kết quả dự đoán sai.

Nguồn:

1) www.marketsandmarkets.com/Market-Reports/intelligent-video-analytics-market-778.html
2) www.nytimes.com/2021/03/16/upshot/murder-rate-usa.html
3) www.tass.ru/obschestvo/8 984 151