Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp
Bạn đang xem 30 trang mẫu của tài liệu "Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
LA_Vũ Hoài Nam.pdf
LA_Vũ Hoài Nam_TT.pdf
Vũ Hoài Nam_E.pdf
Vũ Hoài Nam_V.pdf
Nội dung tài liệu: Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp
- HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG VŨ HỒI NAM PHÁT HIỆN MỘT SỐ SỰ KIỆN BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH PHÂN CẤP Chuyên ngành: Kỹ thuật Máy tính Mã số: 9.48.01.06 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN (ghi ngành của học vị được cơng nhận) Hà Nội - 2023
- DANH MỤC KÝ HIỆU �τ Tập hợp các tensor đầu vào τ Tensor ℎ (.) Hàm của bộ lọc tại tầng 1 ℎ (.) Hàm của bộ lọc tại tầng 2 ℎ (.) Hàm của bộ lọc theo luật ℎ (.) Hàm của mơ hình học sâu MobileNet trong bài tốn phát hiện sạt lở ℎ (.) Hàm của mơ hình học sâu CNN � Số lượng các tensor trong tập hợp � Tập hợp các tensor đầu ra �� Chỉ số độ chính xác trung bình �� Chỉ số recall trung bình � Ngưỡng chồng lấn để xác định tỉ lệ phát hiện chính xác đối tượng bất thường ����ℎ(. ) Hàm Swish � Đầu ra dự đốn của mơ hình mạng nơ ron hồi quy RNN ( ) Tập hợp các vector đặc trưng của các đối tượng cĩ khả năng là đối tượng bất thường � tại thời điểm t Tập hợp các vector đặc trưng của các đối tượng cĩ khả năng là đối tượng bất thường ( ) � tại thời điểm t được trích xuất từ mơ hình Resnet ℎ Hàm của mơ hình học sâu Resnet trong bài tốn phát hiện lửa i
- MỞ ĐẦU Sự kiện bất thường là sự kiện xảy ra ngồi dự đốn, kế hoạch của con người [1]. Sự kiện bất thường nếu khơng được giám sát và cảnh báo kịp thời cĩ thể gây ảnh hưởng lớn đến hạ tầng, tài sản, và thậm chí tính mạng của con người. Sự kiện bất thường cĩ thể chia ra làm hai loại chính: Sự kiện bất thường do tự nhiên và sự kiện bất thường do các hoạt động của con người gây ra. Sự kiện bất thường do tự nhiên gây ra thường cĩ yếu tố ngẫu nhiên rất khĩ dự đốn và phát hiện sớm, phịng tránh [2]. Trong khi đĩ, sự kiện bất thường do hoạt động của con người gây ra cĩ thể dự đốn và phịng tránh để cảnh báo sớm. Sự kiện bất thường là một trong những nguyên nhân hàng đầu của những thiệt hại về con người và kinh tế. Do đĩ, việc xây dựng các hệ thống cảnh báo sớm là thực sự cần thiết. Với sự trợ giúp của các hệ thống phần cứng giám sát dựa trên cơng nghệ Internet vạn vật (IoT) và trí tuệ nhân tạo (AI), các sự kiện bất thường cĩ thể được phát hiện và cảnh báo sớm. Tuy nhiên, để các hệ thống giám sát dựa trên các cơng nghệ cao này đi vào thực tiễn, cần một lõi xử lý đủ mạnh để cĩ thể phát hiện, cảnh báo tự động với độ chính xác cao và tỉ lệ cảnh báo giả thấp. Trong các mơ hình giám sát và thu thập dữ liệu, bên cạnh các hệ cảm biến truyền thống, cảm biến hình ảnh (camera) hiện đang được triển khai ngày càng nhiều và rộng khắp trên tồn thế giới bởi tầm quan sát rộng, linh hoạt, và chi phí thấp cũng như khả năng tích hợp các cơng nghệ xử lý tiên tiến. Thêm vào đĩ, số lượng camera giám sát (CCTV – Closed-circuit Television) sẽ đạt ngưỡng 1 tỷ đơn vị trong năm 2022, và sẽ ngày càng tăng lên nhanh chĩng ngay cả ở các quốc gia đang phát triển. Các hệ thống camera giám sát này thường sẽ thu thập và lưu trữ dữ liệu tại các trung tâm dữ liệu (DC – Data Center) tập trung. Để các hệ thống camera giám sát này cĩ thể theo dõi, phát hiện được các sự kiện bất thường, các thuật tốn học máy, xử lý ảnh phải được áp dụng vào phần lõi xử lý được cài đặt tại các trung tâm dữ liệu hoặc tại các thiết bị biên. Thời gian gầy đây, các mơ hình học sâu cho kết quả tốt ở nhiều lĩnh vực đặc biệt là các hệ thống giám sát sử dụng camera [3]. Trong phạm vi của luận án, các mơ hình học sâu tích hợp vào hệ thống giám sát để phát hiện, cảnh báo các sự kiện bất thường cĩ thể được chia thành hai nhĩm theo tính chất của sự kiện bất thường được quan sát: Sự kiện bất thường tĩnh và sự kiện bất thường động. Sự kiện bất thường tĩnh là sự kiện bất thường chứa những đối tượng bất thường tĩnh (khơng cĩ yếu tố chuyển động), ví dụ như sạt lở đất đá, hố sụt. Trong khi đĩ, sự kiện bất thường động là sự kiện bất thường chứa các đối tượng bất thường cĩ yếu tố chuyển động ví dụ như lửa, hành vi bạo lực. Với bài tốn phát hiện đối tượng bất thường tĩnh xử lý trên ảnh đơn, luận án hướng đến đề xuất một mơ hình phân cấp cho phép trích xuất và lọc các đối tượng nghi ngờ là bất thường ở các chặng đầu, các chặng sau cho phép nhận dạng đối tượng bất thường sử dụng các bộ phân loại học sâu. Mơ hình phân cấp này tăng hiệu năng so với các mơ hình nhận và xử lý trực tiếp trên ảnh đầu vào, trong khi vẫn đảm bảo được tốc độ xử lý cao do đã loại bỏ được nhiều đối tượng nhiễu trong các chặng của bộ lọc. Tương tự, với sự kiện bất thường động, luận án sẽ đề xuất một mơ hình phân cấp, trong đĩ các đối tượng nghi ngờ là bất thường sau khi được lọc ở các chặng đầu, sẽ được bám vết và trích xuất đặc trưng thời gian trước khi đưa vào bộ nhận dạng đối tượng ở chặng cuối. Mơ hình này cho hiệu năng cao hơn các phương pháp chỉ trích xuất đặc trưng khơng gian, và các mơ hình trích xuất đặc trưng thời gian nhưng xử lý hồn tồn từ ảnh gốc, trong khi vẫn đảm bảo được thời gian xử lý theo thời gian thực. Ngồi ra, việc sử dụng mơ hình phân cấp cũng cho phép các hệ thống phát hiện đối tượng bất thường tránh được hiện tượng cảnh báo giả xuất hiện khi các đối tượng nhiễu bị nhận dạng nhầm là đối tượng bất thường. a. Mục đích nghiên cứu Mục đích của luận án này là nghiên cứu các thành phần của mơ hình phân cấp để đề xuất cấu trúc của mơ hình phân cấp cho nhận dạng, phát hiện các sự kiện bất thường. Mục tiêu cuối cùng là đề xuất được mơ hình phân cấp cho nhận dạng các bất thường động, nơi đối tượng bất thường cĩ tính chất chuyển động. Việc 1
- sử dụng mơ hình phân cấp cho nhận dạng bất thường cĩ thể trả lời câu hỏi nghiên cứu đề cập đến ở phần mở đầu, đĩ là: tăng độ chính xác và cải thiện tốc độ xử lý của các mơ hình huấn luyện theo kiểu đầu cuối (end- to-end). Mơ hình phân cấp được xây dựng với nhiều cấp bộ lọc để loại bỏ các đối tượng nhiễu theo từng cấp độ liên quan đến đối tượng chính cần phát hiện. Mơ hình phân cấp cĩ thể giúp các lõi xử lý ảnh trong các hệ thống cảnh báo bất thường trở nên mạnh hơn bằng việc tăng độ chính xác (giảm tỉ lệ cảnh báo giả), và đặc biệt là tăng đáng kể tốc độ xử lý. Hai yếu tố này giúp cho hệ thống cảnh báo trở nên đáng tin cậy hơn. b. Phạm vi nghiên cứu - Đề tài luận án tập trung vào nghiên cứu và đề xuất mơ hình phân cấp để nhận dạng sự kiện bất thường trong ảnh/video. Các mơ hình học sâu phân cấp được sử dụng trong luận án là các mơ hình học sâu dựa trên hai mơ hình chính là mạng nơ ron tích chập CNN (Convolutional Neural Network) để trích xuất đặc trưng khơng gian và mạng bộ nhớ dài ngắn hạn LSTM (Long Short Term Memory) để trích xuất đặc trưng thời gian. Ngồi ra, các phương pháp xử lý ảnh truyền thống cũng được sử dụng kết hợp với các mơ hình học sâu để tăng hiệu năng của hệ thống. - Mơ hình mạng phân cấp là tư tưởng chủ đạo để áp dụng nhận dạng, phát hiện các sự kiện bất thường thơng qua việc trích xuất và phân tích đặc tính của các đối tượng bất thường trong ảnh/video. Tuy nhiên, mơ hình mạng phân cấp này cũng khơng thể áp dụng với kiến trúc và bộ tham số giống nhau cho mọi loại sự kiện bất thường. Thay vào đĩ, mỗi mơ hình mạng phân cấp cụ thể khi được áp dụng vào để nhận dạng một loại sự kiện bất thường sẽ cĩ những sự thay đổi ở các thành phần bên trong mơ hình. - Dữ liệu về sự kiện bất thường được thu thập từ nhiều nguồn camera khác nhau ứng với các bài tốn khác nhau. c. Những đĩng gĩp chính của luận án Mục đích của luận án này là nghiên cứu đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng, phát hiện các sự kiện bất thường trong dữ liệu giám sát. Dữ liệu giám sát chủ yếu được thu thập ở trong luận án này là dữ liệu video, ảnh. Do đĩ, các mơ hình mạng học sâu phân cấp cũng được thiết kế cho phù hợp với dạng dữ liệu này. Đĩng gĩp thứ nhất, nghiên cứu sinh xây dựng hai bộ dữ liệu làm tiêu chuẩn đánh giá các mơ hình nhận dạng sự kiện bất thường. Đĩ là bộ dữ liệu LandslidePTIT cho bài tốn pahts hiện sạt lở và FirePTIT cho bài tốn phát hiện lửa trong video. Đĩng gĩp thứ hai, luận án đề xuất một mơ hình mạng phân cấp cho phép nhận dạng các sự kiện bất thường tĩnh. Do đặc thù sự kiện bất thường tĩnh khơng cĩ yếu tố chuyển động, nên tồn bộ quá trình phát hiện, nhận dạng đều được xử lý lên một ảnh đơn. Mơ hình đề xuất cải thiện hiệu năng và tốc độ xử lý so với các kỹ thuật khác cho bài tốn nhận dạng bất thường tĩnh. Đĩng gĩp thứ ba, luận án đề xuất một mơ hình mạng phân cấp cho các đối tượng chuyển động dựa trên mơ hình phân cấp cho nhận dạng đối tượng bất thường tĩnh ở trong đĩng gĩp thứ 2. d. Bố cục luận án Ngồi phần mở đầu và phụ lục, Luận án được chia thành 3 chương. Trong đĩ, chương 1 trình bày các lý thuyết tổng quan trong nghiên cứu các sự kiện bất thường bao gồm phương pháp nghiên cứu, kỹ thuật xử lý và nguyên lý xây dựng các bộ dữ liệu. Chương 2 trình bày đề xuất mơ hình mạng phân cấp cho sự kiện bất thường tĩnh. Chương 3 báo cáo về mơ hình mạng phân cấp cho sự kiện bất thường động. Phần kết luận trình bày những đĩng gĩp mới của luận án cũng như hướng nghiên cứu tiềm năng trong tương lai của đề tài nghiên cứu phát hiện các sự kiện bất thường trong hệ thống giám sát. 2
- CHƯƠNG 1. TỔNG QUAN VỀ GIÁM SÁT SỰ KIỆN BẤT THƯỜNG BẰNG THỊ GIÁC MÁY TÍNH VÀ HỌC MÁY 1.1. Tổng quan về sự kiện bất thường Sự kiện bất thường là nguyên nhân chính gây lên những thiệt hai nghiêm trọng về con người và kinh tế xã hội. Chúng cĩ thể ở nhiều trạng thái, cường độ khác nhau, từ những va chạm giao thơng hay những đám cháy trên một khu vực nhỏ đến những thảm họa tự nhiên lớn phá hủy cả một đất nước với hàng nghìn con người. Quản lý sự kiện bất thường trở nên đặc biệt quan trọng để giảm thiểu tác động xấu của chúng mang lại. Do vậy, sử dụng cơng nghệ tiên tiến để triển khai những giải pháp sáng tạo để bảo vệ, giải quyết, và đặc biệt là cảnh báo sớm các sự kiện bất thường là một trong những lĩnh vực nghiên cứu sơi động cĩ tính chất liên nghành với cơng nghệ làm trung tâm. Quản lý sự kiện bất thường cĩ liên quan đến 4 bước: bảo vệ; phát hiện; trợ giúp; nghiên cứu sâu về nguyên nhân gây ra sự kiện bất thường [4]. Trong 4 bước này thì cơng nghệ đĩng vai trị hạt nhân để cĩ thể tham gia vào bước bảo vệ và phát hiện các sự kiện bất thường. Mặc dù các hệ thống quản lý sự kiện bất thường đã được triển khai và đạt được những kết quả khả quan trong việc cảnh báo sớm những sự kiện bất thường gây thiệt hại lớn về người và tài sản. Lĩnh vực nghiên cứu các phương pháp, kỹ thuật học máy cho phát hiện và cảnh báo sớm sự kiện bất thường cũng là một lĩnh vực nghiên cứu sơi động. Các nhĩm nghiên cứu tập trung nhiều vào việc cải thiện hiệu năng của các kỹ thuật nhận dạng và phát hiện bất thường dựa trên học máy. Ngồi ra, do yếu tố đặc thù của sự kiện bất thường, việc triển khai các hệ thống phát hiện cảnh báo cĩ khả năng hoạt động theo thời gian thực cũng là một nhu cầu cần thiết. Các kỹ thuật nhận dạng đang được cải tiến theo hướng nâng cao tốc độ xử lý và tối ưu tài nguyên sử dụng để cĩ thể triển khai các hệ thống này ngay cả trên các thiết bị nhúng. Dựa trên gĩc nhìn của phần mềm của hệ thống giám sát, giám sát sự kiện bất thường bằng hệ thống camera thường gắn với việc phát hiện và bám theo các đối tượng bất thường để phân tích các hành vi của đối tượng, đưa ra các cảnh báo kịp thời. Do đĩ, sự kiện bất thường được giám sát bằng cơng nghệ xử lý ảnh và thị giác máy tính cĩ thể được chia ra làm hai loại: Sự kiện bất thường tĩnh và sự kiện bất thường động. Sự kiện bất thường tĩnh thường gắn liền với các đối tượng bất thường tĩnh, các đối tượng bất thường tĩnh khơng cĩ những chuyển động tương đối so với nền xung quanh, do vậy, các thuật tốn để phát hiện bất thường tĩnh cĩ thể được triển khai dựa trên đầu vào là các ảnh đơn hoặc khung hình đơn từ camera. Trong khi đĩ, sự kiện bất thường động thường gắn liền với các đối tượng bất thường chuyển động so với nền và các đối tượng xung quanh. Khi đĩ, bên cạnh việc sử dụng các đặc trưng về mặt khơng gian trong các khung hình đơn truyền về từ camera, các phương pháp phát hiện sự kiện bất thường động cần phải tích hợp được sự liên kết giữa các khung hình để trích xuất được đặc trưng về thời gian để cĩ thể phát hiện hiệu quả. Các sự kiện bất thường động cĩ thể kể đến như lửa, khĩi, hoặc các hành động bất thường của con người như bạo lực, tai nạn giao thơng. Việc chia sự kiện bất thường thành các nhĩm như vậy cũng làm đơn giản hĩa việc chọn lựa các mơ hình trí tuệ nhân tạo để xử lý và phân tích. Nội dung của các chương sau trong luận án này đi sâu vào xử lý từng loại sự kiện bất thường bằng việc đề xuất các mơ hình cho đối tượng bất thường tĩnh và đối tượng bất thường động. 1.2. Dữ liệu cho phát hiện sự kiện bất thường Sự phát triển của học máy đi kèm những tiến bộ vượt bậc trong việc xây dựng các hệ thống giám sát thơng minh những cũng tạo ra một nhu cầu lớn về dữ liệu. Các thuật tốn học máy, đặc biệt là học sâu cần một dữ liệu lớn để cĩ thể tạo ra những mơ hình cho độ chính xác cao. Phát hiện sự kiện bất thường cũng khơng phải là ngoại lệ khi các mơ hình học máy nhận dạng, phát hiện các sự kiện bất thường cũng cần dữ liệu lớn để huấn luyện. Việc thu thập dữ liệu trong các tình huống bất thường khơng hề dễ dàng, đặc biệt là các tình huống bất thường nguy hiểm trong các thảm họa tự nhiên như cháy rừng, sạt lở đất, lũ lụt [5], [6]. Để xây dựng các bộ dữ liệu cho phát hiện sự kiện bất thường, các hệ thống camera hoặc cảm biến được thiết 3
- lập để thu thập dữ liệu trên một quy mơ lớn tại các khu vực mà bất thường cĩ thể xảy ra [7], [8]. Ngồi ra, các thảm họa tự nhiên lớn cĩ thể được phát hiện và thu thập dữ liệu thơng qua ảnh vệ tinh hoặc các thiết bị bay khơng người lái hoạt động ở độ cao nhất định. Trong lĩnh vực phát hiện sự kiện bất thường, do tính chất đặc trưng của từng tình huống, các bộ dữ liệu thường ít được cơng bố rộng rãi trong giới nghiên cứu gây khĩ khăn trong việc đánh giá, so sánh các mơ hình đề xuất. Các bộ dữ liệu được cơng bố với quy trình thu thập và gán nhãn cơng phu sẽ đem lại giá trị rất lớn cho cộng đồng nghiên cứu, thúc đẩy lĩnh vực nghiên cứu. 1.3. Học máy cho phát hiện sự kiện bất thường Do sự kiện bất thường chia ra làm hai loại sự kiện bất thường tĩnh liên quan đến đối tượng bất thường tĩnh, và sự kiện bất thường động liên quan đến đối tượng bất thường động. Các phương pháp học máy được sử dụng cho phát hiện sự kiện bất thường cũng được chia ra làm hai cách tiếp cận. Trong các tiếp cận học máy cho phát hiện đối tượng bất thường tĩnh, tồn bộ xử lý đều được thực hiện trên một khung ảnh đơn, và khơng cần thêm thơng tin từ sự liên kết giữa các khung hình (trong trường hợp cĩ thể thu dữ liệu ở dạng video). Trong cách tiếp cận học máy cho phát hiện đối tượng bất thường động, thơng tin được sử dụng là hình dáng, kích thước của đối tượng trong một khung hình đơn sẽ phải ở trong một liên kết với các khung hình khác theo thời gian. Nĩi cách khác, khi sử dụng học máy để phát hiện đối tượng bất thường động, cả đặc trưng khơng gian và đặc trưng thời gian của đối tượng đều cần được xem xét đồng thời. Bên cạnh đĩ, dù phương pháp tiếp cận học máy theo cách nào, việc phân tích các đối tượng bất thường trong ảnh là đặc biệt cần thiết. Một số ứng dụng tiếp cận bài tốn phát hiện bất thường theo hướng lấy đầu vào là cả một bức ảnh chứa đối tượng bất thường và các đối tượng khác gặp phải vấn đề về độ chính xác khơng cao và thiếu dữ liệu huấn luyện mơ hình. Các phương pháp học máy truyền thống khi áp dụng thường yêu cầu trích chọn đặc trưng của đối tượng trong ảnh trước làm đầu vào cho mơ hình. Các đặc trưng cĩ thể trích xuất từ các đối tượng bao gồm: đặc trưng về màu sắc trên kênh màu RGB [9]; đặc trưng về hình dáng và kết cấu bề mặt của đối tượng như đặc trưng HOG; đặc trưng thời gian như wavelet [10] và luồng quang học (optical flow) [11]. Các phương pháp học máy truyền thống sau đĩ dựa trên đặc trưng này để tiếp tục phân tích đưa ra những nhận định về sự kiện bất thường. Khi đặc trưng được trích xuất các phương pháp học máy như mạng nơ ron, SVM được sử dụng để đưa ra kết quả cuối cùng. Khác với các kỹ thuật học máy truyền thống, học máy hiện đại sử dụng các mơ hình học sâu cĩ chứa bộ trích chọn và học đặc trưng ở bên trong cấu trúc của mơ hình. Do vậy, với học sâu, khơng cần dữ liệu đầu vào phải ở dạng các vector đặc trưng, đầu vào cĩ thể ở dạng dữ liệu thơ như ảnh, video, âm thanh hoặc dữ liệu dạng chuỗi thời gian từ các cảm biến. Học sâu cho nhận dạng phát hiện bất thường trong ảnh và video thường cĩ hai mơ hình chính được áp dụng là mạng nơ ron tích chập CNN và mạng nơ ron hồi quy RNN. Trong khi mạng nơ ron tích chập cho phép sử dụng thơng tin về khơng gian của đối tượng và sự kiện bất thường để đưa ra kết luận, mạng nơ ron hồi quy sử dụng thơng tin về thời gian để kết hợp với đặc trưng khơng gian và đưa ra kết luận. 1.4. Các nghiên cứu liên quan Các nghiên cứu liên quan đến nhận dạng sự kiện bất thường cũng được chia ra hai nhĩm theo các đặc thù của sự kiện bất thường đĩ là sự kiện bất thường tĩnh và sự kiện bất thường động. Trong thực tế, cĩ thể coi sự kiện bất thường tĩnh là một trường hợp riêng của sự kiện bất thường động. Sự kiện bất thường tĩnh xảy ra khi đối tượng bất thường khơng chuyển động trong tồn bộ các khung hình. Do đĩ, nhận dạng bất thường động là bài tốn thách thức hơn so với nhận dạng bất thường tĩnh. Trong nhận dạng bất thường tĩnh, tồn bộ xử lý trên một khung hình đơn là đã cĩ thể cho ra kết quả chính xác vì đối tượng khơng cĩ chuyển động tương đối với nền, do đĩ, hình dạng của đối tượng giữ nguyên trong các khung hình khác nhau. Chính vì vậy, ngay cả khi các hệ thống giám sát đối tượng bất thường tĩnh cĩ thể trả dữ liệu dưới dạng video, khi xử lý nhận dạng, chỉ cần trích xuất ra một khung hình đơn là đã cĩ thể đưa vào mơ hình nhận dạng. Ngược 4
- lại, với đối tượng bất thường động, do cĩ sự chuyển động của đối tượng bất thường so với nền, cần sự phối hợp trích xuất đặc trưng thời gian giữa các khung hình để tăng độ chính xác của mơ hình nhận dạng. Những nghiên cứu liên quan được xem xét để thấy được điểm mạnh, yếu của các kỹ thuật, mơ hình hiện cĩ để đề xuất mơ hình phân cấp cho nhận dạng bất thường tĩnh. Sau đĩ, dựa trên những thành phần trong mơ hình phân cấp này, tích hợp thêm mơ đun trích xuất đặc trưng thời gian cho bài tốn tổng quát hơn đĩ là nhận dạng bất thường động. 1.5. Kết luận chương Chương này trình bày ngắn gọn về vấn đề phát hiện sự kiện bất thường trong ảnh, video thu về từ các hệ thống giám sát, và hệ thống quản lý sự kiện bất thường. Các phương pháp học máy và các bộ dữ liệu liên quan đến sự kiện bất thường tĩnh, bất thường động cũng được trình bày. Phần cuối chương giới thiệu các khảo sát, phân tích về các cơng trình nghiên cứu trong và ngồi nước cĩ liên quan đến chủ đề của luận án đĩ là nhận dạng bất thường tĩnh, nhận dạng bất thường động. Mục tiêu cuối cùng của luận án là hướng đến xây dựng được một mơ hình phân cấp tổng quát, cĩ thể áp dụng được cho phát hiện các đối tượng, sự kiện bất thường động. Tuy nhiên, đối tượng bất thường động thường liên quan đến việc phân tích nhiều khung hình liên tiếp của video và các đối tượng bất thường này phải được bám vết chính xác để xác định đường di chuyển của nĩ. Một trường hợp riêng của sự kiện bất thường động là sự kiện bất thường tĩnh khi đối tượng khơng di chuyển so với nền. Chính vì vậy, việc xử lý nhận dạng đối tượng bất thường này chỉ cần hoạt động trên một ảnh tĩnh trích xuất ra từ video. 5
- CHƯƠNG 2. ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TĨNH SỬ DỤNG MẠNG PHÂN CẤP 2.1. Mơ hình hệ thống Mơ hình mạng phân cấp trong hình 2.1 là tư tưởng chủ đạo của tồn bộ các cơng trình cơng bố trong chương này. Đầu vào của mơ hình này là một tập hợp các đối tượng cĩ khả năng là đối tượng liên quan đến đối tượng quan tâm. Tập hợp các đối tượng này được trích xuất bằng các phương pháp phân đoạn đối tượng trong ảnh (semantic segmentation) và phân tích các thành phần liên kết (Connected Componnent Analysis). Mơ hình gồm hai nhĩm bộ lọc được phân chia theo độ mạnh, yếu và tốc độ. Các bộ lọc yếu với tốc độ xử lý nhanh được đặt ở nhĩm thứ nhất với mục tiêu là loại bỏ nhiều nhiễu nhất cĩ thể, nhưng vẫn phải giữ lại được tồn bộ các đối tượng quan tâm. Sau khi kết thúc nhĩm bộ lọc thứ nhất, các đối tượng cịn lại đã được loại bỏ đi phần lớn nhiễu nhưng vẫn sẽ cịn chứa nhiễu. Những nhiễu này cĩ phân bố, hình dạng, kích thước rất giống so với đối tượng cần phát hiện, do đĩ, tại nhĩm bộ lọc thứ hai (là các mơ hình học sâu phân loại) những nhiễu này sẽ được phân loại để trích xuất được các đối tượng cần phát hiện. Hình 2. 1. Mơ hình mạng phân cấp Dữ liệu đầu vào sẽ được mơ tả dưới dạng một tập hợp �τ của các tensor τ. Tùy thuộc vào bài tốn, mà tensor sẽ cĩ dạng hai chiều (ảnh xám) và bai chiều (ảnh màu thơng thường). �τ= {τ }, �ớ� � = 1 , � (2.1) � là số lượng tensor ứng với các đối tượng tiềm năng trong tập �τ được trích xuất ra từ bước đầu tiên của các mơ hình đề xuất trước khi vào mơ hình phân cấp. Sau đĩ, các bộ lọc yếu ở trong tầng một sẽ nhận đầu vào �τ , và cho đầu ra là một tập hợp các tensor đầu ra � � = ℎ (�τ) = {τ }, �ớ� � = 1 , � (2.2) Với ℎ () là hàm số của các bộ lọc trong tầng 1. Tại bước này, các tensor nhiễu sẽ được loại đi, do đĩ � ≤ �. Sau khi đi qua hết các bộ lọc ở tầng này, số lượng tensor cịn lại là � trong tập hợp � sẽ trở thành đầu vào cho các bộ lọc ở tầng hai. Nhiệm vụ của các bộ lọc mạnh ở tầng hai cần phải đưa ra được kết luận 6
- chính xác về đối tượng quan tâm. Một đối tượng tiềm năng sẽ được phân loại là đối tượng đúng hay nhiễu tại bước này. Bộ lọc ở tầng 2 này cĩ cơng thức như sau: � = ℎ (�1) = {τ }, �ớ� � = 1 , � (2.3) Với � là số lượng các đối tượng được mơ hình phân loại là bất thường trong kết quả cuối cùng. Trong khi đĩ, ℎ () là hàm số các của bộ lọc ở tầng 2, thường là các mơ hình học sâu nhận dạng đối tượng. Mơ hình này nhận đầu vào là các tensor ở trong tập hợp � và phân loại xem các tensor này cĩ phải là đối tượng bất thường mà hệ thống đang tìm kiếm hay khơng. Những tensor đúng là đối tượng bất thường mà hệ thống đang tìm kếm sẽ được giữ lại ở trong tập hợp � . Những tensor được coi là nhiễu sẽ được loại bỏ. Sau khi qua hết các bộ lọc, các đối tượng bất thường ứng với các sự kiện được xác định cĩ hay khơng cĩ ở trong ảnh và ở vị trí nào. Các hệ thống được xây dựng dựa trên mơ hình phân cấp cĩ thể sử dụng kết quả kèm hình ảnh để đưa ra các cảnh báo tương ứng về sự xuất hiện của các sự kiện bất thường. 2.2. Phát hiện hố sụt trong ảnh nhiệt thu về từ UAV Dựa trên kiến trúc của mơ hình mạng phân cấp được mơ tả trong mục 2.1, mơ hình phát hiện hố sụt trong phần này kết hợp mơ hình đa tầng phát hiện hố sụt trong ảnh đơn và mơ hình liên kết các ảnh liền kề nhau theo thời gian để tăng độ chính xác. Mơ hình đề xuất phát hiện hố sụt này được mơ tả trong Hình 2.2 bên dưới. Mơ hình này cĩ khả năng theo dõi nhiều hố sụt xuất hiện trong cùng một khung hình. Ví dụ, trong Hình 2.2, hai hố sụt xuất hiện trong khung thứ (� − 1). Đầu tiên, trong giai đoạn phát hiện hố sụt bằng mạng phân cấp, tất cả các đường bao quanh đối tượng (BB – Bounding Box) xuất hiện trong tất cả các khung hình được trích xuất. Sau đĩ, vị trí của tất cả các BB là đầu vào của thuật tốn theo dõi hố sụt bằng liên kết dữ liệu. Mục đích chính của liên kết dữ liệu là gán các BB của khung hiện tại (tức là khung �) cho quỹ đạo chính xác của chúng từ khung thứ (� − 1) trước đĩ. Một Tracklet trong Hình 2.2 được định nghĩa là quỹ đạo của mỗi hố sụt - một trình tự thời gian bao gồm các vị trí đa chiều của điểm trung tâm của hố sụt. Đầu ra cuối cùng của mơ hình được đề xuất là các Tracklet được liên kết với các vị trí hố sụt thực trong khung hiện tại. Hình 2.2. Mơ hình đề xuất phát hiện hố sụt 7
- 2.2.1. Phát hiện hố sụt bằng Mơ hình Mạng phân cấp Trong mơ hình mạng phân cấp được mơ tả trong Hình 2.1, Mơ hình mạng học sâu đầu tiên là một kiến trúc phân đoạn hình ảnh dựa trên U-Net [12] được sử dụng để trích xuất các đối tượng tiềm năng cĩ khả năng là hố sụt trong ảnh. Các đối tượng này được thể hiện dưới dạng các hình bao (BB) đã được mơ tả. Mỗi một hình bao này cĩ dạng hình chữ nhật bao quanh các đối tượng thực tế và cĩ thể cắt ra từ ảnh gốc để tạo thành các ảnh của đối tượng. Tập hợp các hình bao này � sẽ là đầu vào của mơ hình mạng phân cấp bao gồm một bộ lọc theo luật ℎ và một mơ hình học sâu phân loại đối tượng ℎ . Mơ hình học sâu phân loại đối tượng này dựa trên kiến trúc MobileNet v3 [13], đĩng vai trị như một bộ lọc mạnh để phân biệt giữa các hố sụt thực sự và các đối tượng nhiễu khác. Mơ hình này nhận đầu vào là các ảnh lấy ra từ bộ lọc theo luật. Trong quá trình huấn luyện mơ hình, dữ liệu ảnh cũng được trích xuất ra từ bộ lọc theo luật. 2.2.1.1. Mơ hình phân đoạn đối tượng dựa trên Mạng U-Net Mơ hình U-Net nhận ảnh đầu vào với kích thước 256x336. Kiến trúc bao gồm 3 thành phần: bộ phận thu gọn, bộ phận cầu nối, bộ phận mở rộng (contraction, bridge, expansion). Bộ phận thu gọn bao gồm ba khối thu gọn, mỗi khối nhận được dầu vào và áp dụng hai lớp tích chập 3x3, theo sau là hai lớp max pooling. Sau mỗi khối thu gọn, số lượng bản đồ đặc trưng tăng lên gấp đơi để kiến trúc cĩ thể học được những cấu trúc phức tạp hiệu quả. Bộ phận cầu nối làm trung gian cho bộ phận thu gọn và bộ phận mở rộng. Bộ phận này sử dụng hai lớp tích chập 3x3, tiếp theo là hai lớp tích chập 2x2. Tương tự như bộ phận thu gọn, bộ phận mở rộng cũng bao gồm ba khối mở rộng. Mỗi khối chuyển đàu vào đến hai lớp tích chập 3x3, theo sau bởi hai lớp tích chập 2x2. Sau mỗi khối, bản đồ đặc trưng sẽ bị giảm đi một nửa để duy trì tính đối xứng của mơ hình. Để huấn luyện mơ hình UNET này, hàm mất mát Jaccard được sử dụng. Hàm mất mát Jaccard thường được gọi là điểm giao nhau trên kết hợp. Hàm mất mát Jaccard thường được sử dụng để đo lường độ tương đồng giữa hai tập hợp, trong trường hợp này là đo lường độ tương đồng giữa tập hợp các điểm ảnh được dự đốn và tập hợp các điểm ảnh thực tế trên ảnh. Hàm mất mát Jaccard tính tốn tỉ lệ giữa diện tích phần giao giữa hai tập hợp và diện tích phần hợp của chúng. Hàm mất mát Jaccard được sử dụng để huấn luyện mơ hình phân đoạn đối tượng này bởi vì hàm mất mát Jaccard độc lập với kích thước của đối tượng và cĩ độ phức tạp tính tốn thấp, phù hợp với các ứng dụng thời gian thực. 2.2.1.2. Mơ hình bộ lọc theo luật (bộ lọc yếu) Như đã đề cập ở trên, hệ thống được đề xuất dựa trên mơ hình mạng phân cấp, sau khi cĩ được danh sách các hình bao � , bộ lọc theo luật được sử dụng như một bộ lọc yếu nhưng nhanh để lọc bỏ nhiễu trong tập danh sách các hình bao này. Bộ lọc dựa trên luật được sử dụng như một bước xử lý sau cho mơ hình. Nếu khơng cĩ bộ lọc dựa trên luật, tất cả các hình bao trong tập danh sách các hình bao � sẽ là đầu vào của mơ hình học sâu thứ hai để phân loại, điều này gây ra tính tốn dư thừa và giảm hiệu năng của hệ thống. Mỗi hình bao trong tập hình bao � được chuyển qua bộ lọc dựa trên luật ℎ (). Bộ lọc theo luật này cĩ thể được mơ tả bằng cơng thức như sau: � = ℎ (�BB) = {τ }, �ớ� � = 1 , � (2.4) � biểu thị hình bao thứ � trong hình ảnh, � là danh sách các hình bao sau khi đi qua bộ lọc theo luật này. � là số lượng hình bao trong tập � sau khi đi vào bộ lọc. 2.2.1.3. Mơ hình học sâu phân loại dựa trên mạng Mobilenet v3 (bộ lọc mạnh) Trong luận án này, một bộ phân loại dựa trên CNN được sử dụng để phân biệt các hố sụt thực sự với các vật thể khác. Phân loại hình ảnh bằng cách sử dụng mơ hình CNN học chuyển tiếp bao gồm hai giai đoạn: huấn luyện và dự đốn. Trong giai đoạn huấn luyện, mơ hình CNN được huấn luyện bằng cách sử dụng một tập dữ liệu đã biết về các hình ảnh được gán nhãn với các kiểu tương ứng của chúng. Sau khi các mơ hình được học, chúng sẽ được sử dụng để dự đốn các loại đối tượng của hình ảnh mới. Trong số các mơ hình CNN phổ biến, MobileNet là một mơ hình cĩ ít tham số hơn nhưng vẫn duy trì độ chính xác cạnh tranh so với các mơ hình hiện đại khác. Mơ hình MobileNet cĩ thể chạy trên thiết bị di 8
- động trong thời gian thực. Hệ thống của luận án sử dụng mơ hình MobileNet v3 đã được huấn luyện với tập dữ liệu ImageNet để thực hiện học chuyển tiếp. Việc sử dụng mơ hình MobileNet v3 này đảm bảo rằng tồn bộ hệ thống phát hiện hố sụt cĩ thể hoạt động trong thời gian thực. Mơ hình MobileNet-small được sử dụng, cĩ một lớp nhân chập, 11 lớp nút cổ chai, một lớp chập với một lớp gộp tồn cục, và hai lớp được kết nối đầy đủ. 2.2.2. BáM vết hố sụt bằng thuật tốn Hungary Sau khi phát hiện và nhận dạng hố sụt bằng mơ hình mạng phân cấp, khĩ khăn với việc bám vết này là gán hố sụt cho các tracklet tương ứng, là quỹ đạo của các đối tượng trong các khung hình liên tiếp. Thuật tốn Hungary (HA) được sử dụng trong mơ hình đề xuất này để liên kết dữ liệu giữa các khung hình. Thuật tốn HA được sử dụng bởi hai ưu điểm nổi bật, thứ nhất thuật tốn HA luơn luơn trả về lời giải cho bài tốn gán hố sụt cho các tracklet tương ứng, thứ hai độ phức tạp tính tốn của thuật tốn HA thấp hơn nhiều so với các phương pháp bám vết đối tượng khác cho phép các hệ thống dựa trên mơ hình đề xuất cĩ thể áp dụng vào thực tế theo thời gian thực. 2.2.3. Kết quả thực nghiệM 2.2.3.1. Bộ dữ liệu Bộ dữ liệu video do tác giả của bài báo [14] cung cấp được sử dụng cho các thử nghiệm đánh giá mơ hình đề xuất. Các đoạn video được thu thập bằng camera nhiệt gắn trên thiết bị bay khơng người lái để ghi lại các hố sụt nhân tạo trên mặt đất. Các hố sụt được đào thủ cơng và một nửa số hố sụt nhân tạo này chứa đầy nước để mơ phỏng các điều kiện thực tế. Ngồi ra, các hố sụt được hình thành ở các độ sâu khác nhau từ 0,5 m đến 2 m với đường kính từ 1 m trở xuống với sai số 0,5 m. Để tìm ra thời gian tối ưu trong ngày để phát hiện các hố sụt, bộ dữ liệu được ghi lại ở các khu vực xung quanh tại các thời điểm khác nhau. Bộ dữ liệu video bao gồm 16 video với các hố sụt được ghi lại ở các khoảng cách khác nhau ở độ phân giải 256 × 336. 2.2.3.2. Cài đặt Mơi trường thực nghiệm Mơ hình U-Net được huấn luyện từ đầu với kỹ thuật tăng dữ liệu để khắc phục vấn đề hạn chế dữ liệu, với epoch tối đa là 200 và tốc độ học là 0,001. Kích thước cụm dữ liệu của quá trình huấn luyện là 16, tương đối nhỏ so với các nghiên cứu khác về phân loại ảnh và phân đoạn ảnh. Kích thước cụm dữ liệu nhỏ này được chọn vì tập dữ liệu huấn luyện của hố sụt ít chi tiết hơn so với các tập dữ liệu phổ biến khác như ImageNet. Mơ hình hội tụ sau 94 epoch, với giá trị hàm mất mát IoU giảm xuống 0,0230 và độ chính xác xác nhận tăng lên 95,6%. Quá trình huấn luyện mơ hình học chuyển tiếp với mạng MobileNet v3 bắt đầu với tốc độ học là 0,01 và giảm dần đi một hệ số là 10 cứ sau mỗi 5 epoch. Tốc độ học nhỏ ban đầu được sử dụng vì trọng số của mạng học sâu nhân chập được huấn luyện trước thường tốt và chúng sẽ khơng bị suy hao quá nhanh. Quá trình tối ưu hĩa chạy trong tối đa 100 epoch, dẫn đến độ chính xác trên 99% đối với mơ hình học sâu nhân chập dựa trên mạng MobileNet v3 được huấn luyện. Hơn nữa, kích thước cụm dữ liệu huấn luyện là 32. Số epoch tối đa được đặt là 100. Trong quá trình huấn luyện thực tế, sau 20 epoch, mơ hình đã hội tụ về trạng thái tối ưu. 2.2.3.3. Đánh giá kết quả thực nghiệm Độ chính xác tổng thể của phương pháp phát hiện hố sụt được so sánh với độ chính xác của phương pháp trong [14]. 6 video trong tập dữ liệu, đã được đề cập trước đĩ, được sử dụng để thực hiện đánh giá này. Những video này khơng được sử dụng trong quá trình tạo hai bộ dữ liệu cho mơ hình phân đoạn U-Net và huấn luyện mơ hình MobileNet v3 để đánh giá khách quan hiệu suất của phương pháp. Để so sánh hiệu suất của mơ hình đề xuất với hiệu suất của phương pháp trong [14], độ chính xác phát hiện trung bình và chỉ số recall trung bình được sử dụng với các phương trình sau. 9