Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp

pdf 148 trang lethuy22 04/04/2025 261
Bạn đang xem 30 trang mẫu của tài liệu "Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfLA_Vũ Hoài Nam.pdf
  • pdfLA_Vũ Hoài Nam_TT.pdf
  • pdfVũ Hoài Nam_E.pdf
  • pdfVũ Hoài Nam_V.pdf

Nội dung tài liệu: Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp

  1. HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG VŨ HỒI NAM PHÁT HIỆN MỘT SỐ SỰ KIỆN BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH PHÂN CẤP Chuyên ngành: Kỹ thuật Máy tính Mã số: 9.48.01.06 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN (ghi ngành của học vị được cơng nhận) Hà Nội - 2023
  2. DANH MỤC KÝ HIỆU �τ Tập hợp các tensor đầu vào τ Tensor ℎ(.) Hàm của bộ lọc tại tầng 1 ℎ(.) Hàm của bộ lọc tại tầng 2 ℎ(.) Hàm của bộ lọc theo luật ℎ(.) Hàm của mơ hình học sâu MobileNet trong bài tốn phát hiện sạt lở ℎ(.) Hàm của mơ hình học sâu CNN � Số lượng các tensor trong tập hợp � Tập hợp các tensor đầu ra �� Chỉ số độ chính xác trung bình �� Chỉ số recall trung bình � Ngưỡng chồng lấn để xác định tỉ lệ phát hiện chính xác đối tượng bất thường ����ℎ(. ) Hàm Swish � Đầu ra dự đốn của mơ hình mạng nơ ron hồi quy RNN () Tập hợp các vector đặc trưng của các đối tượng cĩ khả năng là đối tượng bất thường � tại thời điểm t Tập hợp các vector đặc trưng của các đối tượng cĩ khả năng là đối tượng bất thường () � tại thời điểm t được trích xuất từ mơ hình Resnet ℎ Hàm của mơ hình học sâu Resnet trong bài tốn phát hiện lửa i
  3. MỞ ĐẦU Sự kiện bất thường là sự kiện xảy ra ngồi dự đốn, kế hoạch của con người [1]. Sự kiện bất thường nếu khơng được giám sát và cảnh báo kịp thời cĩ thể gây ảnh hưởng lớn đến hạ tầng, tài sản, và thậm chí tính mạng của con người. Sự kiện bất thường cĩ thể chia ra làm hai loại chính: Sự kiện bất thường do tự nhiên và sự kiện bất thường do các hoạt động của con người gây ra. Sự kiện bất thường do tự nhiên gây ra thường cĩ yếu tố ngẫu nhiên rất khĩ dự đốn và phát hiện sớm, phịng tránh [2]. Trong khi đĩ, sự kiện bất thường do hoạt động của con người gây ra cĩ thể dự đốn và phịng tránh để cảnh báo sớm. Sự kiện bất thường là một trong những nguyên nhân hàng đầu của những thiệt hại về con người và kinh tế. Do đĩ, việc xây dựng các hệ thống cảnh báo sớm là thực sự cần thiết. Với sự trợ giúp của các hệ thống phần cứng giám sát dựa trên cơng nghệ Internet vạn vật (IoT) và trí tuệ nhân tạo (AI), các sự kiện bất thường cĩ thể được phát hiện và cảnh báo sớm. Tuy nhiên, để các hệ thống giám sát dựa trên các cơng nghệ cao này đi vào thực tiễn, cần một lõi xử lý đủ mạnh để cĩ thể phát hiện, cảnh báo tự động với độ chính xác cao và tỉ lệ cảnh báo giả thấp. Trong các mơ hình giám sát và thu thập dữ liệu, bên cạnh các hệ cảm biến truyền thống, cảm biến hình ảnh (camera) hiện đang được triển khai ngày càng nhiều và rộng khắp trên tồn thế giới bởi tầm quan sát rộng, linh hoạt, và chi phí thấp cũng như khả năng tích hợp các cơng nghệ xử lý tiên tiến. Thêm vào đĩ, số lượng camera giám sát (CCTV – Closed-circuit Television) sẽ đạt ngưỡng 1 tỷ đơn vị trong năm 2022, và sẽ ngày càng tăng lên nhanh chĩng ngay cả ở các quốc gia đang phát triển. Các hệ thống camera giám sát này thường sẽ thu thập và lưu trữ dữ liệu tại các trung tâm dữ liệu (DC – Data Center) tập trung. Để các hệ thống camera giám sát này cĩ thể theo dõi, phát hiện được các sự kiện bất thường, các thuật tốn học máy, xử lý ảnh phải được áp dụng vào phần lõi xử lý được cài đặt tại các trung tâm dữ liệu hoặc tại các thiết bị biên. Thời gian gầy đây, các mơ hình học sâu cho kết quả tốt ở nhiều lĩnh vực đặc biệt là các hệ thống giám sát sử dụng camera [3]. Trong phạm vi của luận án, các mơ hình học sâu tích hợp vào hệ thống giám sát để phát hiện, cảnh báo các sự kiện bất thường cĩ thể được chia thành hai nhĩm theo tính chất của sự kiện bất thường được quan sát: Sự kiện bất thường tĩnh và sự kiện bất thường động. Sự kiện bất thường tĩnh là sự kiện bất thường chứa những đối tượng bất thường tĩnh (khơng cĩ yếu tố chuyển động), ví dụ như sạt lở đất đá, hố sụt. Trong khi đĩ, sự kiện bất thường động là sự kiện bất thường chứa các đối tượng bất thường cĩ yếu tố chuyển động ví dụ như lửa, hành vi bạo lực. Với bài tốn phát hiện đối tượng bất thường tĩnh xử lý trên ảnh đơn, luận án hướng đến đề xuất một mơ hình phân cấp cho phép trích xuất và lọc các đối tượng nghi ngờ là bất thường ở các chặng đầu, các chặng sau cho phép nhận dạng đối tượng bất thường sử dụng các bộ phân loại học sâu. Mơ hình phân cấp này tăng hiệu năng so với các mơ hình nhận và xử lý trực tiếp trên ảnh đầu vào, trong khi vẫn đảm bảo được tốc độ xử lý cao do đã loại bỏ được nhiều đối tượng nhiễu trong các chặng của bộ lọc. Tương tự, với sự kiện bất thường động, luận án sẽ đề xuất một mơ hình phân cấp, trong đĩ các đối tượng nghi ngờ là bất thường sau khi được lọc ở các chặng đầu, sẽ được bám vết và trích xuất đặc trưng thời gian trước khi đưa vào bộ nhận dạng đối tượng ở chặng cuối. Mơ hình này cho hiệu năng cao hơn các phương pháp chỉ trích xuất đặc trưng khơng gian, và các mơ hình trích xuất đặc trưng thời gian nhưng xử lý hồn tồn từ ảnh gốc, trong khi vẫn đảm bảo được thời gian xử lý theo thời gian thực. Ngồi ra, việc sử dụng mơ hình phân cấp cũng cho phép các hệ thống phát hiện đối tượng bất thường tránh được hiện tượng cảnh báo giả xuất hiện khi các đối tượng nhiễu bị nhận dạng nhầm là đối tượng bất thường. a. Mục đích nghiên cứu Mục đích của luận án này là nghiên cứu các thành phần của mơ hình phân cấp để đề xuất cấu trúc của mơ hình phân cấp cho nhận dạng, phát hiện các sự kiện bất thường. Mục tiêu cuối cùng là đề xuất được mơ hình phân cấp cho nhận dạng các bất thường động, nơi đối tượng bất thường cĩ tính chất chuyển động. Việc 1
  4. sử dụng mơ hình phân cấp cho nhận dạng bất thường cĩ thể trả lời câu hỏi nghiên cứu đề cập đến ở phần mở đầu, đĩ là: tăng độ chính xác và cải thiện tốc độ xử lý của các mơ hình huấn luyện theo kiểu đầu cuối (end- to-end). Mơ hình phân cấp được xây dựng với nhiều cấp bộ lọc để loại bỏ các đối tượng nhiễu theo từng cấp độ liên quan đến đối tượng chính cần phát hiện. Mơ hình phân cấp cĩ thể giúp các lõi xử lý ảnh trong các hệ thống cảnh báo bất thường trở nên mạnh hơn bằng việc tăng độ chính xác (giảm tỉ lệ cảnh báo giả), và đặc biệt là tăng đáng kể tốc độ xử lý. Hai yếu tố này giúp cho hệ thống cảnh báo trở nên đáng tin cậy hơn. b. Phạm vi nghiên cứu - Đề tài luận án tập trung vào nghiên cứu và đề xuất mơ hình phân cấp để nhận dạng sự kiện bất thường trong ảnh/video. Các mơ hình học sâu phân cấp được sử dụng trong luận án là các mơ hình học sâu dựa trên hai mơ hình chính là mạng nơ ron tích chập CNN (Convolutional Neural Network) để trích xuất đặc trưng khơng gian và mạng bộ nhớ dài ngắn hạn LSTM (Long Short Term Memory) để trích xuất đặc trưng thời gian. Ngồi ra, các phương pháp xử lý ảnh truyền thống cũng được sử dụng kết hợp với các mơ hình học sâu để tăng hiệu năng của hệ thống. - Mơ hình mạng phân cấp là tư tưởng chủ đạo để áp dụng nhận dạng, phát hiện các sự kiện bất thường thơng qua việc trích xuất và phân tích đặc tính của các đối tượng bất thường trong ảnh/video. Tuy nhiên, mơ hình mạng phân cấp này cũng khơng thể áp dụng với kiến trúc và bộ tham số giống nhau cho mọi loại sự kiện bất thường. Thay vào đĩ, mỗi mơ hình mạng phân cấp cụ thể khi được áp dụng vào để nhận dạng một loại sự kiện bất thường sẽ cĩ những sự thay đổi ở các thành phần bên trong mơ hình. - Dữ liệu về sự kiện bất thường được thu thập từ nhiều nguồn camera khác nhau ứng với các bài tốn khác nhau. c. Những đĩng gĩp chính của luận án Mục đích của luận án này là nghiên cứu đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng, phát hiện các sự kiện bất thường trong dữ liệu giám sát. Dữ liệu giám sát chủ yếu được thu thập ở trong luận án này là dữ liệu video, ảnh. Do đĩ, các mơ hình mạng học sâu phân cấp cũng được thiết kế cho phù hợp với dạng dữ liệu này. Đĩng gĩp thứ nhất, nghiên cứu sinh xây dựng hai bộ dữ liệu làm tiêu chuẩn đánh giá các mơ hình nhận dạng sự kiện bất thường. Đĩ là bộ dữ liệu LandslidePTIT cho bài tốn pahts hiện sạt lở và FirePTIT cho bài tốn phát hiện lửa trong video. Đĩng gĩp thứ hai, luận án đề xuất một mơ hình mạng phân cấp cho phép nhận dạng các sự kiện bất thường tĩnh. Do đặc thù sự kiện bất thường tĩnh khơng cĩ yếu tố chuyển động, nên tồn bộ quá trình phát hiện, nhận dạng đều được xử lý lên một ảnh đơn. Mơ hình đề xuất cải thiện hiệu năng và tốc độ xử lý so với các kỹ thuật khác cho bài tốn nhận dạng bất thường tĩnh. Đĩng gĩp thứ ba, luận án đề xuất một mơ hình mạng phân cấp cho các đối tượng chuyển động dựa trên mơ hình phân cấp cho nhận dạng đối tượng bất thường tĩnh ở trong đĩng gĩp thứ 2. d. Bố cục luận án Ngồi phần mở đầu và phụ lục, Luận án được chia thành 3 chương. Trong đĩ, chương 1 trình bày các lý thuyết tổng quan trong nghiên cứu các sự kiện bất thường bao gồm phương pháp nghiên cứu, kỹ thuật xử lý và nguyên lý xây dựng các bộ dữ liệu. Chương 2 trình bày đề xuất mơ hình mạng phân cấp cho sự kiện bất thường tĩnh. Chương 3 báo cáo về mơ hình mạng phân cấp cho sự kiện bất thường động. Phần kết luận trình bày những đĩng gĩp mới của luận án cũng như hướng nghiên cứu tiềm năng trong tương lai của đề tài nghiên cứu phát hiện các sự kiện bất thường trong hệ thống giám sát. 2
  5. CHƯƠNG 1. TỔNG QUAN VỀ GIÁM SÁT SỰ KIỆN BẤT THƯỜNG BẰNG THỊ GIÁC MÁY TÍNH VÀ HỌC MÁY 1.1. Tổng quan về sự kiện bất thường Sự kiện bất thường là nguyên nhân chính gây lên những thiệt hai nghiêm trọng về con người và kinh tế xã hội. Chúng cĩ thể ở nhiều trạng thái, cường độ khác nhau, từ những va chạm giao thơng hay những đám cháy trên một khu vực nhỏ đến những thảm họa tự nhiên lớn phá hủy cả một đất nước với hàng nghìn con người. Quản lý sự kiện bất thường trở nên đặc biệt quan trọng để giảm thiểu tác động xấu của chúng mang lại. Do vậy, sử dụng cơng nghệ tiên tiến để triển khai những giải pháp sáng tạo để bảo vệ, giải quyết, và đặc biệt là cảnh báo sớm các sự kiện bất thường là một trong những lĩnh vực nghiên cứu sơi động cĩ tính chất liên nghành với cơng nghệ làm trung tâm. Quản lý sự kiện bất thường cĩ liên quan đến 4 bước: bảo vệ; phát hiện; trợ giúp; nghiên cứu sâu về nguyên nhân gây ra sự kiện bất thường [4]. Trong 4 bước này thì cơng nghệ đĩng vai trị hạt nhân để cĩ thể tham gia vào bước bảo vệ và phát hiện các sự kiện bất thường. Mặc dù các hệ thống quản lý sự kiện bất thường đã được triển khai và đạt được những kết quả khả quan trong việc cảnh báo sớm những sự kiện bất thường gây thiệt hại lớn về người và tài sản. Lĩnh vực nghiên cứu các phương pháp, kỹ thuật học máy cho phát hiện và cảnh báo sớm sự kiện bất thường cũng là một lĩnh vực nghiên cứu sơi động. Các nhĩm nghiên cứu tập trung nhiều vào việc cải thiện hiệu năng của các kỹ thuật nhận dạng và phát hiện bất thường dựa trên học máy. Ngồi ra, do yếu tố đặc thù của sự kiện bất thường, việc triển khai các hệ thống phát hiện cảnh báo cĩ khả năng hoạt động theo thời gian thực cũng là một nhu cầu cần thiết. Các kỹ thuật nhận dạng đang được cải tiến theo hướng nâng cao tốc độ xử lý và tối ưu tài nguyên sử dụng để cĩ thể triển khai các hệ thống này ngay cả trên các thiết bị nhúng. Dựa trên gĩc nhìn của phần mềm của hệ thống giám sát, giám sát sự kiện bất thường bằng hệ thống camera thường gắn với việc phát hiện và bám theo các đối tượng bất thường để phân tích các hành vi của đối tượng, đưa ra các cảnh báo kịp thời. Do đĩ, sự kiện bất thường được giám sát bằng cơng nghệ xử lý ảnh và thị giác máy tính cĩ thể được chia ra làm hai loại: Sự kiện bất thường tĩnh và sự kiện bất thường động. Sự kiện bất thường tĩnh thường gắn liền với các đối tượng bất thường tĩnh, các đối tượng bất thường tĩnh khơng cĩ những chuyển động tương đối so với nền xung quanh, do vậy, các thuật tốn để phát hiện bất thường tĩnh cĩ thể được triển khai dựa trên đầu vào là các ảnh đơn hoặc khung hình đơn từ camera. Trong khi đĩ, sự kiện bất thường động thường gắn liền với các đối tượng bất thường chuyển động so với nền và các đối tượng xung quanh. Khi đĩ, bên cạnh việc sử dụng các đặc trưng về mặt khơng gian trong các khung hình đơn truyền về từ camera, các phương pháp phát hiện sự kiện bất thường động cần phải tích hợp được sự liên kết giữa các khung hình để trích xuất được đặc trưng về thời gian để cĩ thể phát hiện hiệu quả. Các sự kiện bất thường động cĩ thể kể đến như lửa, khĩi, hoặc các hành động bất thường của con người như bạo lực, tai nạn giao thơng. Việc chia sự kiện bất thường thành các nhĩm như vậy cũng làm đơn giản hĩa việc chọn lựa các mơ hình trí tuệ nhân tạo để xử lý và phân tích. Nội dung của các chương sau trong luận án này đi sâu vào xử lý từng loại sự kiện bất thường bằng việc đề xuất các mơ hình cho đối tượng bất thường tĩnh và đối tượng bất thường động. 1.2. Dữ liệu cho phát hiện sự kiện bất thường Sự phát triển của học máy đi kèm những tiến bộ vượt bậc trong việc xây dựng các hệ thống giám sát thơng minh những cũng tạo ra một nhu cầu lớn về dữ liệu. Các thuật tốn học máy, đặc biệt là học sâu cần một dữ liệu lớn để cĩ thể tạo ra những mơ hình cho độ chính xác cao. Phát hiện sự kiện bất thường cũng khơng phải là ngoại lệ khi các mơ hình học máy nhận dạng, phát hiện các sự kiện bất thường cũng cần dữ liệu lớn để huấn luyện. Việc thu thập dữ liệu trong các tình huống bất thường khơng hề dễ dàng, đặc biệt là các tình huống bất thường nguy hiểm trong các thảm họa tự nhiên như cháy rừng, sạt lở đất, lũ lụt [5], [6]. Để xây dựng các bộ dữ liệu cho phát hiện sự kiện bất thường, các hệ thống camera hoặc cảm biến được thiết 3
  6. lập để thu thập dữ liệu trên một quy mơ lớn tại các khu vực mà bất thường cĩ thể xảy ra [7], [8]. Ngồi ra, các thảm họa tự nhiên lớn cĩ thể được phát hiện và thu thập dữ liệu thơng qua ảnh vệ tinh hoặc các thiết bị bay khơng người lái hoạt động ở độ cao nhất định. Trong lĩnh vực phát hiện sự kiện bất thường, do tính chất đặc trưng của từng tình huống, các bộ dữ liệu thường ít được cơng bố rộng rãi trong giới nghiên cứu gây khĩ khăn trong việc đánh giá, so sánh các mơ hình đề xuất. Các bộ dữ liệu được cơng bố với quy trình thu thập và gán nhãn cơng phu sẽ đem lại giá trị rất lớn cho cộng đồng nghiên cứu, thúc đẩy lĩnh vực nghiên cứu. 1.3. Học máy cho phát hiện sự kiện bất thường Do sự kiện bất thường chia ra làm hai loại sự kiện bất thường tĩnh liên quan đến đối tượng bất thường tĩnh, và sự kiện bất thường động liên quan đến đối tượng bất thường động. Các phương pháp học máy được sử dụng cho phát hiện sự kiện bất thường cũng được chia ra làm hai cách tiếp cận. Trong các tiếp cận học máy cho phát hiện đối tượng bất thường tĩnh, tồn bộ xử lý đều được thực hiện trên một khung ảnh đơn, và khơng cần thêm thơng tin từ sự liên kết giữa các khung hình (trong trường hợp cĩ thể thu dữ liệu ở dạng video). Trong cách tiếp cận học máy cho phát hiện đối tượng bất thường động, thơng tin được sử dụng là hình dáng, kích thước của đối tượng trong một khung hình đơn sẽ phải ở trong một liên kết với các khung hình khác theo thời gian. Nĩi cách khác, khi sử dụng học máy để phát hiện đối tượng bất thường động, cả đặc trưng khơng gian và đặc trưng thời gian của đối tượng đều cần được xem xét đồng thời. Bên cạnh đĩ, dù phương pháp tiếp cận học máy theo cách nào, việc phân tích các đối tượng bất thường trong ảnh là đặc biệt cần thiết. Một số ứng dụng tiếp cận bài tốn phát hiện bất thường theo hướng lấy đầu vào là cả một bức ảnh chứa đối tượng bất thường và các đối tượng khác gặp phải vấn đề về độ chính xác khơng cao và thiếu dữ liệu huấn luyện mơ hình. Các phương pháp học máy truyền thống khi áp dụng thường yêu cầu trích chọn đặc trưng của đối tượng trong ảnh trước làm đầu vào cho mơ hình. Các đặc trưng cĩ thể trích xuất từ các đối tượng bao gồm: đặc trưng về màu sắc trên kênh màu RGB [9]; đặc trưng về hình dáng và kết cấu bề mặt của đối tượng như đặc trưng HOG; đặc trưng thời gian như wavelet [10] và luồng quang học (optical flow) [11]. Các phương pháp học máy truyền thống sau đĩ dựa trên đặc trưng này để tiếp tục phân tích đưa ra những nhận định về sự kiện bất thường. Khi đặc trưng được trích xuất các phương pháp học máy như mạng nơ ron, SVM được sử dụng để đưa ra kết quả cuối cùng. Khác với các kỹ thuật học máy truyền thống, học máy hiện đại sử dụng các mơ hình học sâu cĩ chứa bộ trích chọn và học đặc trưng ở bên trong cấu trúc của mơ hình. Do vậy, với học sâu, khơng cần dữ liệu đầu vào phải ở dạng các vector đặc trưng, đầu vào cĩ thể ở dạng dữ liệu thơ như ảnh, video, âm thanh hoặc dữ liệu dạng chuỗi thời gian từ các cảm biến. Học sâu cho nhận dạng phát hiện bất thường trong ảnh và video thường cĩ hai mơ hình chính được áp dụng là mạng nơ ron tích chập CNN và mạng nơ ron hồi quy RNN. Trong khi mạng nơ ron tích chập cho phép sử dụng thơng tin về khơng gian của đối tượng và sự kiện bất thường để đưa ra kết luận, mạng nơ ron hồi quy sử dụng thơng tin về thời gian để kết hợp với đặc trưng khơng gian và đưa ra kết luận. 1.4. Các nghiên cứu liên quan Các nghiên cứu liên quan đến nhận dạng sự kiện bất thường cũng được chia ra hai nhĩm theo các đặc thù của sự kiện bất thường đĩ là sự kiện bất thường tĩnh và sự kiện bất thường động. Trong thực tế, cĩ thể coi sự kiện bất thường tĩnh là một trường hợp riêng của sự kiện bất thường động. Sự kiện bất thường tĩnh xảy ra khi đối tượng bất thường khơng chuyển động trong tồn bộ các khung hình. Do đĩ, nhận dạng bất thường động là bài tốn thách thức hơn so với nhận dạng bất thường tĩnh. Trong nhận dạng bất thường tĩnh, tồn bộ xử lý trên một khung hình đơn là đã cĩ thể cho ra kết quả chính xác vì đối tượng khơng cĩ chuyển động tương đối với nền, do đĩ, hình dạng của đối tượng giữ nguyên trong các khung hình khác nhau. Chính vì vậy, ngay cả khi các hệ thống giám sát đối tượng bất thường tĩnh cĩ thể trả dữ liệu dưới dạng video, khi xử lý nhận dạng, chỉ cần trích xuất ra một khung hình đơn là đã cĩ thể đưa vào mơ hình nhận dạng. Ngược 4
  7. lại, với đối tượng bất thường động, do cĩ sự chuyển động của đối tượng bất thường so với nền, cần sự phối hợp trích xuất đặc trưng thời gian giữa các khung hình để tăng độ chính xác của mơ hình nhận dạng. Những nghiên cứu liên quan được xem xét để thấy được điểm mạnh, yếu của các kỹ thuật, mơ hình hiện cĩ để đề xuất mơ hình phân cấp cho nhận dạng bất thường tĩnh. Sau đĩ, dựa trên những thành phần trong mơ hình phân cấp này, tích hợp thêm mơ đun trích xuất đặc trưng thời gian cho bài tốn tổng quát hơn đĩ là nhận dạng bất thường động. 1.5. Kết luận chương Chương này trình bày ngắn gọn về vấn đề phát hiện sự kiện bất thường trong ảnh, video thu về từ các hệ thống giám sát, và hệ thống quản lý sự kiện bất thường. Các phương pháp học máy và các bộ dữ liệu liên quan đến sự kiện bất thường tĩnh, bất thường động cũng được trình bày. Phần cuối chương giới thiệu các khảo sát, phân tích về các cơng trình nghiên cứu trong và ngồi nước cĩ liên quan đến chủ đề của luận án đĩ là nhận dạng bất thường tĩnh, nhận dạng bất thường động. Mục tiêu cuối cùng của luận án là hướng đến xây dựng được một mơ hình phân cấp tổng quát, cĩ thể áp dụng được cho phát hiện các đối tượng, sự kiện bất thường động. Tuy nhiên, đối tượng bất thường động thường liên quan đến việc phân tích nhiều khung hình liên tiếp của video và các đối tượng bất thường này phải được bám vết chính xác để xác định đường di chuyển của nĩ. Một trường hợp riêng của sự kiện bất thường động là sự kiện bất thường tĩnh khi đối tượng khơng di chuyển so với nền. Chính vì vậy, việc xử lý nhận dạng đối tượng bất thường này chỉ cần hoạt động trên một ảnh tĩnh trích xuất ra từ video. 5
  8. CHƯƠNG 2. ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TĨNH SỬ DỤNG MẠNG PHÂN CẤP 2.1. Mơ hình hệ thống Mơ hình mạng phân cấp trong hình 2.1 là tư tưởng chủ đạo của tồn bộ các cơng trình cơng bố trong chương này. Đầu vào của mơ hình này là một tập hợp các đối tượng cĩ khả năng là đối tượng liên quan đến đối tượng quan tâm. Tập hợp các đối tượng này được trích xuất bằng các phương pháp phân đoạn đối tượng trong ảnh (semantic segmentation) và phân tích các thành phần liên kết (Connected Componnent Analysis). Mơ hình gồm hai nhĩm bộ lọc được phân chia theo độ mạnh, yếu và tốc độ. Các bộ lọc yếu với tốc độ xử lý nhanh được đặt ở nhĩm thứ nhất với mục tiêu là loại bỏ nhiều nhiễu nhất cĩ thể, nhưng vẫn phải giữ lại được tồn bộ các đối tượng quan tâm. Sau khi kết thúc nhĩm bộ lọc thứ nhất, các đối tượng cịn lại đã được loại bỏ đi phần lớn nhiễu nhưng vẫn sẽ cịn chứa nhiễu. Những nhiễu này cĩ phân bố, hình dạng, kích thước rất giống so với đối tượng cần phát hiện, do đĩ, tại nhĩm bộ lọc thứ hai (là các mơ hình học sâu phân loại) những nhiễu này sẽ được phân loại để trích xuất được các đối tượng cần phát hiện. Hình 2. 1. Mơ hình mạng phân cấp Dữ liệu đầu vào sẽ được mơ tả dưới dạng một tập hợp �τ của các tensor τ. Tùy thuộc vào bài tốn, mà tensor sẽ cĩ dạng hai chiều (ảnh xám) và bai chiều (ảnh màu thơng thường). �τ= {τ}, �ớ� � = 1,� (2.1) � là số lượng tensor ứng với các đối tượng tiềm năng trong tập �τ được trích xuất ra từ bước đầu tiên của các mơ hình đề xuất trước khi vào mơ hình phân cấp. Sau đĩ, các bộ lọc yếu ở trong tầng một sẽ nhận đầu vào �τ , và cho đầu ra là một tập hợp các tensor đầu ra � � = ℎ(�τ) = {τ}, �ớ� � = 1,� (2.2) Với ℎ() là hàm số của các bộ lọc trong tầng 1. Tại bước này, các tensor nhiễu sẽ được loại đi, do đĩ � ≤ �. Sau khi đi qua hết các bộ lọc ở tầng này, số lượng tensor cịn lại là � trong tập hợp � sẽ trở thành đầu vào cho các bộ lọc ở tầng hai. Nhiệm vụ của các bộ lọc mạnh ở tầng hai cần phải đưa ra được kết luận 6
  9. chính xác về đối tượng quan tâm. Một đối tượng tiềm năng sẽ được phân loại là đối tượng đúng hay nhiễu tại bước này. Bộ lọc ở tầng 2 này cĩ cơng thức như sau: � = ℎ(�1) = {τ}, �ớ� � = 1,� (2.3) Với � là số lượng các đối tượng được mơ hình phân loại là bất thường trong kết quả cuối cùng. Trong khi đĩ, ℎ() là hàm số các của bộ lọc ở tầng 2, thường là các mơ hình học sâu nhận dạng đối tượng. Mơ hình này nhận đầu vào là các tensor ở trong tập hợp � và phân loại xem các tensor này cĩ phải là đối tượng bất thường mà hệ thống đang tìm kiếm hay khơng. Những tensor đúng là đối tượng bất thường mà hệ thống đang tìm kếm sẽ được giữ lại ở trong tập hợp �. Những tensor được coi là nhiễu sẽ được loại bỏ. Sau khi qua hết các bộ lọc, các đối tượng bất thường ứng với các sự kiện được xác định cĩ hay khơng cĩ ở trong ảnh và ở vị trí nào. Các hệ thống được xây dựng dựa trên mơ hình phân cấp cĩ thể sử dụng kết quả kèm hình ảnh để đưa ra các cảnh báo tương ứng về sự xuất hiện của các sự kiện bất thường. 2.2. Phát hiện hố sụt trong ảnh nhiệt thu về từ UAV Dựa trên kiến trúc của mơ hình mạng phân cấp được mơ tả trong mục 2.1, mơ hình phát hiện hố sụt trong phần này kết hợp mơ hình đa tầng phát hiện hố sụt trong ảnh đơn và mơ hình liên kết các ảnh liền kề nhau theo thời gian để tăng độ chính xác. Mơ hình đề xuất phát hiện hố sụt này được mơ tả trong Hình 2.2 bên dưới. Mơ hình này cĩ khả năng theo dõi nhiều hố sụt xuất hiện trong cùng một khung hình. Ví dụ, trong Hình 2.2, hai hố sụt xuất hiện trong khung thứ (� − 1). Đầu tiên, trong giai đoạn phát hiện hố sụt bằng mạng phân cấp, tất cả các đường bao quanh đối tượng (BB – Bounding Box) xuất hiện trong tất cả các khung hình được trích xuất. Sau đĩ, vị trí của tất cả các BB là đầu vào của thuật tốn theo dõi hố sụt bằng liên kết dữ liệu. Mục đích chính của liên kết dữ liệu là gán các BB của khung hiện tại (tức là khung �) cho quỹ đạo chính xác của chúng từ khung thứ (� − 1) trước đĩ. Một Tracklet trong Hình 2.2 được định nghĩa là quỹ đạo của mỗi hố sụt - một trình tự thời gian bao gồm các vị trí đa chiều của điểm trung tâm của hố sụt. Đầu ra cuối cùng của mơ hình được đề xuất là các Tracklet được liên kết với các vị trí hố sụt thực trong khung hiện tại. Hình 2.2. Mơ hình đề xuất phát hiện hố sụt 7
  10. 2.2.1. Phát hiện hố sụt bằng Mơ hình Mạng phân cấp Trong mơ hình mạng phân cấp được mơ tả trong Hình 2.1, Mơ hình mạng học sâu đầu tiên là một kiến trúc phân đoạn hình ảnh dựa trên U-Net [12] được sử dụng để trích xuất các đối tượng tiềm năng cĩ khả năng là hố sụt trong ảnh. Các đối tượng này được thể hiện dưới dạng các hình bao (BB) đã được mơ tả. Mỗi một hình bao này cĩ dạng hình chữ nhật bao quanh các đối tượng thực tế và cĩ thể cắt ra từ ảnh gốc để tạo thành các ảnh của đối tượng. Tập hợp các hình bao này � sẽ là đầu vào của mơ hình mạng phân cấp bao gồm một bộ lọc theo luật ℎ và một mơ hình học sâu phân loại đối tượng ℎ. Mơ hình học sâu phân loại đối tượng này dựa trên kiến trúc MobileNet v3 [13], đĩng vai trị như một bộ lọc mạnh để phân biệt giữa các hố sụt thực sự và các đối tượng nhiễu khác. Mơ hình này nhận đầu vào là các ảnh lấy ra từ bộ lọc theo luật. Trong quá trình huấn luyện mơ hình, dữ liệu ảnh cũng được trích xuất ra từ bộ lọc theo luật. 2.2.1.1. Mơ hình phân đoạn đối tượng dựa trên Mạng U-Net Mơ hình U-Net nhận ảnh đầu vào với kích thước 256x336. Kiến trúc bao gồm 3 thành phần: bộ phận thu gọn, bộ phận cầu nối, bộ phận mở rộng (contraction, bridge, expansion). Bộ phận thu gọn bao gồm ba khối thu gọn, mỗi khối nhận được dầu vào và áp dụng hai lớp tích chập 3x3, theo sau là hai lớp max pooling. Sau mỗi khối thu gọn, số lượng bản đồ đặc trưng tăng lên gấp đơi để kiến trúc cĩ thể học được những cấu trúc phức tạp hiệu quả. Bộ phận cầu nối làm trung gian cho bộ phận thu gọn và bộ phận mở rộng. Bộ phận này sử dụng hai lớp tích chập 3x3, tiếp theo là hai lớp tích chập 2x2. Tương tự như bộ phận thu gọn, bộ phận mở rộng cũng bao gồm ba khối mở rộng. Mỗi khối chuyển đàu vào đến hai lớp tích chập 3x3, theo sau bởi hai lớp tích chập 2x2. Sau mỗi khối, bản đồ đặc trưng sẽ bị giảm đi một nửa để duy trì tính đối xứng của mơ hình. Để huấn luyện mơ hình UNET này, hàm mất mát Jaccard được sử dụng. Hàm mất mát Jaccard thường được gọi là điểm giao nhau trên kết hợp. Hàm mất mát Jaccard thường được sử dụng để đo lường độ tương đồng giữa hai tập hợp, trong trường hợp này là đo lường độ tương đồng giữa tập hợp các điểm ảnh được dự đốn và tập hợp các điểm ảnh thực tế trên ảnh. Hàm mất mát Jaccard tính tốn tỉ lệ giữa diện tích phần giao giữa hai tập hợp và diện tích phần hợp của chúng. Hàm mất mát Jaccard được sử dụng để huấn luyện mơ hình phân đoạn đối tượng này bởi vì hàm mất mát Jaccard độc lập với kích thước của đối tượng và cĩ độ phức tạp tính tốn thấp, phù hợp với các ứng dụng thời gian thực. 2.2.1.2. Mơ hình bộ lọc theo luật (bộ lọc yếu) Như đã đề cập ở trên, hệ thống được đề xuất dựa trên mơ hình mạng phân cấp, sau khi cĩ được danh sách các hình bao �, bộ lọc theo luật được sử dụng như một bộ lọc yếu nhưng nhanh để lọc bỏ nhiễu trong tập danh sách các hình bao này. Bộ lọc dựa trên luật được sử dụng như một bước xử lý sau cho mơ hình. Nếu khơng cĩ bộ lọc dựa trên luật, tất cả các hình bao trong tập danh sách các hình bao � sẽ là đầu vào của mơ hình học sâu thứ hai để phân loại, điều này gây ra tính tốn dư thừa và giảm hiệu năng của hệ thống. Mỗi hình bao trong tập hình bao � được chuyển qua bộ lọc dựa trên luật ℎ(). Bộ lọc theo luật này cĩ thể được mơ tả bằng cơng thức như sau: � = ℎ(�BB) = {τ}, �ớ� � = 1,� (2.4) � biểu thị hình bao thứ � trong hình ảnh, � là danh sách các hình bao sau khi đi qua bộ lọc theo luật này. � là số lượng hình bao trong tập � sau khi đi vào bộ lọc. 2.2.1.3. Mơ hình học sâu phân loại dựa trên mạng Mobilenet v3 (bộ lọc mạnh) Trong luận án này, một bộ phân loại dựa trên CNN được sử dụng để phân biệt các hố sụt thực sự với các vật thể khác. Phân loại hình ảnh bằng cách sử dụng mơ hình CNN học chuyển tiếp bao gồm hai giai đoạn: huấn luyện và dự đốn. Trong giai đoạn huấn luyện, mơ hình CNN được huấn luyện bằng cách sử dụng một tập dữ liệu đã biết về các hình ảnh được gán nhãn với các kiểu tương ứng của chúng. Sau khi các mơ hình được học, chúng sẽ được sử dụng để dự đốn các loại đối tượng của hình ảnh mới. Trong số các mơ hình CNN phổ biến, MobileNet là một mơ hình cĩ ít tham số hơn nhưng vẫn duy trì độ chính xác cạnh tranh so với các mơ hình hiện đại khác. Mơ hình MobileNet cĩ thể chạy trên thiết bị di 8
  11. động trong thời gian thực. Hệ thống của luận án sử dụng mơ hình MobileNet v3 đã được huấn luyện với tập dữ liệu ImageNet để thực hiện học chuyển tiếp. Việc sử dụng mơ hình MobileNet v3 này đảm bảo rằng tồn bộ hệ thống phát hiện hố sụt cĩ thể hoạt động trong thời gian thực. Mơ hình MobileNet-small được sử dụng, cĩ một lớp nhân chập, 11 lớp nút cổ chai, một lớp chập với một lớp gộp tồn cục, và hai lớp được kết nối đầy đủ. 2.2.2. BáM vết hố sụt bằng thuật tốn Hungary Sau khi phát hiện và nhận dạng hố sụt bằng mơ hình mạng phân cấp, khĩ khăn với việc bám vết này là gán hố sụt cho các tracklet tương ứng, là quỹ đạo của các đối tượng trong các khung hình liên tiếp. Thuật tốn Hungary (HA) được sử dụng trong mơ hình đề xuất này để liên kết dữ liệu giữa các khung hình. Thuật tốn HA được sử dụng bởi hai ưu điểm nổi bật, thứ nhất thuật tốn HA luơn luơn trả về lời giải cho bài tốn gán hố sụt cho các tracklet tương ứng, thứ hai độ phức tạp tính tốn của thuật tốn HA thấp hơn nhiều so với các phương pháp bám vết đối tượng khác cho phép các hệ thống dựa trên mơ hình đề xuất cĩ thể áp dụng vào thực tế theo thời gian thực. 2.2.3. Kết quả thực nghiệM 2.2.3.1. Bộ dữ liệu Bộ dữ liệu video do tác giả của bài báo [14] cung cấp được sử dụng cho các thử nghiệm đánh giá mơ hình đề xuất. Các đoạn video được thu thập bằng camera nhiệt gắn trên thiết bị bay khơng người lái để ghi lại các hố sụt nhân tạo trên mặt đất. Các hố sụt được đào thủ cơng và một nửa số hố sụt nhân tạo này chứa đầy nước để mơ phỏng các điều kiện thực tế. Ngồi ra, các hố sụt được hình thành ở các độ sâu khác nhau từ 0,5 m đến 2 m với đường kính từ 1 m trở xuống với sai số 0,5 m. Để tìm ra thời gian tối ưu trong ngày để phát hiện các hố sụt, bộ dữ liệu được ghi lại ở các khu vực xung quanh tại các thời điểm khác nhau. Bộ dữ liệu video bao gồm 16 video với các hố sụt được ghi lại ở các khoảng cách khác nhau ở độ phân giải 256 × 336. 2.2.3.2. Cài đặt Mơi trường thực nghiệm Mơ hình U-Net được huấn luyện từ đầu với kỹ thuật tăng dữ liệu để khắc phục vấn đề hạn chế dữ liệu, với epoch tối đa là 200 và tốc độ học là 0,001. Kích thước cụm dữ liệu của quá trình huấn luyện là 16, tương đối nhỏ so với các nghiên cứu khác về phân loại ảnh và phân đoạn ảnh. Kích thước cụm dữ liệu nhỏ này được chọn vì tập dữ liệu huấn luyện của hố sụt ít chi tiết hơn so với các tập dữ liệu phổ biến khác như ImageNet. Mơ hình hội tụ sau 94 epoch, với giá trị hàm mất mát IoU giảm xuống 0,0230 và độ chính xác xác nhận tăng lên 95,6%. Quá trình huấn luyện mơ hình học chuyển tiếp với mạng MobileNet v3 bắt đầu với tốc độ học là 0,01 và giảm dần đi một hệ số là 10 cứ sau mỗi 5 epoch. Tốc độ học nhỏ ban đầu được sử dụng vì trọng số của mạng học sâu nhân chập được huấn luyện trước thường tốt và chúng sẽ khơng bị suy hao quá nhanh. Quá trình tối ưu hĩa chạy trong tối đa 100 epoch, dẫn đến độ chính xác trên 99% đối với mơ hình học sâu nhân chập dựa trên mạng MobileNet v3 được huấn luyện. Hơn nữa, kích thước cụm dữ liệu huấn luyện là 32. Số epoch tối đa được đặt là 100. Trong quá trình huấn luyện thực tế, sau 20 epoch, mơ hình đã hội tụ về trạng thái tối ưu. 2.2.3.3. Đánh giá kết quả thực nghiệm Độ chính xác tổng thể của phương pháp phát hiện hố sụt được so sánh với độ chính xác của phương pháp trong [14]. 6 video trong tập dữ liệu, đã được đề cập trước đĩ, được sử dụng để thực hiện đánh giá này. Những video này khơng được sử dụng trong quá trình tạo hai bộ dữ liệu cho mơ hình phân đoạn U-Net và huấn luyện mơ hình MobileNet v3 để đánh giá khách quan hiệu suất của phương pháp. Để so sánh hiệu suất của mơ hình đề xuất với hiệu suất của phương pháp trong [14], độ chính xác phát hiện trung bình và chỉ số recall trung bình được sử dụng với các phương trình sau. 9
  12. �� = (2.5) �� = (2.6) Trong đĩ TP là số lượng dương tính thật, FN là số lượng âm tính giả và FP là số lượng dương tính giả trong tập dữ liệu. Dựa trên ngưỡng chồng lấn � (overlapping threshold), cĩ thể xác định thời điểm phát hiện hố sụt là FP, FN hay TP. Đối tượng được phát hiện (hố sụt hoặc khơng phải hố sụt) là FP khi nĩ được phân loại là hố sụt nhưng khơng phải là hố sụt thực sự. Đối tượng được phát hiện là TP khi nĩ được phân loại là hố sụt, là hố sụt thực sự và khi diện tích chồng lấn giữa hố sụt được phát hiện và ảnh hố sụt chân lý lớn hơn �. Đối tượng được phát hiện là FN khi nĩ được phân loại là khơng phải hố sụt nhưng là hố sụt thực sự. � cao hơn cĩ thể dẫn đến tỷ lệ TP giảm nếu hố sụt được phát hiện khơng khớp chính xác với ảnh hố sụt chân lý. Đặt � là cần thiết để đánh giá hiệu suất của hệ thống vì nguy cơ hình thành hố sụt phải được đánh giá bằng cách sử dụng thơng tin về cả vị trí hố sụt và diện tích hố sụt một cách kịp thời. Mơ hình đề xuất sử dụng U-Net cho bài tốn phân đoạn ảnh và tỷ lệ phát hiện chính xác TP cao ngay cả khi � được đặt cao. Trong đánh giá này, � được đặt là 0,6 để so sánh các mơ hình. Điểm � được tính bằng phương trình sau đây là thước đo đánh giá của phép so sánh, sau đĩ cĩ thể được mơ tả bằng phương trình cho �. × � ����� = 2 × (2.7) Hình 2.3. Đồ thị ROC (Receiver Operating Characteristic) so sánh các phương pháp 10
  13. Hình 2.4. Biểu đồ cột so sánh độ chính xác các phương pháp Điểm � trung bình trên mỗi video được mơ tả trong Hình 2.4. Mơ hình đề xuất đạt điểm � cao nhất so với các mơ hình khác cho tất cả các video. Đáng chú ý, mơ hình đề xuất vượt trội hơn so với các phương pháp AlexNet + GMM và HOG + SVM + SlidingWindow một biên độ lớn. Trong khi đĩ, đường cong ROC để so sánh các phương pháp được trình bày trong Hình 2.3. Đường cong ROC được tạo ra bằng cách vẽ biểu đồ tỷ lệ dương tính thực và tỷ lệ dương tính giả ở các cài đặt ngưỡng khác nhau (ngưỡng thay đổi). Trong kịch bản phát hiện hố sụt này, các ngưỡng thay đổi là tập hợp các giá trị � (từ 0 đến 1). Ngưỡng càng cao thì càng khĩ để một hố sụt được dự đốn trở thành một mẫu dương tính thực sự. Như thể hiện trong hình này, diện tích dưới đường cong của mơ hình đề xuất là lớn nhất, chứng tỏ tính hiệu quả trong việc phát hiện các hố sụt. Đánh giá thời gian thực hiện trên thiết bị nhúng So sánh mơ hình đề xuất với các mơ hình khác trên bo mạch nhúng Jetson TX2 được mơ tả trong Bảng 2.1. Một điều quan trọng đáng chú ý trong so sánh này là bo mạch Jetson TX2 chứa các lõi GPU (đơn vị xử lý đồ họa) hỗ trợ các mơ hình học sâu. Do đĩ, các mơ hình học sâu chạy trên bo mạch này được tăng tốc lên nhiều so với các mơ hình học máy phát hiện đối tượng cổ điển. Mơ hình đề xuất đạt được hiệu suất cao nhất là 13,2 FPS, trong khi mơ hình chậm nhất là Faster RCNN với 1,3 FPS. Bảng 2.1. Tốc độ khung hình của mơ hình đề xuất Phương pháp Tốc độ xử lý (FPS) CNN+ Random Forest [14] 5.3 Faster RCNN 1.3 GMM + AlexNet 4.7 SVM + HOG + Sliding Window 11.4 Mơ hình đề xuất 13.2 11
  14. 2.3. Phát hiện đường sạt lở trong ảnh thu về từ UAV Hình 2.5 mơ tả luồng xử lý chính của mơ hình được đề xuất. Sau khi phát hiện được đối tượng là khu vực sạt lở tiềm năng, các đối tượng này được đưa đến bộ phân loại dựa trên học sâu để đưa ra kết luận cuối cùng là đường cĩ sạt lở hay khơng. Khối bộ lọc theo luật được triển khai trước bộ phân loại học sâu và sau khối phát hiện các đối tượng tiềm năng là sạt lở trong ảnh. Việc sử dụng bộ lọc theo luật giảm tải tính tốn cho bộ phân loại dựa trên học sâu tương tự như trong bài tốn phát hiện hố sụt được trình bày trong phần trước. Mơ hình đề xuất trong bài tốn phát hiện sạt lở này vẫn tuân theo tư tưởng của mơ hình phân cấp bao gồm nhiều cấp bộ lọc với các vai trị khác nhau. Hình 2.5. Luồng xử lý của hệ thống phát hiện sạt lở đường. 2.3.1. Phân đoạn đường Phân đoạn đường là một trong những bước đầu tiên của tồn bộ hệ thống. Sự kiện đường bị sạt lở thường dẫn đến những sự đứt gãy đối tượng đường trong hình ảnh được phân đoạn. Do đĩ, phân đoạn đường giúp cho hệ thống cĩ khả năng trích xuất ra được những đối tượng (khu vực) trong hình ảnh cĩ khả năng là đoạn đường bị sạt lở. Để giải quyết bài tốn phân đoạn đường này, mơ hình SD-UNet được sử dụng như một mơ hình cơ bản, mơ hình này được chỉnh sửa thành một phiên bản rút gọn với ít tham số hơn, qua đĩ đạt 12
  15. được hiệu suất cao hơn phương pháp gốc và yêu cầu lượng tính tốn ít hơn 8 lần. Để đạt được hiệu suất này, tất cả các lớp mạng nhân chập tiêu chuẩn được thay thế bằng các lớp được phân tách theo chiều sâu (deep- wise separable layer). Bằng cách này, các tham số trong mơ hình U-Net giảm đi đáng kể. Tuy nhiên, việc sử dụng các lớp phân tách theo chiều sâu này nhiều cũng dẫn đến sự suy giảm hiệu năng so với các lớp nhân chập tiêu chuẩn. Do đĩ, các phương pháp chuẩn hĩa nhĩm được áp dụng tại đầu ra của các lớp ReLU để khơi phục, cải thiện hiệu năng cho mơ hình rút gọn này. Kiến trúc SD-UNet bao gồm các khối SD-UNet được thiết lập dựa trên các lớp được phân tách theo chiều sâu. Một khối SD-UNet bao gồm: 2 lớp phân tách theo chiều sâu với kích thước 3x3, 2 lớp nhân chập với kích thước 1x1, 2 lớp ReLU, và một lớp chuẩn hĩa nhĩm. 2.3.2. Phát hiện sạt lở bằng Mơ hình phân cấp 2.3.2.1. Trích xuất đối tượng tiềm năng là sạt lở trong ảnh phân đoạn Ảnh sau khi được phân đoạn ở dạng nhị phân chỉ gồm những điểm ảnh đen và điểm ảnh trắng. Điểm ảnh đen đại diện cho nền, điểm ảnh trắng đại diện cho đường. Do đặc thù của sạt lở, đường tại những vị trí sạt lở sẽ bị đứt gãy và trở nên khơng liền mạch, thơng thường khi sạt lở xảy ra, đường sẽ bị đứt gãy hồn tồn, cĩ nghĩa là các điểm ảnh trắng của đối tượng đường sẽ bị đứt gãy và khơng liền mạch. Mục đích của bước xử lý trích xuất các đối tượng tiềm năng là sạt lở ở đây là đi tìm tất cả các vị trí đường bị đứt gãy để làm đầu vào của mơ hình phân cấp. Đầu ra của bước xử lý này sẽ là tập hợp các ảnh cĩ khả năng là sạt lở, mỗi ảnh được biểu diễn dưới dạng một tensor � được chuẩn hĩa về kích thước 227x227. Gọi � là tập hợp các �, ta cĩ biểu diễn của � như sau: � = {τ}, �ớ� � = 1,� (2.8) Hình 2. 6. Các bước trong quá trình trích xuất đối tượng nghi ngờ sạt lở Để trích xuất được một tensor � trong ảnh phân đoạn, các bước xử lý ảnh cơ bản được triển khai theo sơ đồ khối như trong Hình 2.6. Trong thực tế, trong tập hợp ảnh � là đầu ra của bước xử lý này sẽ tồn tại hai dạng tensor là nhiễu cần phải được loại bỏ để cĩ thể đạt được độ chính xác cao nhất: Loại nhiễu thứ nhất do quá trình xử lý ảnh truyền thống, nhiễu này là các cạnh được trích xuất sai, tốn tử dilation làm dính một số đối tượng, hoặc các lấy tâm đường khơng hồn tồn chính xác. Loại nhiễu thứ hai thực ra khơng thực sự là nhiễu nhưng những tensor này cũng khơng phải là ảnh sạt lở cuối cùng mà mơ hình cần lấy ra. Loại nhiễu này xuất hiện khi cĩ các đối tượng là xe cộ đi lại trên đường, do cây cối che lấp đường, hoặc do các hiệu ứng 13
  16. ánh sáng và camera gây ra. Hai loại nhiễu này sẽ được xử lý bằng mơ hình phân cấp, ở chặng đầu tiên bộ lọc theo luật được đề xuất, các nhiễu loại thứ nhất sẽ được loại bỏ tại đây, những nhiễu thứ nhất cịn xĩt lại và nhiễu thứ hai sẽ được loại bỏ ở chặng thứ hai là một mơ hình học sâu phân loại đối tượng. 2.3.2.2. Mơ hình phân cấp phát hiện sạt lở Hình 2.7. Kiến trúc mơ hình phân cấp phát hiện sạt lở Mơ hình phân cấp phát hiện sạt lở được đề xuất trong Hình 2.7 để xử lý các đối tượng được trích xuất từ bộ trích xuất các đối tượng tiềm năng cĩ thể là sạt lở. Sau bộ lọc theo luật, tập hợp các tensor lúc này được thu gọn lại so với tập hợp tensor lúc đầu �. Nếu coi bộ lọc theo luật cĩ cơng thức tổng quát là ℎ, ta cĩ tập hợp tensor cịn lại sau bộ lọc � theo luật như sau: � = ℎ(�) = {τ}, �ớ� � = 1,� (2.9) Trong đĩ, � là số lượng tensor cịn lại sau bộ lọc theo luật và � ≤ �. Cuối cùng, mạng học sâu dựa trên kiến trúc MobileNet v3 với một số chỉnh sửa ở lớp cuối cùng được sử dụng để phân loại các tensor cịn lại sau bộ lọc theo luật vào một trong hai nhĩm: sạt lở, khơng phải sạt lở. Mơ hình MobileNet sử dụng một hàm kích hoạt mới thay cho hàm kích hoạt cũ. Hàm kích hoạt mới h- swish dựa trên việc thay thế hàm kích sigmoid với tính tốn nặng bằng hàm ReLU6 cĩ tính tốn nhẹ hơn. ����ℎ(�) = �. �(�) (2.10) () ℎ − ����ℎ(�) = � (2.11) Giả sử mạng học sâu MobileNet v3 được biểu diễn bằng một hàm ánh xạ từ tập hợp các tensor sau bộ lọc theo luật � thành tập hợp các tensor chứa sạt lở �. Ta cĩ thể biểu diễn tập hợp tensor chứa sạt lở theo cơng thức sau: � = ℎ(�) = {τ}, �ớ� � = 1,� (2.12) Trong đĩ � là số lượng tensor chứa đối tượng sạt lở cuối cùng và � ≤ �. Lý do lựa chọn mạng MobileNet v3 trong số các mơ hình mạng phân loại đối tượng là do mạng MobileNet cĩ lượng tính tốn khơng lớn, phù hợp cho các ứng dụng triển khai trên các thiết bị nhúng. 2.3.3. Kết quả thực nghiệm 2.3.3.1. Bộ dữ liệu LandslidePTIT Để phục vụ cho việc thử nghiệm hiệu quả mơ hình đề xuất, NCS đã tiến hành tự xây dựng bộ dữ liệu LandslidePTIT. Bộ dữ liệu này được xây dựng dựa trên các nguồn kết hợp sau: dữ liệu tự thu thập tại khu vực miền núi ở huyện Nam Trà My, Quảng Nam; dự liệu thu thập trên internet; dữ liệu sinh ra tự động từ dữ liệu sạt lở và ảnh đường khơng sạt lở. Sự kiện sạt lở đường sau mưa lũ là sự kiện bất thường hiếm gặp, do đĩ dữ liệu tự thu thập được khơng nhiều vì đường di chuyển lên các khu vực để thu dữ liệu trong điều kiện mưa lũ cũng tương đối nguy hiểm. Tổng hợp lại, bộ dữ liệu bao gồm 1320 ảnh chứa cả ảnh sạt lở và ảnh khơng cĩ sạt lở. Để thuận tiện cho việc đánh giá các mơ hình, bộ dữ liệu được chia ra làm hai phần theo tỉ lệ 14
  17. 8:2, 80% dữ liệu ảnh được dùng cho huấn luyện mơ hình, 20% dữ liệu ảnh (khơng chứa dữ liệu ảnh được sinh ra tự động) được dùng việc đánh giá mơ hình. Dựa trên bộ dữ liệu này, dữ liệu sử dụng để huấn luyện mơ hình MobileNet phân loại đối tượng thuộc 2 lớp (sạt lở, khơng sạt lở) được lọc ra tại bước “trích xuất đối tượng tiềm năng là sạt lở trong ảnh phân đoạn”. Phần dữ liệu này được chia thành 2 nhĩm tương ứng với hai sự kiện cĩ sạt lở và khơng cĩ sạt lở, nhĩm thứ nhất là ảnh đối tượng sạt lở, nhĩm thứ hai là ảnh của các đối tượng khơng phải là sạt lở. Dữ liệu này bao gồm tổng cộng 1540 ảnh trong đĩ cĩ 840 ảnh sạt lở và 700 ảnh khơng phải sạt lở. Để huấn luyện mà đánh giá tính hiệu quả của mơ hình MobileNet, phần dữ liệu này cũng được chia nhỏ ra thành hai nhĩm dữ liệu huấn luyện và dữ liệu đánh giá với tỉ lệ 8:2. MobileNet là bộ lọc mạnh được đặt ở cuối mơ hình phân cấp nhằm mục đích phân loại đối tượng tiềm năng là sạt lở thành các đối tượng sạt lở hay đối tượng bình thường khơng chứa sạt lở. 2.3.3.2. Kết quả thực nghiệM So sánh trong Bảng 2.2 đánh giá tổng thể tính hiệu quả của mơ hình được đề xuất. Trên thực tế, các mơ hình phân đoạn hoặc phân loại cĩ thể trực tiếp phát hiện được sạt lở trong ảnh như mơ hình MobileNet, ResNet, VGGNet và EfficientNet. Các mơ hình này bản thân nĩ đã cĩ khả năng dự đốn được sự kiện sạt lở trong ảnh. Tuy nhiên, độ chính xác của các mơ hình này khơng cao. Các mơ hình được sử dụng trong thực nghiệm so sánh này đều cĩ kiến trúc gốc trong các cơng bố về mơ hình tương ứng. Để thuận lợi cho việc so sánh, tất cả các siêu tham số của các mơ hình cũng được lấy từ các cơng bố gốc. Các mơ hình này đều được huấn luyện trước với bộ dữ liệu Imagenet, sau đĩ được huấn luyện tiếp (transfer learning) với bộ dữ liệu LandslidePTIT. Mơ hình đề xuất cĩ thể đạt được điểm F1 cao nhất là 96,2%, cao hơn 4,2% so với mơ hình thứ hai (YOLO). Hiệu suất kém nhất là từ phân đoạn đường với mơ hình FCN cộng với bộ lọc theo luật với điểm F1 là 80,7%. Những kết quả này đã chứng minh rằng mơ hình mạng phân cấp là cần thiết để đạt được hiệu suất cao trong việc phát hiện sự kiện sạt lở đường từ hình ảnh đầu vào. Bảng 2. 2. So sánh hiệu năng của các phương pháp Method F1 score MobileNet 0.822 ResNet-18 0.852 VGGNet 0.841 EfficientNet 0.835 YOLO 0.92 Faster RCNN 0.91 SSD 0.893 U-Net + Bộ lọc theo luật 0.814 SDNet + Bộ lọc theo luật 0.823 FCN + Bộ lọc theo luật 0.807 SD-Net + Bộ lọc theo luật + MobileNet 0.962 2.4. Kết luận chương Dựa trên những phân tích về sự kiện bất thường tĩnh, chương này trình bày về mơ hình học sâu phân cấp cho phép phát hiện các sự kiện bất thường tĩnh thơng qua việc phân tích các đối tượng bất thường trong ảnh. Do yếu tố khơng chuyển động của các đối tượng bất thường, những mơ hình đề xuất được áp dụng trên các đối tượng ngay trong từng ảnh trích xuất ra từ các video giám sát. Mơ hình học sâu phân cấp khi được áp dụng vào bài tốn phát hiện sự kiện bất thường tĩnh này cĩ những ưu điểm sau: - Mơ hình phân cấp cho độ chính xác cao hơn so với các mơ hình khác, đặc biệt là trong những trường hợp đối tượng bất thường xuất hiện chiếm một diện tích nhỏ trong ảnh. 15
  18. - Mơ hình phân cấp cho tốc độ cải thiện hơn so với các mơ hình huấn luyện từ đầu đến cuối (end-to- end model) do các đối tượng nhiễu được lọc qua ở các chặng đầu của mơ hình, làm giảm số lượng ảnh đối tượng đi tới bộ phân loại. - Mơ hình phân cấp khơng yêu cầu nhiều dữ liệu cho việc huấn luyện như các mơ hình học sâu huấn luyện từ đầu đến cuối. Những kết quả thực nghiệm thơng qua hai bộ dữ liệu phát hiện hố sụt, sạt lở chứng minh cho nhưng ưu điểm này của mơ hình phân cấp. Những nội dung và mơ hình phân cấp đề xuất trong chương này là tiền đề cho nghiên cứu sinh xây dựng mơ hình phân cấp để phát hiện sự kiện bất thường trong bài tốn tổng quát hơn, đĩ là bài tốn phát hiện sự kiện bất thường động. 16
  19. CHƯƠNG 3. ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG ĐỘNG SỬ DỤNG MẠNG PHÂN CẤP 3.1. Mơ hình hệ thống Hình 3.1. Mơ hình mạng phân cấp phát hiện đối tượng bất thường động Với mỗi khung ảnh, các đối tượng quan tâm được đi qua bộ lọc theo luật để lọc đi những đối tượng là nhiễu. Qua đĩ, từ một khung ảnh đầu vào tại thời điểm �, các chặng đầu ở mơ hình mạng phân cấp đã lọc ra được một tập hợp các đối tượng quan tâm, bị nghi ngờ là đối tượng của sự kiện bất thường. Các đối tượng () () này được cắt nhỏ ra từ ảnh gốc, với ký hiệu tập hợp đối tượng này là �, ta cĩ � bao gồm các tensor tương ứng với các ảnh đối tượng được cắt ra từ ảnh gốc () () � = � , �ớ� � = 1, � (3.1) Với � là số lượng các đối tượng quan tâm trong một khung hình. Trong quá trình bám vết các đối tượng quan tâm. Nếu đối tượng đang được bám vết bị mất khỏi khung hình quá một số lần liên tiếp sẽ được khởi tạo và bám vết lại từ đầu. () Sau khi trích xuất và bám vết, tập hợp � tại thời điểm � trở thành đầu vào để trích xuất các vector () () đặc trưng của các đối tượng quan tâm. Ứng với mỗi � ta sẽ trích xuất được một vector đặc trưng � . Tập () hợp các vector này được ký hiệu là �, hàm ánh xạ sử dụng mạng nơ ron tích chập là ℎ(), ta cĩ cơng thức sau: () () () � = ℎ(�) = � , �ớ� � = 1, � (3.2) 17
  20. Cuối cùng, các vector của các đối tượng tại các thời điểm khác nhau (timestep) sẽ được đưa vào mơ hình mạng hồi quy để nhận dạng ra đối tượng là sự kiện bất thường cuối cùng. Giả sử số lượng bước thời gian phải sử dụng để đưa ra kết luận về đối tượng bất thường là �, với hàm ánh xạ từ mơ hình mạng nơ ron hồi quy là ℎ(), với đầu ra dự đốn cuối cùng là � cho tập hợp các đối tượng quan tâm được bám vết. Với mỗi đối tượng, kết quả dự đốn là � () () () � = ℎ(�, � , , � ) = {�}, �ớ� � = 1, � (3.3) Sau khi kết luận xong về đối tượng quan tâm, tồn bộ thơng tin về các bám vết của đối tượng trong quá khứ các bước thời gian trước được xĩa bỏ và thiết lập các đối tượng mới. Quá trình cứ lặp lại như vậy để giám sát tất cả các đối tượng bất thường cĩ trong video. 3.2. Phát hiện lửa sử dụng Mơ hình Mạng phân cấp Hình 3.2. Mơ hình phát hiện lửa trong video sử dụng mạng CNN-BiLSTM 18
  21. Dựa trên mơ hình phân cấp được mơ tả trong mục 3.1, mơ hình phát hiện lửa trong phần này kết hợp mơ hình phân cấp phát hiện lửa trong ảnh đơn, bám vết và trích xuất đặc trưng của đối tượng, mạng Bi- LSTM cho phép liên kết các đặc trưng của đối tượng theo thời gian để đưa ra dự đốn chính xác về đối tượng lửa. Sở dĩ, mơ hình đề xuất trong chương này khác so với phương pháp trong chương 2 ở chỗ đối tượng bất thường ở đây cĩ những chuyển động theo thời gian thực để cĩ thể phân biệt đối tượng lửa thực với các đối tượng khác. Mơ hình đề xuất phát hiện lửa này được mơ tả trong Hình 3.2. Hệ thống này cĩ khả năng theo dõi nhiều đối tượng lửa trong cùng một khung hình. Đầu tiên, các đối tượng lửa, và các đối tượng nghi ngờ là lửa được trích xuất sử dụng các đặc trưng về màu sắc và các đặc trưng về chuyển động tại biên của các đối tượng. Do những đặc thù về màu sắc và chuyển động tại biên (hình dạng), các đối tượng lửa và các đối tượng cĩ khả năng là lửa được trích xuất làm đầu vào của mơ hình phân cấp. Sau các bước lọc đối tượng này, mơ hình ResNet được sử dụng để trích xuất đặc trưng khơng gian của đối tượng nghi ngờ là lửa. Các đối tượng nghi ngờ là lửa được trích xuất từ phần trước sẽ được bám vết đơn giản (sử dụng vị trí và hình dạng của đối tượng) qua các khung hình để tạo thành một chuỗi hình ảnh của đối tượng. Chuỗi hình ảnh của đối tượng này sau đĩ được sử dụng để làm đầu vào cho mơ hình học sâu trích xuất đặc trưng thời gian BiLSTM. 3.2.1. Trích xuất đặc trưng các đối tượng nghi ngờ là lửa trong từng khung ảnh Trong bước này, tất cả các đối tượng nghi ngờ là lửa trong khung hình được trích xuất sử dụng các đặc trưng về màu sắc. Ảnh màu ban đầu được chuyển đổi sang khơng gian màu HSV (Hue - Saturation – Value of intensity), khơng gian màu này cĩ khả năng mơ tả màu sắc dễ dàng hơn các khơng gian màu khác và thường được sử dụng như đầu vào cho các phương pháp xử lý ảnh truyền thống. Ngồi ra, do đối tượng lửa chuyển động liên tục theo thời gian thực, đường viền của các đối tượng lửa thực sự sẽ xuất hiện các nhấp nháy liên tục, tạo ra năng lượng cho khu vực này. Dựa vào yếu tố này, các đối tượng khơng cĩ đặc trưng đường viền như vậy được loại bỏ để cĩ thể đạt được hiệu quả tốt hơn cho bộ lọc theo luật. Đạo hàm theo thời gian của độ chĩi bằng khơng với các khu vực tĩnh, khác khơng với các khu vực chuyển động. Do đĩ, đạo hàm của hình ảnh trong video cĩ thể sử dụng được để bám vết các đối tượng di chuyển. Tổng của các giá trị tuyệt đối của đạo hàm tăng nếu như đối tượng di chuyển quanh một khu vực. Trong trường hợp đối tượng là lửa, sự nhấp nháy quanh đường viền của đối tượng lửa làm tăng liên tục giá trị điểm ảnh quanh khu vực lửa này. Dựa vào quan sát này bản đồ năng lượng nhấp nháy của đường viền được xây dựng để lọc ra các đối tượng cĩ màu sắc giống lửa nhưng khơng phải lửa. Trong kết quả cuối cùng, các phép tính tốn hình thái học trên ảnh nhị phân như eroding, dilating, opening và closing được sử dụng để căn chỉnh lại đối tượng lửa thành một khối thống nhất và cĩ thể trích xuất được đối tượng này ra phục vụ cho bước tiếp theo sử dụng mơ hình ResNet trích xuất đặc trưng từ tập () hợp các đối tượng này. Giả sử tập hợp các đối tượng được trích xuất ra tại thời điểm � là �. Mỗi đối tượng () được đại diện bởi hình ảnh cắt của đối tượng đĩ tại thời điểm � là � . () () � = � , �ớ� � = 1, � (3.4) Với � là tổng các đối tượng nghi ngờ là lửa được trích xuất và bám vết từ khung ảnh. Sau đĩ, tập hợp này được trích xuất đặc trưng bằng mơ hình ResNet-18. Tập hợp đặc trưng tại thời () điểm t được ký hiệu là � bao gồm các vector 256 chiều. () () () � = ℎ(�) = � , �ớ� � = 1, � (3.5) Với ℎ() là hàm ánh xạ đại diện cho mơ hình ResNet-18 bao gồm các tham số của mơ hình mạng () () nơ ron tích chập, được sử dụng để biến đối ảnh đầu vào của đối tượng � thành vector đặc trưng � . Hàm ánh xạ này được sử dụng nhiều lần cho tất các ảnh đối tượng nghi ngờ lửa xuất hiện trong khung hình được bám vết tại thời điểm � cũng như các bước thời gian khác. Hàm ánh xạ được sử dụng với cùng một bộ tham 19
  22. số được huấn luyện trước cho tất cả các ảnh đầu vào. Kết thúc bước xử lý này, hệ thống cĩ được một tập hợp đặc trưng của tất cả các đối tượng nghi ngờ là lửa được bám vết tại thời điểm � cũng như tất cả các bước thời gian từ khi hệ thống khởi chạy đến thời điểm � (dữ liệu trong quá khứ). Tồn bộ dữ liệu cần thiết này được đưa đến mơ hình BiLSTM tiếp theo sau để đưa ra kết quả cuối cùng. 3.2.2. Trích xuất đặc trưng thời gian của đối tượng sử dụng Mơ hình BiLSTM Xem xét mội đối tượng � trong danh sách các đối tượng được bám vết �. Khi được bám vết, vị trí của tất cả các đối tượng ảnh này trong các khung ảnh liền kề nhau sẽ được trích xuất, từ đĩ ảnh tương ứng của đối tượng này ứng với các khung ảnh gốc cũng được trích xuất. Giả sử mơ hình BiLSTM (bao gồm 2 lớp LSTM xếp chồng lên nhau) phải dùng tới � bước thời gian để dự đốn ra được đối tượng hiện tại cĩ phải là lửa hay khơng. Khi đĩ, mỗi một tế bào LSTM ở lớp đầu tiên sẽ nhận một vector đặc trưng của đối tượng � tại một bước thời gian làm đầu vào. Một cụm vector đặc trưng được đẩy vào các tế bào của lớp LSTM đầu tiên được kí hiệu là �, với thời gian hiện tại đang ở bước thời gian � () () () � = � , � , , � (3.6) Với đầu vào là �, hoạt động của mơ hình LSTM được giải thích như trong Hình 3.7. Hình 3.3. Hoạt động của mạng LSTM Hình 3.7b mơ tả lại hoạt động của một mơ hình BiLSTM. Đầu vào của lớp đầu tiên là �, giả sử xét cho thời điểm �. Đầu vào của một tế bào trong lớp LSTM đầu tiên ở thời điểm � sẽ là �(). Trong khi đĩ, đầu vào cho tế bào ở thời điểm t của lớp LSTM thứ hai sẽ là trạng thái ẩn ở bước thời gian ngay trước đĩ () () ℎ và đầu ra của tế bào trong lớp LSTM đầu tiên ℎ tại thời điểm �. Một trong những điểm mạnh của mơ hình BiLSTM là ngồi việc sử dụng thơng tin của các bước thời gian trước đĩ, mơ hình này cĩ khả năng sử dụng cả những thơng tin của các bước thời gian trong tương lại để dự đốn kết quả cuối cùng. 3.2.3. Bộ dữ liệu lửa trong video FirePTIT Dữ liệu trong bộ dữ liệu FirePTIT được thu thập là các video giám sát đặt tại các khu vực khơng được phép cĩ sự xuất hiện của lửa. Các hệ thống camera được thiết lập tại các khu vực giám sát để trực tiếp thu thập các video này. Mục đích xây dựng bộ dữ liệu này là để phục vụ đánh giá, so sánh mơ hình nghiên cứu sinh đề xuất với các mơ hình khác. Sau đĩ, bộ dữ liệu này được cơng bố cơng khai cho các nghiên cứu tiếp theo sau cĩ thể sử dụng như một tiêu chuẩn để đánh giá, so sánh. Tổng hợp lại, tập dữ liệu được thu thập trong phần này bao gồm 1032 video trong đĩ cĩ 532 video chứa lửa trong khung hình. Xét về mặt kích thước của đối tượng lửa, các video chứa lửa được phân chia vào 3 nhĩm là lửa nhỏ, lửa vừa, và lửa lớn. Lửa nhỏ là 20
  23. khi đối tượng lửa chỉ chiếm vài điểm ảnh ở trong ảnh, lửa lớn là khi đối tượng lửa chiếm lớn hơn 1/3 kích thước của ảnh. Việc thống kê theo kích thước cho thấy độ đa dạng về thống kê của các đối tượng lửa trong bộ dữ liệu. Tập dữ liệu này được chia ra làm hai phần, một phần lớn dữ liệu được sử dụng để huấn luyện mơ hình, trong khi đĩ một phần nhỏ dữ liệu cịn lại được đưa vào tập dữ liệu kiểm tra. Trong quá trình huấn luyện, mơ hình khơng được sử dụng dữ liệu trong tập kiểm tra mà chỉ được sử dụng dữ liệu trong tập huấn luyện để tăng tính khách quan của các mơ hình phát hiện lửa. 3.2.4. Kết quả thực nghiệM Tất cả thực nghiệm đánh giá các mơ hình đều được tiến hành trên phần cứng cĩ cấu hình CPU: i9; GPU: Nvidia Geforce RTX2070 Super chạy trên hệ điều hành windows 10. Các mơ hình được triển khai đánh giá, so sánh với mơ hình đề xuất là các mơ hình ở trong [15], [10], [16], [17], [18]. Trong những video mà đối tượng lửa xuất hiện với kích thước lớn, rõ ràng, hầu hết các mơ hình đều cĩ khả năng trích xuất các đặc trưng hình ảnh tốt để phát hiện lửa một cách rõ ràng trong các khung hình. Tuy nhiên, với các đối tượng lửa nhỏ và trung bình ở khoảng cách xa, khi mà các đặc trưng nổi bật của lửa khơng rõ ràng so với các đối tượng khác, các mơ hình này đều hoạt động khơng tốt. Những mơ hình trên đều khơng thể phát hiện các đối tượng lửa nhỏ. Ngồi ra, cảnh báo giả cũng là một vấn đề mà hầu hết các mơ hình đều gặp phải, các đối tượng cĩ hình dạng màu sắc giống lửa làm cho các mơ hình nhầm lẫn với đối tượng lửa thực sự. Đặc biệt, cĩ những trường hợp, thậm chí mắt người cũng khĩ cĩ thể phân biệt được lửa và đối tượng khác trong khung hình đơn. Khi đĩ hệ thống phải liên kết các khung liên tiếp theo thời gian để trích xuất đặc trưng thời gian làm cơ sở cho việc phân tích và phát hiện đối tượng lửa một cách chính xác. Với những video dạng này, các mơ hình chỉ dựa trên phân tích hình ảnh trên một khung ảnh đơn khơng thể phát hiện được lửa. Mơ hình [17] phát hiện lửa sử dụng đặc trưng màu sắc và chuyển động. Sau đĩ, các biến đổi thời gian về độ sáng của đối tượng lửa được phân tích thêm để loại bỏ đi các cảnh báo giả. Mơ hình này dựa hồn tồn trên các ngưỡng cố định, do đĩ, rất khĩ khăn cho mơ hình này chọn được bộ ngưỡng phù hợp cho nhiều ngữ cảnh khác nhau với các trường hợp sử dụng trong thực tế. Việc chọn lựa ngưỡng sẽ phải cân bằng giữa hai thơng số là tỉ lệ phát hiện được lửa và tỉ lệ cảnh báo giả. Nếu tỉ lệ phát hiện lửa tốt thì tỉ lệ cảnh báo giả cũng cao, ngược lại khi ngưỡng được lựa chọn để giảm tỉ lệ cảnh báo giả thì tỉ lệ phát hiện được lửa cũng sẽ bị giảm đi. Kết quả trong Bảng 3.5 cho thấy, mơ hình này cĩ khả năng phát hiện tốt lửa nhưng tỉ lệ cảnh báo giả cũng cao. Tương tự, mơ hình [10] cũng sử dụng đặc trưng về màu sắc và biến đổi về thời gian để phát hiện lửa. Mơ hình [17] sử dụng biến đổi wavelet 1D và biến đổi wavelet 2D cho đặc trưng thời gian và khơng gian để loại bỏ những cảnh báo giả. Kết quả trong bảng 3.4 cũng cho thấy mơ hình này gặp vấn đề khi cĩ kết quả cảnh báo giả nhiều. Tác giả của [15] sử dụng mơ hình mạng nơ ron tích chập để phát hiện lửa trực tiếp từ các khung hình. Tuy nhiên, mạng nơ ron tích chập chỉ cĩ khả năng mơ hình hĩa các đặc trưng khơng gian, thiếu đi những đặc trưng về thời gian mơ tả sự biến đổi hình dạng của đối tượng động qua các khung hình liên tiếp. Do đĩ, mơ hình này cũng khơng cho độ chính xác cao, nhưng lại cĩ tỉ lệ cảnh báo giả tương đối tuy khơng cao bằng hai mơ hình [10] và [17]. Tác giả của [18] sử dụng những đặc trưng màu và sự biến đổi ở biên của đối tượng lửa để phát hiện lửa, sau đĩ một mơ hình mạng phân cấp dựa trên mạng nơ ron tích chập được sử dụng để cho ra kết quả cuối cùng. Mơ hình này cải thiện được những yếu điểm của các mơ hình trước, tuy nhiên với những đối tượng nhỏ và ở xa và những đối tượng trơng giống lửa mơ hình này vẫn khơng hoạt động tốt bởi vì mơ hình này vẫn chưa tận dụng được đặc trưng về thời gian thơng qua sự biến đổi hình dạng đối tượng lửa trong các khung hình. Để giải quyết vấn đề này, mơ hình [16] áp dụng mạng kết hợp CNN-LSTM để phát hiện đối tượng lửa. Tuy nhiên, mơ hình này nhận ảnh đầu vào là ảnh gốc lấy ra trực tiếp từ luồng video. Do đĩ, mơ hình này gặp hạn chế khi phát hiện các đối tượng nhỏ trong hình, và với các đối tượng cĩ hình dạng giống đối tượng lửa mơ hình này cũng cho các cảnh báo giả. 21
  24. Bảng 3. 1. So sánh độ chính xác với các phương pháp khác Phương pháp Precision Recall F1 score XiaoJun Qi [17] 0,78 0,81 0,794 Toyerin [10] 0,78 0,8 0,789 NVHuan [16] 0,87 0,84 0,854 DungNM [18] 0,89 0,85 0,867 Sharma [15] 0,86 0,81 0,843 CNN-BiLSTM (đề 0,92 0,91 0,915 xuất) 3.3. Kết luận chương Chương này trình bày về mơ hình học sâu phân cấp cho phép phát hiện các sự kiện bất thường động thơng qua việc kết hợp đặc trưng khơng gian và đặc trưng thời gian thơng qua việc liên kết các khung hình trong video. Việc áp dụng các mạng học sâu trích xuất đặc trưng thời gian vào mơ hình phân cấp cho phép các đối tượng bất thường động được phát hiện một cách chính xác theo thời gian thực. Mơ hình học sâu phân cấp khi được áp dụng vào bài tốn phát hiện sự kiện bất thường động cĩ những ưu điểm sau: - Mơ hình phân cấp cho độ chính xác cao hơn so với các mơ hình khác thơng qua việc sử dụng đặc trưng thời gian để mơ hình hĩa sự biến đổi về hình dạng, vị trí của đối tượng bất thường trong các khung hình liên tiếp nhau. - Giống như mơ hình phân cấp phát hiện sự kiện bất thường tĩnh, mơ hình phân cấp khơng yêu cầu nhiều dữ liệu cho việc huấn luyện như các mơ hình học sâu huấn luyện từ đầu đến cuối. - Mơ hình phân cấp cho nhận dạng bất thường động cho hiệu năng cao hơn mơ hình phân cấp cho nhận dạng bất thường tĩnh khi áp dụng vào nhận dạng bất thường động. Tuy nhiên, khi áp dụng mơ hình phân cấp cho nhận dạng bất thường động, kỹ thuật bám vết cần phải được áp dụng để xác định lịch sử di chuyển của đối tượng giữa các khung hình, do đĩ, tốc độ xử lý của mơ hình phân cấp cho nhận dạng bất thường động sẽ chậm hơn. 22
  25. KẾT LUẬN Mục đích của luận án này là nghiên cứu đề xuất mơ hình học sâu phân cấp để cải thiện hiệu năng, tốc độ xử lý cho nhận dạng, phát hiện sự kiện bất thường trong các hệ thống giám sát bằng camera. Hệ thống giám sát thu thập hình ảnh từ các khu vực cần quan tâm, dữ liệu sau đĩ sẽ được xử lý bằng mơ hình mạng học sâu phân cấp. Luận án tập trung đề xuất mơ hình mạng học sâu phân cấp và thử nghiệm mơ hình học phân cấp này cho phát hiện, nhận dạng sự kiện bất thường. Mơ hình mạng học sâu phân cấp này khi áp dụng để nhận dạng, phát hiện sự kiện bất thường cĩ thể cải thiện hiệu năng và tốc độ xử lý so với các mơ hình khác. Đặc biệt, sự kiện bất thường là các sự kiện hiếm khi xảy ra, do đĩ, dữ liệu để huấn luyện khơng cĩ quá nhiều, dẫn đến các mơ hình học sâu huấn luyện từ đầu đến cuối khơng hiệu quả. Mơ hình phân cấp cĩ thể trách được việc sử dụng quá nhiều dữ liệu mà vẫn đảm bảo được hiệu năng xử lý bằng việc kết hợp cả các kỹ thuật xử lý ảnh truyền thống và kỹ thuật học sâu. Để thử nghiệm, đánh giá mơ hình phân cấp, trong luận án này, nghiên cứu sinh thu thập hai bộ dữ liệu là bộ dữ liệu phát hiện sạt lở đường LandslidePTIT, và bộ dữ liệu phát hiện lửa FirePTIT. Các kết quả đánh giá trên hai bộ dữ liệu này chứng tỏ mơ hình phân cấp cho hiệu năng cao hơn nhưng vẫn giữ được tốc độ xử lý nhanh đáp ứng được tính thời gian thực trên các hệ thống nhúng. Tuy đã đạt được những kết quả khả quan bước đầu trong việc thử nghiệm trên các bộ dữ liệu, mơ hình đề xuất vẫn cịn một vài hạn chế cĩ thể được khắc phục trong các nghiên cứu trong tương lai. Mơ hình đề xuất chưa cĩ khả năng huấn luyện từ đầu đến cuối (end-to-end) làm cho việc xây dựng nhãn cho bộ dữ liệu gặp nhiều khĩ khăn. Mơ hình đề xuất cũng chưa tính đến các yếu tố ngữ cảnh xung quanh đối tượng bất thường để tăng hiệu quả nhận dạng. Việc nghiên cứu thêm các đặc trưng đặc thù của các loại đối tượng bất thường cũng cần thiết để tăng tính hiệu quả của mơ hình. Ngồi ra, nội dung luận án chưa đánh giá được mức độ thiếu dữ liệu trong các sự kiện bất thường ảnh hưởng ra sao lên kết quả cuối cùng. Hướng phát triển nghiên cứu trong tương lai 1) Một số chủ đề tiềm năng cĩ thể được mở rộng từ các nghiên cứu trong luận án này, sử dụng mơ hình phân cấp, các sự kiện bất thường của người cĩ thể được nghiên cứu trong ngữ cảnh phối hợp hoạt động của camera và cảm biến đeo. Khi đĩ mơ hình kết hợp nguồn dữ liệu sẽ được đặt trong bối cảnh của mơ hình phân cấp, nâng cao hiệu quả nhận dạng. 2) Mơ hình mạng phân cấp cĩ thể kết hợp với ngữ cảnh để nâng cấp các bộ lọc yếu. 3) Nghiên cứu các phương pháp học máy mới để giải quyết bài tốn ít dữ liệu như few-shot learning và sinh dữ liệu. 23
  26. DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ [CT1] Hoai, Nam Vu, Nguyen Manh Dung, and Soonghwan Ro. "Sinkhole detection by deep learning and data association." In 2019 Eleventh International Conference on Ubiquitous and Future Networks (ICUFN), pp. 211-213. IEEE, 2019. [CT2] Vu, Hoai NaM, Cuong Pham, Nguyen Manh Dung, and Soonghwan Ro. "Detecting and tracking sinkholes using multi-level convolutional neural networks and data association." IEEE Access 8 (2020): 132625-132641. [CT3] Vu, Hoai NaM, Huong Mai Nguyen, Cuong Duc Pham, Anh Dat Tran, Khanh Nguyen Trong, Cuong Pham, and Viet Hung Nguyen. "Landslide Detection with Unmanned Aerial Vehicles." In 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp. 1-7. IEEE, 2021. [CT4] Tran-Anh, Dat, Bao Bui-Quoc, Anh Vu-Duc, Trung-Anh Do, Hung Nguyen Viet, Hoai-NaM Vu, and Cong Tran. "Integrative Few-Shot Classification and Segmentation for Landslide Detection." IEEE Access 10 (2022): 120200-120212. [CT5] Vu, Hoai NaM, Anh Dat Tran, Manh Dung Nguyen, Bokgil Choi, and Soonghwan Ro. "Investigation of Deep Learning Method for Fire Detection from Videos." In 2021 International Conference on Information and Communication Technology Convergence (ICTC), pp. 593-595. IEEE, 2021. [CT6] Nguyen, Manh Dung, Hoai Nam Vu, Duc Cuong Pham, Bokgil Choi, and Soonghwan Ro. "Multistage real-time fire detection using convolutional neural networks and long short-term memory networks." IEEE Access 9 (2021): 146667-146679. [CT7] Nguyen-Trong, Khanh, Hoai Nam Vu, Ngon Nguyen Trung, and Cuong Pham. "Gesture recognition using wearable sensors with bi-long short-term memory convolutional neural networks." IEEE Sensors Journal 21, no. 13 (2021): 15065-15079. [CT8] NaM, Vu Hoai, and Phạm Văn Cường. "Nhận dạng ngơn ngữ ký hiệu Tiếng Việt trong Video bằng LSTM và I3D đa khối." Journal of Science and Technology on Information and Communications 1, no. 3 (2020): 115-123. [CT9] Vu, Hoai NaM, Mai Huong Nguyen, and Cuong Pham. "Masked face recognition with convolutional neural networks and local binary patterns." Applied Intelligence 52, no. 5 (2022): 5497-5512. 24
  27. TÀI LIỆU THAM KHẢO [1] F. Jiang, Y. Wu, and A. K. Katsaggelos, “Abnormal Event Detection from Surveillance Video by Dynamic Hierarchical Clustering,” in 2007 IEEE International Conference on Image Processing, San Antonio, TX, USA: IEEE, 2007, p. V-145-V–148. doi: 10.1109/ICIP.2007.4379786. [2] E. Weber et al., “Detecting Natural Disasters, Damage, and Incidents in the Wild,” in Computer Vision – ECCV 2020, A. Vedaldi, H. Bischof, T. Brox, and J.-M. Frahm, Eds., in Lecture Notes in Computer Science, vol. 12364. Cham: Springer International Publishing, 2020, pp. 331–350. doi: 10.1007/978- 3-030-58529-7_20. [3] O. Elharrouss, N. Almaadeed, and S. Al-Maadeed, “A review of video surveillance systems,” J. Vis. Commun. Image Represent., vol. 77, p. 103116, May 2021, doi: 10.1016/j.jvcir.2021.103116. [4] L. Lopez-Fuentes, J. van de Weijer, M. González-Hidalgo, H. Skinnemoen, and A. D. Bagdanov, “Review on computer vision techniques in emergency situations,” Multimed. Tools Appl., vol. 77, no. 13, pp. 17069–17107, Jul. 2018, doi: 10.1007/s11042-017-5276-7. [5] G. F. Shidik, E. Noersasongko, A. Nugraha, P. N. Andono, J. Jumanto, and E. J. Kusuma, “A Systematic Review of Intelligence Video Surveillance: Trends, Techniques, Frameworks, and Datasets,” IEEE Access, vol. 7, pp. 170457–170473, 2019, doi: 10.1109/ACCESS.2019.2955387. [6] M. Yu et al., “Spatiotemporal event detection: a review,” Int. J. Digit. Earth, vol. 13, no. 12, pp. 1339–1365, Dec. 2020, doi: 10.1080/17538947.2020.1738569. [7] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, “Robust Real-Time Unusual Event Detection using Multiple Fixed-Location Monitors,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 30, no. 3, pp. 555– 560, Mar. 2008, doi: 10.1109/TPAMI.2007.70825. [8] G. Chen et al., “NeuroAED: Towards Efficient Abnormal Event Detection in Visual Surveillance With Neuromorphic Vision Sensor,” IEEE Trans. Inf. Forensics Secur., vol. 16, pp. 923–936, 2021, doi: 10.1109/TIFS.2020.3023791. [9] P. V. K. Borges and E. Izquierdo, “A Probabilistic Approach for Vision-Based Fire Detection in Videos,” IEEE Trans. Circuits Syst. Video Technol., vol. 20, no. 5, pp. 721–731, May 2010, doi: 10.1109/TCSVT.2010.2045813. [10] B. U. Tưreyin, Y. Dedeoğlu, U. Güdükbay, and A. E. Çetin, “Computer vision based method for real- time fire and flame detection,” Pattern Recognit. Lett., vol. 27, no. 1, pp. 49–58, Jan. 2006, doi: 10.1016/j.patrec.2005.06.015. [11] S. S. Beauchemin and J. L. Barron, “The computation of optical flow,” ACM Comput. Surv., vol. 27, no. 3, pp. 433–466, Sep. 1995, doi: 10.1145/212094.212141. [12] O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation,” in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, N. Navab, J. Hornegger, W. M. Wells, and A. F. Frangi, Eds., in Lecture Notes in Computer Science, 25
  28. vol. 9351. Cham: Springer International Publishing, 2015, pp. 234–241. doi: 10.1007/978-3-319- 24574-4_28. [13] A. Howard et al., “Searching for MobileNetV3,” 2019, doi: 10.48550/ARXIV.1905.02244. [14] E. J. Lee, S. Y. Shin, B. C. Ko, and C. Chang, “Early sinkhole detection using a drone-based thermal camera and image processing,” Infrared Phys. Technol., vol. 78, pp. 223–232, Sep. 2016, doi: 10.1016/j.infrared.2016.08.009. [15] J. Sharma, O.-C. Granmo, M. Goodwin, and J. T. Fidje, “Deep Convolutional Neural Networks for Fire Detection in Images,” in Engineering Applications of Neural Networks, G. Boracchi, L. Iliadis, C. Jayne, and A. Likas, Eds., in Communications in Computer and Information Science, vol. 744. Cham: Springer International Publishing, 2017, pp. 183–193. doi: 10.1007/978-3-319-65172-9_16. [16] H. V. Nguyen, T. X. Pham, and C. N. Le, “Real-time long short-term glance-based fire detection using a CNN-LSTM neural network,” Int. J. Intell. Inf. Database Syst., vol. 14, no. 4, p. 349, 2021, doi: 10.1504/IJIIDS.2021.118545. [17] X. Qi and J. Ebert, “A computer vision based method for fire detection in color videos,” Int. J. Imaging, vol. 2, no. S09, pp. 22–34, 2009. [18] N. M. Dung and S. Ro, “Algorithm for Fire Detection using a Camera Surveillance System,” in Proceedings of the 2018 International Conference on Image and Graphics Processing - ICIGP 2018, Hong Kong, Hong Kong: ACM Press, 2018, pp. 38–42. doi: 10.1145/3191442.3191450. 26