Nghiên cứu kỹ thuật xử lý ảnh dựa vào công nghệ quang tử tích hợp

pdf 114 trang lethuy22 04/04/2025 100
Bạn đang xem 30 trang mẫu của tài liệu "Nghiên cứu kỹ thuật xử lý ảnh dựa vào công nghệ quang tử tích hợp", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfLA_Bùi Thị Thuỳ.pdf
  • pdfBùi Thị Thùy_E.pdf
  • pdfBùi Thị Thùy_V.pdf
  • pdfLA_Bùi Thị Thùy_TT.pdf

Nội dung tài liệu: Nghiên cứu kỹ thuật xử lý ảnh dựa vào công nghệ quang tử tích hợp

  1. BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG TÓM TẮT LUẬN ÁN NGHIÊN CỨU KỸ THUẬT XỬ LÝ ẢNH DỰA VÀO CÔNG NGHỆ VI MẠCH QUANG TỬ TÍCH HỢP NCS: BÙI THỊ THÙY THẦY HƯỚNG DẪN: PGS. TS. Lê Trung Thành PGS. TS. Đặng Thế Ngọc HÀ NỘI - 2022
  2. Công trình hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thông Người hướng dẫn khoa học: PGS. TS. Lê Trung Thành PGS. TS. Đặng Thế Ngọc Phản biện 1: PGS.TS Nguyễn Hà Nam Phản biện 2: PGS.TS Tạ Minh Thanh Luận án được bảo vệ trước Hội đồng cấp Học viện tại Học viện Công nghệ Bưu chính Viễn thông, Km10, Đường Nguyễn Trãi, Q.Hà Đông, Hà Nội. Vào lúc: 14h00 ngày 24 tháng 10 năm 2022 Có thể tìm hiểu luận án tại: Thư viện Học viện Công nghệ Bưu chính Viễn thông
  3. MỞ ĐẦU Trong kỷ nguyên của Internet, yêu cầu về lưu trữ, xử lý, truyền dẫn dữ liệu ngày càng tăng. Theo ước tính, dữ liệu tăng trung bình 40% một năm, trong đó khoảng 90% dung lượng dữ liệu ảnh và video [1]. Một trong những mục tiêu quan trọng của kỹ thuật xử lý ảnh là thực hiện một số phân tích cụ thể và xử lý thông tin ảnh để đáp ứng nhu cầu của ứng dụng thực tế của con người và tâm lý học trực quan. Có hai loại công nghệ chính để thu nhận, xử lý ảnh là xử lý ảnh số và xử lý ảnh quang học. Các nghiên cứu về tính toán, xử lý ảnh trực tiếp trong miền quang do đó là một chủ đề nghiên cứu mới của lĩnh vực kỹ thuật máy tính, xử lý thông tin, công nghệ thông tin để thay thế vượt qua các giới hạn của kỹ thuật xử lý ảnh số hiện tại, đặc biệt trong điều kiện xử lý một khối lượng lớn dữ liệu ảnh [3]. Mục tiêu và phạm vi nghiên cứu Luận án tập trung 2 mục tiêu chính: - Thiết kế được các bộ biến đổi toàn quang tích hợp ứng dụng trong nén dữ liệu ảnh - Thiết kế được hệ thống mạng nơ-ron quang tích hợp khả trình ứng dụng cho tách biên và nhận dạng ảnh. Ý nghĩa và Đóng góp Luận án đã có 2 nhóm đóng góp chính sau đây: 1. Thiết kế được các bộ biến đổi toàn quang DHT, DCT, KLT ứng dụng cho nén ảnh. Cấu trúc mới có khả năng tích hợp với hệ thống camera thông minh, xử lý dữ liệu tốc độ cao, băng thông lớn, thời gian thực. Các cấu trúc đề xuất được thiết kế đơn giản, có độ chính xác cao so với công nghệ vi mạch hiện nay. 2. Thiết kế được nơ-ron quang mới, từ đó đề xuất kiến trúc và thuật toán mạng nơ-ron quang ứng dụng cho tách biên ảnh và phân loại ảnh trong miền quang. Bố cục của Luận án Luận án gồm 3 chương: Chương 1: Trình bày tổng quan và cơ sở lý thuyết về xử lý ảnh số, nén ảnh sử dụng các biến đổi tín hiệu; lý thuyết về mạch quang và nguyên lý của mạng nơ-ron quang 1
  4. Chương 2: Trình bày các kết quả thiết kế bộ biến đổi tín hiệu DHT, DCT, KLT sử dụng các cấu trúc tích hợp quang mới dựa vào cấu trúc giao thoa đa mode 4x4 và 6x6 cổng vào/ra ứng dụng cho nén ảnh trong miền toàn quang. Các kết quả được thiết kế trên vật liệu Si3N4 phù hợp với công nghệ CMOS hiện tại và hoạt động trong dải tần nhìn thấy của các màu R, G và B. Chương 3: Trình bày thiết kế neuron quang mới, kiến trúc thực hiện tích chập trong miền quang (kernel) và mạng nơ-ron quang. Dựa vào kiến trúc mới kỹ thuật tách biên ảnh sử dụng toán tử Roberts, Sobel và Prewitt được thiết kế trong miền quang. Đồng thời, chương 3 mô phỏng, đánh giá mạng nơ-ron quang ứng dụng cho nhận dạng tập dữ liệu viết tay MNIST. CHƯƠNG 1. TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU Chương 1 trình bày một số cơ sở lý thuyết về xử lý ảnh số, biến đổi ảnh, mạng nơ-ron quang tử, vi mạch quang tử. Các nghiên cứu tập trung vào nguyên lý để thiết kế các phần cứng xử lý ảnh. 1.1 Tổng quan Hệ thống xử lý ảnh được chỉ ra ở Hình 1.1 [30]. Hình 1.1 Quá trình xử lý ảnh số Các khâu của xử lý ảnh được chỉ ra ở Hình 1.2: 2
  5. Hình 1.2 Các bài toán xử lý ảnh Nén ảnh có thể chia ra làm nén có tổn hao và nén không tổn hao. Việc phân loại các phương pháp nén ảnh được chỉ ra ở Hình 1.3 Hình 1.3 Kỹ thuật nén ảnh Nén ảnh có nhiều ứng dụng trong thực tiễn như trong thông tin máy tính, xử lý ảnh vệ tinh, ảnh viễn thám với lượng dữ liệu lớn, xử lý các dữ liệu video, các dữ liệu trực tuyến từ xa, các dữ liệu y sinh, Hình 1.4 chỉ ra một vài ứng dụng của nén ảnh. Hình 1.4 Ứng dụng của nén ảnh Trước đây, việc xử lý ảnh quang thường dùng các hệ thống thấu kính như chỉ ra ở Hình 1.5 . Các hệ thống này không thể tích hợp và 3
  6. phát triển thành các cấu trúc máy tính quang trong tương lai do rời rạc, kích thước lớn và không tương thích với các vi mạch tích hợp. Hình 1.5: (a) Kỹ thuật xử lý ảnh quang truyền thống, (b) Biến đổi Fourier quang 1.2 Nén ảnh số dùng biến đổi tín hiệu Biểu diễn ảnh số trong không gian 2 chiều Hình 1.7: Biểu diễn ảnh số trong không gian 2 chiều Hình 1.8 mô tả sơ đồ nguyên lý chung của hệ thống nén ảnh dùng biến đổi ảnh 4
  7. Hình 1.8 Sơ đồ nén ảnh 1.3 Biểu diễn tín hiệu ảnh trong miền quang Đối với ảnh 2 chiều, các ảnh số có các mức xám được mã mã bằng mức công suất hay cường độ quang. Do vậy các điểm ảnh (x,y) trong ma trận ảnh số tương ứng với các mức công suất quang khác nhau. Đối với ảnh 3 chiều, xử lý tín hiệu quang đã và đang cung cấp các giải pháp liên quan để chuyển đổi dữ liệu thành tín hiệu quang kết hợp được điều chế không gian với các thiết bị SLM [33], cho phép thực hiện hiệu quả ảnh ba chiều kỹ thuật số [34]. 1.4. Mạng Nơ-ron Hình 1.9 (a) Sơ đồ của nơ-ron với tín hiệu vào xi , (b) hàm kích hoạt phi tuyến Hình 1.10: Mạng nơ-ron nhiều lớp kết nối đầy đủ 5
  8. Có 2 kiến trúc mạng nơ-ron chính: Mạng nơ-ron nhân chập CNN và mạng rơ-ron tái diễn RNN. Hình 1.11: Ví dụ về lớp chập dùng ma trận 3x3 tách biên ảnh Hình 1.12: Sơ đồ mạng RNN 1.5 Mạng nơ-ron quang 1.5.1 Thành phần mạng nơ-ron quang - Cấu trúc giao thoa MZI [40]: Hình 1.3 Giao thoa MZI - Cấu trúc vi cộng hưởng MRR [42]: Hình 1.14 Cấu trúc vi cộng hưởng 6
  9. 1.5.2 Thực hiện mạng nơ – ron quang Mạng nơ-ron quang có thể thực hiện với hiệu năng rất cao, tốc độ lớn và công suất nhỏ [45]. Bộ xử lý quang có thể thực hiện với tốc độ cao gấp nghìn lần so với các hệ thống máy tính hiện tại với công suất tiêu thụ thấp hơn [46]. Mạng nơ-ron quang đã được thiết kế để thực hiện các thuật toán học sâu gồm 2 phương pháp chính: • Mạng nơ-ron dựa vào khuếch đại quang bán dẫn SOA (Semiconductor Optical Amplifier) [47]: • Mạch quang đồng bộ 1.6. Các tham số hiệu năng - Tỷ lệ nén - Sai số bình phương trung bình (MSE-Mean square error) [48] - Tỷ số tín hiệu trên tạp âm đỉnh PSNR (Peak Signal to Noise Ratio), đơn vị dB [49]: 1.7 Kết luận chương 1 Chương 1 trình bày các khái niệm và các vấn đề cơ bản về xử lý tín hiệu số, tập trung vào nén ảnh và thực hiện mạng nơ-ron trong miền toàn quang. Các tham số hiệu năng để đánh giá kỹ thuật nén ảnh như sai số bình phương trung bình, tỷ số tín hiệu trên tạp âm đỉnh, tỷ lệ nén. Đồng thời chương 1 trình bày các nội dung về mạng CNN và RNN để làm cơ sở nghiên cứu cho các nội dung tiếp theo của Luận án. Chương 2 NÉN ẢNH DỰA VÀO BIẾN ĐỔI TÍN HIỆU TOÀN QUANG Chương 2 trình bày thiết kế, đánh giá, mô phỏng các bộ biến đổi DHT, DCT, KLT trong miền toàn quang. Kết quả được ứng dụng trong nén ảnh toàn quang. 2.1. Nén ảnh sử dụng biến đổi Haar (DHT) toàn quang 2.1.1. Nguyên lý nén ảnh sử dụng DHT Hình 2.1 cho thấy nguyên lý hoạt động của nén ảnh dựa trên biến đổi Wavelet Haar rời rạc (HT). 7
  10. Hình 2.1 Nguyên lý nén ảnh dùng DHT. Các ảnh được xử lý theo pixel trong miền quang được chỉ ra ở Hình 2.2 thể hiện xử lý dữ liệu pixel qua biến đổi Haar 2x2, trong đó S = A1Q1 +A2Q2 +A3Q3 +A4Q4. Hình 2.2: Xử lý dữ liệu pixel qua biến đổi Haar Luận án thiết kế các bộ biến đổi Haar trên vật liệu Si3N4 hoạt động ở bước sóng đỏ, xanh lam và xanh lục (532nm, 635nm và 405nm). Cấu trúc này hữu ích cho việc xử lý hình ảnh tốc độ cao và nén dữ liệu lớn. Phương pháp mới được đề xuất có ưu điểm là tốc độ cao, tổn hao thấp và tương thích với công nghệ CMOS. 2.1.2. Biến đổi Haar dùng 4x4 MMI và 2x2 MMI Trong nghiên cứu này, tác giả thiết kế các bộ biến đổi Haar dùng cấu trúc giao thoa đa mode MMI. Cấu trúc được đề xuất mới thể hiện ở Hình 2.3: Hình 2.3 Biến đổi Haar dùng 2x2, 4x4 MMI 8
  11. Cấu trúc Haar 4 điểm được thiết kế từ Haar 2 điểm bằng cách kết nối như sơ đồ Hình 2.4. Hình 1.4 Biến đổi Haar 4 điểm từ Haar 2 điểm Cấu trúc ống dẫn sóng được mô tả ở Hình 2.5, trong đó kích thước ống dẫn sóng là 1600nm chiều rộng và 170nm chiều cao cho các cổng tín hiệu vào và ra. Đối với 4x4 MMI, Luận Hình 2.5 Cấu trúc ống án chọn chiều rộng là 24µm để hỗ trợ dẫn sóng được 4 cổng ra và kết nối nối tiếp được với cấu trúc 2x2 MMI đi sau đó như ở Hình 2.3. Kết quả mô phỏng tín hiệu quang tương ứng với giá trị mức xám của ảnh vào cổng 1, 2 và cả cổng 1 và 2 được chỉ ra ở Hình 2.6. Kết quả mô phỏng cho thấy cấu trúc 4x4 MMI đã thực hiện được theo ma trận thiết kế ở trên để có thể thực hiện được Haar 4x4. Hình 2.6: Kết quả mô phỏng tín hiệu vào tạo cổng (a) 1, 2, (b) 2 và (c) 1 Kết quả mô phỏng cho sự thay đổi của công suất ánh sáng ra tại các chiều dài MMI khác nhau được chỉ ra ở Hình 2.7. 9
  12. Kết quả mô phỏng pha của tín hiệu tại các cổng ra 1 và 4 khi tín hiệu ảnh vào cổng 1 được chỉ ra ở Hình 2.8. Trên hình cũng chỉ ra sai pha giữa 2 cổng. Kết quả cho thấy sai pha là 900 trong 1 dải từ 2825 đến 2840µm, cho phép thực hiện bộ biến đổi Haar toàn quang rất chính xác Hình 2.7: Cường độ mức pixel Hình 2.8: Pha tín hiệu tại Hình 2.9: Tín hiệu ảnh ra tại cổng 1, 2 với chiều dài cổng 1 và 4 với chiều dài truyền qua cấu trúc MMI khác nhau MMI khác nhau Haar 4x4 tại các đầu vào khác nhau Kết quả xử lý tín hiệu ảnh truyền qua bộ biến đổi Haar khi tín hiệu vào các cổng 1, 2, 3, 4 tương ứng được chỉ ra ở Hình 2.9. Kết quả này phù hợp với lý thuyết đã phân tích ở trên. Kết quả mô phỏng số cho thấy suy hao của toàn bộ cấu trúc rất thấp khoảng 0.95dB. Tiếp theo Luận án mã hóa ma trận Haar được thiết kế từ kết quả trên để mô phỏng ở mức hệ thống. Các tín hiệu ảnh được đọc dưới dạng ma trận các mức cường độ. Kết quả mô phỏng nén ảnh đầu vào với 3 ảnh khác nhau được chỉ ra ở Hình 2.10 Hình 2.10: Ảnh gốc và ảnh nén sau bộ biến đổi Haar 4x4 MMI toàn quang 10
  13. Các tham số hiệu năng đánh giá kết quả nén ảnh được cho ở bảng sau: 2.1.3 Biến đổi Haar dùng 6x6 MMI Trong phần này Luận án đề xuất bộ biến đổi Haar sử dụng duy nhất một cấu trúc giao thoa đa mode 6x6, với 6 cổng vào và 6 cổng ra. Bằng cách lựa chọn vị trí cổng đầu vào và cổng đầu ra thích hợp tại xi = (i+0.5) WMMI/6 , chiều dài của 6x6 MMI là LMMI = 1.5Lπ. Hình 2.11 Bộ biến đổi Haar dùng Hình 2.12: Tín hiệu ảnh truyền qua duy nhất 6x6 MMI 6x6 MMI tại các đầu vào khác nhau Kết quả xử lý tín hiệu quang truyền qua cấu trúc 6x6 MMI được mô phỏng ở Hình 2.12. Sử dụng phương pháp mô phỏng số, chiều dài tối ưu của 6x6 MMI được tính toán tại 6360 µm với chiều rộng của MMI là 36 µm. Cường độ mức pixel đầu ra xung quanh chiều dài tối ưu 6360 µm được chỉ ra ở Hình 2.13. Kết quả mô phỏng cho thấy trong khoảng ±2µm công suất ảnh đầu ra chỉ thay đổi 1% như cấu trúc 4x4 MMI. Điều này cho phép cấu trúc được thiết kế thực hiện bộ biến đối Haar 6x6 MMI cũng rất chính xác với công nghệ hiện nay. 11
  14. Hình 2.13: Cường độ mức pixel ra tại cổng Hình 2.14: Pha tín hiệu tại cổng 1 và 4 1 với chiều dài 6x6 MMI khác nhau với chiều dài 6x6 MMI khác nhau Tiếp theo, pha của tín hiệu ra được phân tích. Kết quả mô phỏng pha của tín hiệu tại các cổng ra 1 và 4 khi tín hiệu ảnh vào cổng 1 được chỉ ra ở Hình 2.14. Kết quả xử lý tín hiệu ảnh truyền qua bộ biến đổi Haar khi tín hiệu vào các cổng 1, 2, 3, 4 tương ứng được chỉ ra ở Hình 2.15. Kết quả này phù hợp với lý thuyết đã phân tích ở trên. Tiếp theo Luận án mô phỏng thực hiện nén ảnh sử dụng 6x6 MMI cho ảnh “camera - man” làm ví dụ. Ảnh camera-man có kích thước 256x256 là ảnh mức xám 8 bit. Giả sử mong muốn nén với các tỷ lệ 0%, 20%, 30% và 50%. Kết quả mô phỏng được chỉ ra ở Hình 2.16 Hình 2.15: Tín hiệu ảnh truyền qua 6x6 Hình 2.16: Ảnh gốc và ảnh nén sau bộ biến MMI tại các đầu vào khác nhau đổi Haar 6x6 MMI toàn quang 12
  15. Kết quả tính toán MSE và PSNR với các tỷ lệ nén khác nhau được chỉ ra ở Bảng 2.2. Bảng 2.2: Kết quả MSE và PSNR của ảnh gốc và ảnh nén dùng Haar 4x4 MMI 2.2. Nén ảnh sử dụng biến đổi cosine (DCT) toàn quang 2.2.1. Nguyên lý thiết kế DCT và DST toàn quang Cấu trúc bộ biến đổi DCT và DST toàn quang sử dụng 4x4 MMI được đề xuất ở Hình 2.17. Chiều rộng của bộ ghép 4x4 MMI là WMMI và chiều dài là LMMI. Trường thông tin trong cấu trúc MMI được diễn dưới dạng [62]: trong đó k = 2πn/λ,λ là bước sóng hoạt động. Trong nghiên cứu này sử dụng bước sóng của các màu R, G, B tương ứng với ảnh màu R, G, B; n là chiết suất của ống dẫn tín hiệu; M là tổng số mode trong MMI. Hình 2.17: Biến đổi DCT và DST dùng 4x4 MMI Hình 2.18 cho thấy nguyên tắc nén và giải nén hình ảnh dựa trên DCT và DST. 13
  16. Hình 2.18: Nguyên lý nén ảnh dùng DCT Luận án mô phỏng nguyên lý hoạt động của cấu trúc DCT và DST sử dụng 4x4 MMI toàn quang nhờ kỹ thuật mô phỏng số. Kết quả được chỉ ra ở Hình 2.19 với các dữ liệu pixel đầu vào tại các cổng 1, 2, T 3 và 4 tương ứng với các tín hiệu (x0x1x2x3) = (1000), (0100), (0010), (0001). Ở đây các tín hiệu màu thể hiện mức xám của ảnh. Biên độ và pha tương ứng với mức xám đầu vào được tính toán của mô phỏng số. Hình 2.19 Kết quả mô phỏng nguyên lý hoạt động của cấu trúc DCT và DST sử dụng 4x4 MMI Hình 2.20: Công suất ra của bộ biến đổi DCT và DST theo chiều dài MMI 14
  17. Hình 2.21: Pha đầu ra của bộ biến đổi DCT và DST theo chiều dài MMI Cuối cùng ma trận DCT và DST toàn quang được đưa vào mô phỏng ở mức hệ thống với ảnh đầu vào camera man kích cỡ 256x256 với tỷ lệ nén 10%, 20%, 70% và 90% làm ví dụ. Kết quả ảnh đầu và và các tham số MSE và PSNR được tính theo Bảng 2.3 Hình 2.22: Kết quả mô phỏng nén ảnh sử dụng DCT toàn quang Kết quả tính toán MSE và PSNR với các tỷ lệ nén khác nhau được chỉ ra ở Bảng 2.3. Bảng 2.3: Kết quả MSE và PSNR của ảnh gốc và ảnh 15
  18. nén dùng DCT toàn quang 2.3. Nén ảnh sử dụng biến đổi Karhunen–Loève (KLT) toàn quang Cấu trúc bộ biến đổi DCT và DST toàn quang sử dụng 4x4 MMI được đề xuất ở Hình 2.23. Chiều rộng của bộ ghép 4x4 MMI là WMMI và chiều dài là LMMI = 2Λ/(N +1). Hình 2.23: Biến đổi DCT và DST dùng 4x4 MMI Phép biến đổi KLT đề cập đến các biểu thức xấp xỉ đa phân. Các phần ở mỗi tỷ lệ được phân rã một cách đệ quy và được minh họa trong Hình 2.24 Hình 2.24 Thể hiện dữ liệu ảnh theo thông cao và thấp Biến đổi KLT bắt đầu với ma trận phương sai của vec tơ x = (x1,x2, ,xn) T được tạo từ các điểm ảnh lân cận được sắp xếp theo từng khối như ở Hình 2.25. Hình 2.25: Thể hiện dữ liệu ảnh theo thông cao và thấp 16
  19. Luận án mô phỏng nguyên lý hoạt động của cấu trúc KLT sử dụng 4x4 MMI toàn quang nhờ kỹ thuật mô phỏng số. Kết quả được chỉ ra ở Hình 2.26 với các dữ liệu pixel đầu vào tại các cổng 1, 2, 3 và 4 T tương ứng với các tín hiệu (x0x1x2x3) = (1000),(0100),(0010),(0001). Ở đây các tín hiệu màu thể hiện mức xám của ảnh. Biên độ và pha tương ứng với mức xám đầu vào được tính toán của mô phỏng số. Hình 2.26: Kết quả mô phỏng nén ảnh dùng KLT Tiếp theo kết quả với 2 điểm ảnh cùng truyền qua KLT toàn quang được mô phỏng ở Hình 2.27 với các dữ liệu pixel đầu vào tại các T cổng 1, 2, 3 và 4 tương ứng với các tín hiệu (x0x1x2x3) =(1100),(1110),(1111) Hình 2.27 Mức xám ảnh truyền qua KLT với 2 điểm ảnh đầu vào Kết quả mô phỏng dịch pha dùng ống dẫn sóng rộng tại các cổng đầu vào và ra của bộ biến đổi KLT được chỉ ra ở Hình 2.28. Hình 2.28 Bộ dịch pha tín hiệu đạt được từ sử dụng ống dẫn sóng rộng Qua mô phỏng số tối ưu, tác giả tìm được chiều dài tối ưu của 17
  20. MMI là 566µm. Công suất tín hiệu ra tại các cổng 1, 2, 3 và 4 khi tín hiệu vào tại cổng 1 quanh giá trị tối ưu này được mô phỏng ở Hình 2.29. Pha của tín hiệu ra được mô phỏng ở Hình 2.30. Hình 2.29: Công suất ra và pha của KLT Hình 2.30: Công suất đầu ra dùng MMI quanh giá trị tối ưu tại các cổng 1-4 trong dải ánh sáng RGB Cuối cùng tác giả dùng thuật toán máy tính để chuyển ma trận KLT toàn quang được đưa vào mô phỏng ở mức hệ thống với ảnh đầu vào camera man kích cỡ 256x256 với tỷ lệ nén 10%, 20%, 70% làm ví dụ. Kết quả cho thấy đã thực hiện thành công nén ảnh toàn quang dùng biến đổi KLT toàn quang sử dụng 1 cấu trúc MMI duy nhất. Hình 2.31: Kết quả mô phỏng nén ảnh sử dụng KLT toàn quang 18
  21. 2.4. Kết luận Chương 2 Chương 2 đã đề xuất phương pháp mới để hiện thực hóa phép biến đổi DHT, DCT/DST và KLT sử dụng cấu trúc 4x4 MMI và 6x6 MMI cho nén ảnh trực tiếp trong miền quang. Các kết quả có liên quan đến Chương 2 được công bố trong các công trình [J2-J5] và [C1, C2] Chương 3. TÁCH BIÊN ẢNH VÀ NHẬN DẠNG ẢNH SỬ DỤNG MẠNG NƠ - RON TOÀN QUANG 3.1. Thiết kế bộ nhân chập quang tử 3.1.1. Nguyên lý thiết kế Cấu trúc đề xuất cho nhân vectơ ma trận hoặc nhân tích chập được thể hiện trong Hình 3.1. hiệu Hình 3.1(a) trình bày một ví dụ đơn giản về tính toán tích chập trong xử lý hình ảnh. Ma trận bộ lọc được thiết lập để trích xuất một đối tượng địa lý từ hình ảnh đầu vào và áp dụng cho một cửa sổ trong hình ảnh. Một bộ cộng hưởng vi mạch quang học mới chỉ dựa trên một ống dẫn sóng đa mode với bốn cổng được thể hiện trong Hình 3.1: Cấu trúc Hình 3.2 . Trong cấu trúc này tác giả sử dụng chiều nơ-ron nhân chập dài MMI là LMMI = 1.5Lπ. mới dùng MMI và vi cộng hưởng Hình 3.2: Cấu trúc vi cộng hưởng dùng MMI 19
  22. 3.1.2. Kết quả mô phỏng, đánh giá Cấu trúc bộ di pha và điều chế tín hiệu được chỉ ra ở Hình 3.3. Hình 3.3: Điều khiển dùng Hình 3.4: Chiết suất của graphene graphene mode trong ống dẫn và chiết suất hiệu dụng theo Vg sóng Công suất chuẩn hóa tại các cổng Tp và Td của bộ cộng hưởng dựa trên MMI được thể hiện trong Hình 3.5. Hình 3.5 Hàm Tp và Td dùng cho Hình 3.6: Tín hiệu ảnh truyền qua vi hệ số trọng số và tín hiệu cộng hưởng ở ON và OFF Kết quả mô phỏng số cho tín hiệu lan truyền qua bộ cộng hưởng dựa trên MMI với tín hiệu đầu vào tại cổng 1 được thể hiện trong Hình 3.6. Kết quả cho thấy sự truyền tín hiệu đối với cộng hưởng (ON) và Hình 6 (b) cho thấy sự truyền tín hiệu cho tắt cộng hưởng (OFF). 20
  23. 3.2. Tách biên ảnh sử dụng nơ-ron quang tử Trong phần này, OVMM được thiết kế ở trên được ứng dụng để tách biên ảnh trong miền quang. Các hệ số bộ lọc được thiết kế qua điều chỉnh các điện áp trên graphene. Kết quả mô phỏng tín hiệu ảnh truyền qua hệ thống với tín hiệu các mức xám x1, ,x4 giữ nguyên và thay đổi hệ số bộ lọc hi được thể hiện ở Hình 3.7. Hình 3.7: Tín hiệu mức xám Hình 3.8: Thuật toán tách biên ảnh dùng cùng ảnh truyền qua hệ thống một phần cứng OVMM Thuật toán tách biên được thực hiện như sau: Bộ lọc nhân h sẽ chạy từ trái sang phải, từ trên xuống dưới của hình ảnh đầu vào như trong Hình 3.8 để thực hiện tích chập của toàn bộ hình ảnh. Một ưu điểm nổi trội của cấu trúc đề xuất là không cần thay đổi phần cứng để thực hiện đồng thời 3 toán tử lọc biên ảnh tốc độ cao. Thuật toán thực hiện nhân chập và tách biên trên Python được chỉ ra ở Hình 3.9 Hình 3.9 Thuật toán tách biên ảnh dùng Hình 3.10: Kết quả đánh giá tách quang biên ảnh sử dụng OVMM 21
  24. Kết quả thực hiện thuật toán tách biên ảnh đối với tập dữ liệu MNIST và Lena được chỉ ra ở Hình 3.10. Kết quả mô phỏng sau đó được đánh giá với kết quả tách biên ảnh sử dụng thư viện của Scipy như chỉ ra ở Hình 3.11. Hình 3.11: Đánh giá sai số MSE, so sánh OVMM và Scipy Kết quả cho thấy sai số giữa OVMM và Scipy từ 0.05-0.12. 3.3. Thiết kế mạng nơ-ron quang tử ứng dụng cho nhận dạng ảnh 3.3.1. Nguyên lý Có thể xem OVMM như một neuron trong mạng nơ-ron quang. Hình 3.12 đề xuất 1 cấu trúc thực hiện mạng nơ-ron quang sử dụng các OVMM kết nối nhiều lớp. Hình 3.12: Cấu trúc mạng nơ-ron Hình 3.13: Bộ điều chế mới sử quang nhân chập dùng neuron dụng vi cộng hưởng MMI OVMM Trong nghiên cứu này tác giả đề xuất sử dụng cấu trúc vi cộng hưởng MMI như ở Hình 3.13 3.3.2. Kết quả mô phỏng Trong phần này, tác giả trình bày phương pháp thực hiện mô hình AI sử dụng cấu trúc OONN đề xuất. Phương pháp xử lý dữ liệu được làm tương tự như trình bày trong[80], để xây dựng một mạng nơ-ron sâu cho học có giám sát. Sơ đồ tổng thể được thể hiện ở Hình 3.14. 22
  25. Hình 3.14: Sơ đồ thực nghiệm Hình 3.15: Sơ đồ thực hiện nhận tổng quát dạng chữ viết tay Dữ liệu thử nghiệm: dữ liệu MNIST bao gồm dữ liệu viết tay từ 250 người, mỗi bức ảnh có 28x28 pixels tương ứng với 60.000 ảnh đào tạo và 10.000 ảnh kiểm thử nghiệm. Sơ đồ nhận dạng tập dữ liệu viết tay MNIST được mô hình trong Hình 3.15 ở trên. Thuật toán thực hiện xử lý ảnh, nhận dạng MNIST dùng nhân quang được đề xuất thực hiện trên Python được chỉ ra ở Hình 3.16. Hình 3.16: Thuật toán xử lý ảnh dùng Hình 3.17: So sánh độ chính xác và cấu trúc quang MMI trên Python hệ số tổn hao Trong mô phỏng này, tác giả sử dụng OONN với hai lớp và chức năng kích hoạt phi tuyến ReLU được sử dụng. Kết quả của nhiệm vụ MNIST được giải quyết bởi OONN được thể hiện trong Hình 3.17. Độ chính xác tổng thể là 92,4% thu được sau 10 lần tương tác. Độ chính xác có thể được cải thiện nhiều hơn nếu chúng ta sử dụng độ chính xác bit cao hơn như 9 bit vừa được thiết kế gần đây trong miền toàn quang [84]. 3.4. Kết luận Chương 3 Chương 3 đã thiết kế thành công cấu trúc nơ-ron quang tích hợp trên 1 chip đơn có khả năng tính toán tốc độ cao gấp 5 lần so với các cấu trúc trước đây. Cấu trúc mới được sử dụng thử nghiệm với tách biên ảnh dùng toán tử Roberts, Sobel, Prewitt có sai số MSE so với dùng Scipy 23
  26. khoảng 0.05-0.12. Các kết quả có liên quan đến Chương 3 được công bố trong các công trình [J1, J6, J7]. KẾT LUẬN VÀ KIẾN NGHỊ I. Những kết quả của Luận án Luận án đã nghiên cứu, thiết kế thành công bộ biến đổi DHT, DCT và KLT trong miền quang, ứng dụng cho xử lý ảnh tốc độ cao. 1. Thiết kế được các bộ biến đổi toàn quang DHT, DCT, KLT ứng dụng cho nén ảnh. 2. Thiết kế được nơ-ron quang mới, từ đó thiết kế mạng nơ-ron quang ứng dụng cho tách biên ảnh và phân loại ảnh trong miền quang. Cấu trúc mới có khả năng tích hợp, tốc độ cao gấp 5 lần so với hệ thống hiện tại. II. Hướng phát triển của Luận án Trên cơ sở kết quả của Luận án, có một số vấn đề và hướng nghiên cứu mới như: • Thiết kế hệ thống tích hợp bộ biến đổi ảnh trong miền quang với các bộ nhớ quang trong các hệ thống camera thông minh và xử lý dữ liệu ảnh thời gian thực. Đồng thời thiết kế các hệ thống toàn quang xử lý dữ liệu AR/VR. • Phát triển mô hình mạng OONN cho các ứng dụng AI thời gian thực, đặc biệt thiết kế các hàm kích hoạt hoàn toàn trong miền quang. • Cải tiến cấu trúc ống dẫn sóng cấu trúc graphene để tăng tốc độ xử lý dữ liệu và tốc độ học, từ đó thực hiện các bài toán phân tích dữ liệu lớn. 24
  27. DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA NGHIÊN CỨU SINH [J1]. Le Trung Thanh, Nguyen Canh Minh, Nguyen Van Khoi, Bui Thi Thuy, Nguyen Thi Hong Loan, “Design of silicon wires based directional couplers for microring resonators”, The University Of Danang, Journal Of Science and Technology, No. 12(97), vol. 1, 2015 [J2]. Thi Thuy Bui, The Ngoc Dang and Trung Thanh Le, “All-Optical Karhunen Loeve Transform Using MMI Couplers For Image Processing Applications”, Tạp chí Khoa học và Công nghệ, Đại học Thái Nguyên, T.227, S.15 (2022), 66-74. DOI: [J3]. Thi Thuy Bui, The Ngoc Dang and Trung Thanh Le, “On-chip All-optical Haar Transform based on a 4x4 MMI coupler cascaded with a 2x2 MMI coupler for Image Compression”, Tạp chí Khoa học Máy tính và Kỹ thuật truyền thông, Tạp chí Khoa học Đại học Quốc gia Hà Nội, VNU Journal of Science: Comp. Science & Com. Eng, Published Dec 16, 2022, DOI: 1086/vnucsce.446. [J4]. Bui Thi Thuy, Le Trung Thanh, “Image Compression in All- Optical Domain Using One 6x6 Multimode Interference Coupler”, Tạp chí Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Received: 6 August 2022; Accepted for publication: 21 September 2022, Vol.61, No.2(2023) : (2) (2023), 347 -357, doi:10.15625/2525-2518/17417 [J5]. Thi Thuy Bui, The Ngoc Dang and Trung Thanh Le, “Image Compression using All-optical DCT and DST”, Tạp chí Nghiên cứu Khoa học và Công nghệ quân sự, số 82, ngày 28 tháng 10 năm 2022, 159-166,DOI: 166 [J6]. Bui Thi Thuy, The Ngoc Dang and Le Trung Thanh, “On-chip Processor based on MMI Microring Resonators for Image Edge Detection in All-optical Domain”, Tạp chí Khoa học công nghệ Thông tin và Truyền thông, Học viện Công nghệ Bưu chính Viễn thông, ISSN 2525 – 2224, Số 02 (CS.01) 2022, p. 31-37. [J7]. Thi Thuy Bui, Duy Tien Le, Thi Hong Loan Nguyen, Trung Thanh Le, “On Chip Optical Neural Networks Based on MMI Microring Resonators for Image Classification”, Computer Optics, ISSN 0134- 2452(print) ISSN 2412-6179 (online),2023, Issue Vol. 47(4), DOI: 10.18287/2412-6179 [C1]. Thi-Thuy Bui; Trung-Thanh Le, “Glucose sensor based on 4×4 multimode interference coupler with microring resonators”, 2017 International Conference on Information and Communications (ICIC),
  28. Doi: 10.1109/INFOC.2017.8001679, 07 August 2017 (Scopus) [C2]. Thi-Thuy Bui; Trung-Thanh Le, “Two channel highly sensitive sensors based on 4×4 multimode interference coupler”, International Conference on Information and Communications (ICIC), Doi: 10.1109/INFOC.2017.8001687, 07 August 2017 (Scopus)