Phát triển phụ thuộc Boole dương xấp xỉ trong cơ sở dữ liệu quan hệ
Bạn đang xem 30 trang mẫu của tài liệu "Phát triển phụ thuộc Boole dương xấp xỉ trong cơ sở dữ liệu quan hệ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
NCS_NguyenThiVan_DanhMucCongTrinhCongBo_ NTVan.pdf
NCS_NguyenThiVan_LA_tomtat_English.pdf
NCS_NguyenThiVan_LA_tomtat_TiengViet.pdf
NCS_NguyenThiVan_LuanAn.pdf
NCS_NguyenThiVan_Mẫu 4-HV Trang thông tin đóng góp mới TV TA.docx
Trang thông tin đóng góp mới TV TA Nguyễn Thị Vân_0001.pdf
Nội dung tài liệu: Phát triển phụ thuộc Boole dương xấp xỉ trong cơ sở dữ liệu quan hệ
- 1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ . NGUYỄN THỊ VÂN PHÁT TRIỂN PHỤ THUỘC BOOLE DƯƠNG XẤP XỈ TRONG CƠ SỞ DỮ LIỆU QUAN HỆ Ngành: Hệ thống thông tin Mã số: 9 48 01 04 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2023
- 2 Công trình này được hoàn thành tại: Học viện khoa học và Công nghệ- Viện Hàn lâm Khoa học và Công nghệ Việt nam Người hướng dẫn khoa học học 1: PGS. TSKH. Nguyễn Xuân Huy Người hướng dẫn khoa học học 2: Phản biện 1: . Phản biện 2: . Phản biện 3: . Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sỹ cấp Học viện, họp tại Học viện khoa học và Công nghệ-Viện Hàn lâm Khoa học và Công nghệ Việt nam vào hồi giờ ngày tháng . năm 2023 Có thể tìm luận án tại: -Thư viện Học viện khoa học và Công nghệ -Thư viện Quốc gia Việt Nam
- 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài luận án Tình hình nghiên cứu ngoài nước: - Năm 1970, Codd [15], [16] giới thiệu mô hình cơ sở dữ liệu quan hệ và khái niệm phụ thuộc hàm (PTH) để phản ánh ngữ nghĩa của dữ liệu trong thế giới thực. - Năm 1983 [7] J. Demetrovics và O. Gyepesi đề xuất phụ thuộc đối ngẫu, phụ thuộc mạnh, phụ thuộc yếu. - Từ năm năm 1977 đến năm 2003, R. Fagin và Zaniolo và một số nhóm tác giả khác đã đề xuất phụ thuộc đa trị [18] [19] [20], phụ thuộc đa trị mở rộng tập trị không chỉ nhận hai giá trị {0, 1} mà bao gồm k giá trị thực trong đoạn [0, 1]. - Năm 1981 - 1985, các nhóm nghiên cứu của Berman, Blok và Sagiv, Delobel [21] [22] đã phát triển khái niệm phụ thuộc hàm sang khái niệm phụ thuộc Boole dương (PTBD), bao gồm những ràng buộc dữ liệu được mô tả thông qua các công thức Boole dương (CTBD), nhưng vẫn giữ nguyên phép sánh trị đẳng thức. - Năm 1995 Jyrki Kivinen và các đồng nghiệp đề xuất phụ thuộc hàm xấp xỉ (PTHXX) [24]. Các nhóm Hultala Y. và các đồng nghiệp [25], Ronald S. K. và Janes J. L. [26] đã phát triển thêm một số thuật toán cho loại phụ thuộc hàm xấp xỉ này. - Năm 2004, Ilyas và các đồng nghiệp đã nghiên cứu phụ thuộc hàm mềm, là phụ thuộc hàm mà giá trị của X xác định giá trị của Y với độ không chắc chắn cho trước. - Năm 2007 Bohannon cùng các đồng nghiệp đề xuất phụ thuộc hàm có điều kiện để làm sạch dữ liệu. - Năm 2011 nhóm nghiên cứu Song S. và Chen L. đề xuất phụ thuộc sai khác (PTSK) để giải quyết một số vấn đề như đảm bảo tính toàn vẹn, tối ưu truy vấn [34]. - Hiện nay, một số hướng phát triển mới về phụ thuộc dữ liệu đang được các nhóm tập trung nghiên cứu như phụ thuộc so sánh (Song S., Chen L., and Yu P.S - 2013) [32]; phân tích các ràng buộc theo cấu trúc mẫu (Baixeries J., Kaytoue M., and Napoli A. - 2015) [35], [36] mở rộng phụ thuộc hàm xấp xỉ. - Năm 2016 các tác giả Loredana Caruccio, Vincenzo Deufemia, Giuseppe Polese đã tổng kết 35 loại phụ thuộc mở rộng của các nhóm nghiên cứu trên thế giới được gọi là nhóm các phụ thuộc hàm nới lỏng Tình hình nghiên cứu trong nước: - Tại Việt Nam, một số nhóm nghiên cứu trong nước đã mở rộng các loại phụ thuộc nhằm tạo các mối ràng buộc chặt chẽ hơn trong cơ sở dữ liệu: như các tác giả Đàm Gia Mạnh [8]; Vũ Ngọc Loãn [3], Bùi Đức Minh [13], Nguyễn Hoàng Sơn [10], Lương Nguyễn Hoàng Hoa [12] [39] Lê Xuân Vinh [11]; Trương Thị Thu Hà [14] đã khảo sát các lớp Boole dương tổng quát, phụ thuộc yếu, phụ thuộc sai khác, phụ thuộc đối ngẫu, dưới nhiều góc độ khác nhau. - Nguyễn Xuân Huy và Lê Thị Thanh [23] mở rộng phụ thuộc Boole dương thành phụ thuộc Boole dương tổng quát (PTBDTQ), phụ thuộc Boole dương đa trị, phụ thuộc Boole dương theo nhóm bộ. Trên cơ sở khảo sát và phân tích NCS thu được một số đặc trưng cơ bản sau đây: (1) Các phụ thuộc dữ liệu có thể được mô tả thông qua các mệnh đề logic phản ánh tương quan giữa các thuộc tính trong cơ sở dữ liệu. (2) Tất cả phụ thuộc dữ liệu trong cơ sở dữ liệu đều dựa trên cơ sở nhận thức của thế giới thực, đó là cố gắng biểu diễn ngữ nghĩa của dữ liệu trong thế giới thực.
- 2 (3) Phần lớn các kết quả tập trung vào các khái niệm cơ bản, những tính chất đặc trưng, ứng dụng và cũng như các thuật toán cơ sở quan trọng của lý thuyết cơ sở dữ liệu. Một số nghiên cứu hiện đại, sâu hơn xuất hiện trong thời gian gần đây của lý thuyết cơ sở dữ liệu theo hướng tổ hợp như tập đóng, khóa, phản khóa, chuyển dịch lược đồ quan hệ, họ các tập tối tiểu của thuộc tính, mở rộng phụ thuộc hàm hay tìm các mô tả tương đương của phụ thuộc hàm cũng được giới thiệu. Luận án tiếp tục nghiên cứu và mở rộng phụ thuộc Boole dương tổng quát để thu được một dạng phụ thuộc mới là phụ thuộc Boole dương xấp xỉ, phụ thuộc boole dương xấp xỉ tổng quát và phụ thuộc yếu xấp xỉ với mục đích tạo một mô hình tổng quát cho các lớp phụ thuộc nói trên bằng cách chỉ ra mối tương quan giữa các loại phụ thuộc, đề xuất một lớp phụ thuộc thống nhất bao hàm các lớp phụ thuộc dữ liệu hiện đang được quan tâm trong nghiên cứu và triển khai. 2. Mục tiêu nghiên cứu (1) Đề xuất một số loại phụ thuộc mới, bao gồm: phụ thuộc Boole dương xấp xỉ, tiếp tục mở rộng biến thể của phụ thuộc hàm là phụ thuộc Boole dương xấp xỉ thành phụ thuộc Boole dương xấp xỉ tổng quát, phụ thuộc yếu thành phụ yếu xấp xỉ tổng quát. (2) Xây dựng các lớp phụ thuộc trong cơ sở dữ liệu dựa vào hai đặc trưng cơ bản là công thức suy dẫn và phép sánh trị. Đặc tả các biến thể khác nhau của phụ thuộc Boole dương tổng quát. Tìm ra một đặc tả cho phụ thuộc nới lỏng tổng quát và chỉ ra rằng phụ thuộc nới lỏng nói chung và phụ thuộc hàm nới lỏng nói riêng chỉ là những trường hợp riêng của phụ thuộc Boole dương tổng quát. (3) Luận án đề xuất một lớp phụ thuộc mới là phụ thuộc logic rộng hơn các phụ thuộc đã biết. Với lớp phụ thuộc logic này, luận án đã thu được các kết quả sau đây: Đề xuất qui trình giải bài toán suy dẫn theo ba tiếp cận hình thức là chứng minh trực tiếp theo thuật giải Vương Hạo, chứng minh trực tiếp theo chuẩn hội và chứng minh phản chứng theo hợp giải và các kết quả mới về việc vận dụng các phương pháp chứng minh tautology. Xây dựng và đánh giá thuật toán tìm bao đóng của một tập thuộc tính cho lớp các phụ thuộc logic. Xây dựng và đánh giá thuật toán tìm khóa cho lớp các phụ thuộc logic. 3. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu của luận án là các khái niệm và tính chất của các phụ thuộc logic: Phụ thuộc Boole dương, phụ thuộc Boole dương tổng quát, phụ thuộc yếu, phụ thuộc Boole dương xấp xỉ, phụ thuộc Boole dương xấp xỉ tổng quát Mối quan hệ giữa các phụ thuộc logic. Các bài toán kinh điển trong lý thuyết các phụ thuộc. - Phạm vi nghiên cứu của luận án là các biến thể của phụ thuộc hàm, phụ thuộc Boole dương tổng quát, mối quan hệ giữa các phụ thuộc logic và phương pháp giải một số bài toán kinh điển trong phụ thuộc logic. 4. Phương pháp nghiên cứu Phương pháp nghiên cứu chủ yếu của luận án là: (1) Nghiên cứu lý thuyết: Phương pháp suy luận, diễn giải, hình thức hóa từ các kết quả nghiên cứu để trình bày các khái niệm về các phụ thuộc logic cơ bản đã được nghiên cứu theo tuần tự: nêu định nghĩa, các đặc trưng, các bài toán, đã được chứng minh và sử dụng; phân tích, tổng hợp, chứng minh để đưa ra kết quả dự kiến. (2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được so sánh, đánh giá với các thuật toán khác nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết.
- 3 5. Nội dung nghiên cứu (1) Nghiên cứu các biến thế của phụ thuộc Boole nhằm thu được các lớp phụ thuộc tổng quát hơn và mở rộng các ứng dụng trong quản lý và khai thác các cơ sở dữ liệu. (2) Nghiên cứu các phép sánh trị giữa các bộ trong cơ sở dữ liệu. Đề xuất hàm Lambda định lượng cho các thuộc tính và vận dụng khái niệm độ đo trong việc so sánh các bộ của quan hệ, thu được các dạng phụ thuộc mới là phụ thuộc Boole dương xấp xỉ, Boole dương xấp xỉ tổng quát, phụ thuộc yếu xấp xỉ. (3) Đề xuất khái niệm về phụ thuộc Boole dương xấp xỉ, phụ thuộc Boole dương xấp xỉ tổng quát trong mô hình dữ liệu quan hệ, phát biểu và chứng minh các định lý, các tính chất của Phụ thuộc Bool dương xấp xỉ và phụ thuộc Boole dương xấp xỉ tổng quát, khẳng mối quan hệ giữa phụ thuộc Bool dương xấp xỉ và phụ thuộc Bool dương tổng quát, giữa phụ thuộc Boole dương xấp xỉ tổng quát va phụ thuộc Boole dương tổng quát. (4) Đề xuất khái niệm về phụ thuộc yếu xấp xỉ, phát biểu và chứng minh các định lý, các tính chất của Phụ thuộc yếu xấp xỉ chỉ ra mối quan hệ giữa phụ thuộc yếu xấp xỉ và phụ thuộc Bool dương tổng quát. (5) So sánh, đánh giá các thuật toán đề xuất với các thuật toán khác đã được công bố. 6. Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học Về mặt khoa học luận án đã phát triển, mở rộng một số phụ thuộc dữ liệu và xây dựng lớp các phụ thuộc logic với các tính chất và đặc trưng chung của các lớp phụ thuộc. Ý nghĩa thực tiễn Kết quả của luận án được dùng làm cơ sở để xây dựng mô hình tổng quát về các lớp phụ thuộc khác nhau trong khai thác dữ liệu và tri thức bằng các công cụ AI và học sâu theo một khung nhìn tổng quan về mối quan hệ giữa các phụ thuộc logic trong cơ sở dữ liệu. Từ đó, có thể lựa chọn lý thuyết của các phụ thuộc phù hợp hơn cho việc thiết kế cơ sở dữ liệu cụ thể đáp ứng được các nhu cầu thường xuyên biến động của thực tiễn, có khả năng hỗ trợ cho các ứng dụng đa phương tiện, đáp ứng được nhu cầu về thu thập, tổ chức, quản lý cơ sở dữ liệu. 7. Bố cục của luận án Chương 1. Trình bày các kiến thức nền tảng liên quan đến luận án, cụ thể: Trình bày tổng quan về phụ thuộc hàm, các khái niệm về quan hệ, thuộc tính, bộ, định lý tương đương và tập trung trình bày nội dung về phụ thuộc hàm nới lỏng, phụ thuộc hàm xấp xỉ, phụ thuộc boole dương tổng quát. Chương 2. Trình bày kết quả nghiên cứu của bản thân NCS về phụ thuộc Boole dương xấp xỉ, phụ thuộc Boole dương xấp xỉ tổng quát, phụ thuộc yếu xấp xỉ. Chương 3. Trình bày bài toán suy dẫn, thuật toán bao đóng, thuật toán tìm khoá trong lược đồ quan hệ, phương pháp để chuyển một công thức logic bất kỳ về dạng chuẩn hội, các thuật toán chứng minh hằng đúng và một số kết quả liên quan của NCS. Kết luận. Tổng kết các kết quả đã đạt được, những điểm còn tồn tại và hướng nghiên cứu tiếp theo.
- 4 CHƯƠNG 1. CÁC LỚP PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU 1.1. Mở đầu Các kết quả của chương này bao gồm: (1) Trình bày các vấn đề quan trọng và tinh túy nhất liên quan đến khái niệm về phụ thuộc hàm, phụ thuộc Boole dương tổng quát, phụ thuộc hàm xấp xỉ, phụ thuộc hàm nới lỏng. (2) Xây dựng các lớp phụ thuộc trong cơ sở dữ liệu dựa vào hai đặc trưng cơ bản là công thức suy dẫn và phép sánh trị. (3) Khảo sát và đặc tả các biến thể khác nhau của phụ thuộc Boole dương tổng quát. Tìm ra một đặc tả cho phụ thuộc nới lỏng tổng quát và chỉ ra rằng phụ thuộc nới lỏng nói chung và phụ thuộc hàm nới lỏng nói riêng chỉ là những trường hợp riêng của phụ thuộc Boole dương tổng quát. 1.2. Một số khái niệm và quy ước Khái niệm thuộc tính, miền trị, bộ và quan hệ : Cho U = {a1, a2, , an}, n 1, U gọi là tập các thuộc tính. Mỗi phần tử a U là tập miền trị Vx. Kí hiệu 𝔇 là hợp các miền trị Vx của các thuộc tính trong U , 𝔇 = ⋃ ∈푈 . Quan hệ r với tập thuộc tính U, ký hiệu R(U), là tập các ánh xạ t: U 𝔇 sao cho mỗi thuộc tính a U ta có t.a dx, trong đó t.a là ảnh của thuộc tính a qua ánh xạ t. Mỗi ánh xạ t được gọi là một bộ trong quan hệ r [1] [40] [41] [42]. - Phép gán trị e cho biến x: x ≔ e - Kí hiệu x ≔ (e) ? a : b, - Miền trị của thuộc tính a được viết là da. Các bộ trong quan hệ r được ký hiệu là t, u, v, hoặc kèm chỉ số ti, uj, vk. Trị của thuộc tính a trong bộ t là t.a, trị của tập con các thuộc tính X trong bộ t là t.X = {t.a | a X}. Hợp của hai tập được viết XY; giao là: được viết XY; phép trừ là X-Y. Hội hai công thức logic kí hiệu là XY hoặc XY hoặc XY; phép tuyển: XY hoặc X+Y, dấu ’ thay cho phép phủ định . Phân hoạch của tập M (thành các tập con rời nhau) X1, X2, , Xk được ký hiệu M = X1 | X2 | | Xk với ý nghĩa M = X1 X2 Xk và Xi Xj = , 1 i, j k, i j. 1.2. Phụ thuộc hàm Cho tập thuộc tính U. Một phụ thuộc hàm (PTH) trên U là biểu thức dạng f: X Y ; X, Y U Cho quan hệ r(U) và một PTH f: X Y trên U. Ta nói quan hệ r thoả PTH f và viết r(f), nếu hai bộ tuỳ ý trong r giống nhau trên X thì chúng cũng giống nhau trên Y, R(X Y) (u,v R): (u.X = v.X) (u.Y = v.Y) Ký hiệu X ↛ Y nghĩa là tập thuộc tính Y không phụ thuộc hàm vào tập thuộc tính X. Cho tập PTH F trên tập thuộc tính U. Ta nói quan hệ r(U) thoả tập PTH F, R(F) ( f F): R(f) Bao đóng của tập thuộc tính Cho tập PTH F trên tập thuộc tính U và một tập con các thuộc tính X trong U. Bao đóng của tập thuộc tính X, ký hiệu X+, là tập thuộc tính X+ = {A U | X A F+. Một số tính chất của bao đóng Cho LĐQH a = (U,F). Khi đó X, Y U ta có: (1) Tính phản xạ: X X +
- 5 (2) Tính đồng biến: X Y X + Y + (3) Tính lũy đẳng: (X +)+ = X + Lược đồ quan hệ Lược đồ quan hệ (LĐQH) là một cặp (U, F), U là tập hữu hạn các thuộc tính, F là tập các ràng buộc. Khóa của lược đồ quan hệ Cho LĐQH a = (U, F). Tập thuộc tính K U được gọi là khoá của LĐQH a nếu (i) K + = U (ii) A K: (K -{A})+ U Nếu K thoả điều kiện (i) (hoặc (i')) thì K được gọi là một siêu khoá. Cho LĐQH a = (U, F). Ta ký hiệu UK là tập các thuộc tính khóa của a và U0 là tập các thuộc tính không khóa của a. Dễ thấy UK |Uo là một phân hoạch của U. Định lý 1.1: Định lý tương đương cho phụ thuộc hàm [17][20] Cho tập PTH F và một PTH f trên tập thuộc tính U, ba loại suy dẫn sau là tương đương: Suy dẫn logic: F╞ f Suy dẫn theo quan hệ: F├ f Suy dẫn theo quan hệ có không quá hai bộ: F├2 f Cho LĐQH (U, F), F là tập phụ thuộc hàm trên tập thuộc tính U. Bao đóng của tập phụ thuộc hàm, ký hiệu F+, là tập tất cả các phụ thuộc hàm trên U được suy dẫn logic từ F. F+ = {f | F╞ f } 1.3. Phụ thuộc hàm nới lỏng Phụ thuộc hàm nới lỏng được xây dựng dưới dạng thức chung: f: X(λ) → Y(γ); X, Y U với các điều kiện nới lỏng λ và γ như sau: Quan hệ r(U) thỏa PTHNL f: X(λ) → Y(γ); X, Y U nếu Tr Tf. Nới lỏng các phép sánh trị trên một vài thuộc tính: Quan hệ r thỏa phụ thuộc hàm nới lỏng theo phép sánh trị ( (ρ) → 푌) khi và chỉ khi hai bộ bất kỳ trong r sai khác nhau không quá ngưỡng ρ trên X thì hai bộ đó cũng sai khác nhau không quá ngưỡng ρ trên Y. Định nghĩa chung về phụ thuộc hàm nới lỏng tổng quát: Cho U là tập thuộc tính, X và Y là hai tập thuộc tính trong U. PTH nới lỏng có dạng: : (훾) → 푌(휗), , 푌 U Ta nói phụ thuộc hàm nới lỏng f thỏa trong quan hệ r(U) nếu: : (훾) → 푌(휗), , 푌 U Với mọi cặp bộ u, v r, nếu tân từ 훾( . , 푣. ) suy ra được tân từ 휗( . , 푣. 푌). Phụ thuộc hàm nới lỏng là phụ thuộc hàm với điều kiện kèm theo nhằm giảm nhẹ các điều kiện của phụ thuộc hàm chính thống. Các điều kiện giảm nhẹ được phát biểu thông qua các tân từ γ và ϑ. 1.4. Phụ thuộc Boole dương 1.4.1. Công thức Boole Định nghĩa 1.1 Cho U = {x1, ,xn} là tập hữu hạn các biến Boole, B là tập trị Boole, B = {0,1}. Khi đó các công thức Boole CTB) hay còn gọi là các công thức logic được xây dựng như sau: (i) Mỗi trị 0/1 trong B là một CTB, (ii) Mỗi biến nhận giá trị trong U là một CTB, (iii) Nếu a là một CTB thì a) là một CTB,
- 6 (iv) Nếu a và b là các CTB thì ab, ab, a và a b là một CTB, (v) Chỉ có các công thức được tạo bởi các quy tắc i) - iv) là các CTB. Ký hiệu L U) là tập các CTB xây dựng trên tập các biến U. Định nghĩa 1.2 n Mỗi vector các phần tử 0/1, v = v1, ,vn) trong không gian B = B B B được gọi là một phép gán trị. Khi đó với mỗi CTB f L U) ta có f v) = f v1, ,vn) là trị của công thức f đối với phép gán trị v, và f v) được tính như sau: 1. Thay toàn bộ biến xi trong f bằng trị vi tương ứng, i=1,2, ,n để thu được một mệnh đề logic b. 2. Trị của f v) chính là trị của b. Với mỗi tập con X U, ta quy ước viết hội logic ) của các biến trong X là dãy ký hiệu của X. X đồng thời biểu diễn cho các đối tượng sau đây: một tập thuộc tính trong U, một tập biến logic trong U, một công thức Boole được lập bởi hội logic các biến trong X. Ta gọi công thức f: Z V là công thức suy dẫn nếu Z và V có dạng hội, tức là f: Z V công thức suy dẫn mạnh nếu Z có dạng tuyển và V có dạng hội, tức là: f: Z V công thức suy dẫn yếu nếu Z có dạng hội và V có dạng tuyển, tức là: f: Z V công thức suy dẫn đối ngẫu nếu Z và V đều có dạng tuyển, tức là f: Z V Hai phép gán trị đặc biệt là phép gán trị đơn vị, e = 1,1, ,1) và phép gán trị không, z = 0,0, ,0). Với mỗi tập hữu hạn các CTB, F = {f1, f2, ,fm} trong L U), F là một công thức dạng F = f1f2 fm. Khi đó với mỗi phép gán trị v, giá trị chân lý của công thức F được tính là: F v) = f1 v) f2 v) fm v) 1.4.2. Bảng trị và bảng chân lý Khái niệm bảng trị và bảng chân lý được định nghĩa như sau: - Với mỗi công thức f trên U, bảng trị của f. Bảng chân lý của f, ký hiệu là Tf, là tập n các phép gán trị v sao cho f v) nhận giá trị 1, Tf = {v B | f v) =1} Bảng chân lý TF của tập hữu hạn các công thức F trên U, chính là giao của các bảng chân lý của mỗi công thức thành viên trong F T F T f f F Ta có, v TF khi và chỉ khi f F: f v) = 1. 1.5. Phụ thuộc Boole dương tổng quát - U = {x1, , xn} là tập hữu hạn các biến Boole nhận giá trị trong tập trị logic 𝔅 = {0, 1}. - Quy ước mỗi miền trị Vx của thuộc tính x trong U có chứa ít nhất hai phần tử. Với mỗi 2 miền trị Vx, xét ánh xạ x: Vx 𝔅 thoả các tiên đề sau: a, b Vx A1) Tiên đề phản xạ x(a, a) = 1 A2) Tiên đề đối xứng x(a, b) = x(b, a) A3) Tiên đề bộ phận c dx: x(a, c) = 0. x chính là quan hệ bộ phận, thoả các tính chất phản xạ và đối xứng trên miền trị Vx.
- 7 Quan hệ bằng =x được định nghĩa: a, b Vx: =x(a, b) = 1, khi và chỉ khi a = b, là trường hợp riêng của phép sánh trị và được ngầm định trong trường hợp không định nghĩa tường minh phép sánh trị cho thuộc tính x. - Quan hệ r trên tập thuộc tính U thỏa PTBDTQf (tập PTBDTQ F) và viết r(f) (r(F)) nếu Tr Tf (TrTF). - Mỗi công thức Boole dương f trong P(U) với các phép sánh trị cho trước được gọi là một phụ thuộc Boole dương tổng quát (PTBDTQ), lược đồ thu được trong trường hợp này được gọi là lược đồ với phụ thuộc boole dương tổng quát. 1.6. Phân loại các lớp phụ thuộc Boole dương tổng quát Khảo sát và đặc tả các biến thể khác nhau của phụ thuộc Boole dương tổng quát. Tìm ra một đặc tả cho phụ thuộc nới lỏng tổng quát và chỉ ra rằng phụ thuộc nới lỏng nói chung và phụ thuộc hàm nới lỏng nói riêng chỉ là những trường hợp riêng của phụ thuộc Boole dương tổng quát. 1.6.1. Lớp IE (Implication Fomula & Equal Comparison) Lớp IE là lớp các lược đồ phụ thuộc hàm kinh điển, được xây dựng trên cơ sở phép toán suy dẫn và phép sánh trị đẳng thức. Cho tập các thuộc tính U = {x1, x2, , xn}, n 1. Giả sử X, Y U. Một phụ thuộc thuộc lớp IE là biểu thức dạng f: X Y. Dựa trên biểu thức logic X và Y ta phân biệt các dạng phụ thuộc hàm sau: IE-1: Biểu thức logic có dạng X Y, ta có lược đồ phụ thuộc hàm truyền thống. IE-2: Biểu thức logic có dạng X Y cho ta lược đồ phụ thuộc hàm mạnh. IE-3: Biểu thức logic có dạng X Y, ta có lược đồ phụ thuộc hàm yếu. IE-4: Biểu thức logic có dạng X Y , ta có lược đồ phụ thuộc hàm đối ngẫu. Bảng dưới đây tóm lược các đặc tả cho các lớp con IE1-4 của lớp IE Dạng phụ thuộc Tên gọi Đặc điểm X Y phụ thuộc hàm ràng buộc chặt X Y phụ thuộc hàm mạnh nới lỏng vế trái X Y phụ thuộc hàm yếu nới lỏng vế phải phụ thuộc hàm đối X Y nới lỏng ngẫu X(δ) Y phụ thuộc xấp xỉ nới lỏng Bảng 2. 2. Bảng đặc tả các lớp con IE1-4 Như vậy, các dạng phụ thuộc hàm IE-1, IE-2, IE-3, IE-4 là các phụ thuộc hàm nới lỏng và chúng là những trường hợp riêng của phụ thuộc Boole dương tổng quát. 1.6.2. Lớp LA (Logic Fomula & Alpha Comparison) Dựa theo điều kiện nới lỏng, ta chia lớp LA thành các lớp con sau đây: LA-1: Lớp LA-1 là lớp các phụ thuộc được xây dựng trên cơ sở phép toán suy dẫn và phép sánh trị alpha. Cho tập các thuộc tính U = {x1, x2, , xn}, n 1. Giả sử X, Y U. Một phụ thuộc thuộc lớp LA-1 là biểu thức dạng f: X Y với các phép sách trị . Quan hệ r thỏa LA-1: X → Y và viết r(X( ) → Y( )), nếu với hai bộ bất kỳ u, v r, thỏa các ràng buộc X trên tập X, thì u và v cũng thỏa các ràng buộc được đặc tả bởi hàm sai khác Y trên tập Y: 푒 r(X( ) → Y( )) ⇔ u,v r: (u.X, v.X)
- 8 (u.Y, v.Y) Trong lớp LA-1, ta có các phụ thuộc đại diện sau: - f: X Y, ta có phụ thuộc sai khác [6], với X và Y là các hàm sai khác được định nghĩa: Cho quan hệ r trên tập thuộc tính U, a U và độ sai khác ma. Hàm sai khác a trên thuộc tính a đặc tả ràng buộc của độ sai khác ma: Với hai trị x, y da, ta định nghĩa a(x, y) = 1 khi và chỉ khi ma(x, y) thỏa điều kiện cho a dưới dạng các biểu thức so sánh với các phép so sánh =, , , và . Cho tập thuộc tính X U. Hàm sai khác X trên tập thuộc tính X là hội logic của các hàm sai khác trên mọi thuộc tính a X: X = ⋀ ∈ Phụ thuộc hàm sai khác là trường hợp riêng của phụ thuộc hàm nới lỏng, trong phần này chỉ ra rằng, phụ thuộc sai khác thuộc lớp LA-1. Nếu biểu thức logic có dạng f: X (δ) Y, 0 δ 1 ta có phụ thuộc nới lỏng theo lực lượng. Lớp LA-2: Lớp LA-2 là lớp các phụ thuộc được xây dựng trên cơ sở phép toán logic Boole và phép sánh trị đẳng thức. Đại diện cho lớp LA-2 là phụ thuộc Boole dương. Lớp LA-3: Lớp LA-3 là lớp các phụ thuộc được xây dựng trên cơ sở phép toán logic Boole và phép sánh trị alpha. Đại diện cho lớp LA-3 là phụ thuộc Boole dương tổng quát, đây cũng là lớp phụ thuộc bao hàm các phụ thuộc logic trong cơ sở dữ liệu đã và đang được nghiên cứu bởi các nhóm tác giả trong và ngoài nước. 1.7. Kết luận chương 1 Trong chương 1 luận án đã trình bày các khái niệm cơ sở về phụ thuộc dữ liệu trong cơ sở dữ liệu quan hệ và phân tích để thấy rằng việc so sánh các bộ theo đẳng thức là chưa đủ để cơ sở dữ liệu phản ánh tính đa dạng của ngữ nghĩa của dữ liệu trong thực tiễn. Chương 1 cũng trình bày các nghiên cứu liên quan đến các định hướng nghiên cứu của luận án: nghiên cứu phát triển, mở rộng lớp phụ thuộc Boole dương xấp xỉ. Có thể tóm lược các điểm nhấn quan trọng của Chương 1 như sau: (1) Với phép so sánh đẳng thức ta có thể phát triển các loại phụ thuộc dữ liệu dạng hàm và một số biến thể của dạng này như phụ thuộc hàm nới lỏng, phụ thuộc hàm xấp xỉ. (2) Định lý tương đương cho phụ thuộc hàm kinh điển cho phép giải bài toán thành viên trên cơ sở của phép suy dẫn logic X Y. (3) Kỹ thuật xây dựng bảng trị của quan hệ theo phép so sánh đẳng thức. Kỹ thuật kiểm tra tính thỏa của quan hệ đối với phụ thuộc hàm theo phép so sánh đẳng thức. (4) Khảo sát và đặc tả các biến thể khác nhau của phụ thuộc Boole dương tổng quát. Tìm ra một đặc tả cho phụ thuộc nới lỏng tổng quát và chỉ ra rằng phụ thuộc nới lỏng nói chung và phụ thuộc hàm nới lỏng nói riêng chỉ là những trường hợp riêng của phụ thuộc Boole dương tổng quát.
- 9 CHƯƠNG 2. CÁC LỚP PHỤ THUỘC XẤP XỈ TRONG CƠ SỞ DỮ LIỆU 2.1. Mở đầu Trong chương này, luận án đề xuất các dạng phụ thuộc mới là phụ thuộc Boole dương xấp xỉ, phụ thuộc boole dương xấp xỉ tổng quát và phụ thuộc yếu xấp xỉ . Nội dung chương sẽ bao gồm các kết quả cụ thể sau: (1) Đề xuất cách xây dựng một lược đồ Boole dương tổng quát từ một lược đồ xấp xỉ dạng mở rộng cho trước. (2) Đề xuất hàm Lambda trên miền trị của thuộc tính và chứng minh các định lý đảm bảo toán học cho việc vận dụng hàm Lambda nhằm phát triển khái niệm phụ thuộc Boole dương xấp xỉ và phụ thuộc Boole dương xấp xỉ tổng quát. (3) Đề xuất các tính chất và định lý để xây dựng cách tiếp cận mới cho phụ thuộc Boole dương xấp xỉ và phụ thuộc Boole dương xấp xỉ tổng quát theo giá trị chứ không theo số bộ. Cụ thể là chứng minh định lý về điều kiện cần và đủ để một quan hệ thỏa tập phụ thuộc Boole dương xấp xỉ. (4) Đề xuất khái niệm tổng quát về phụ thuộc xấp xỉ trên tập các thuộc tính số và phi số, không nhất thiết theo dạng hàm mà theo một biểu thức Boole dương tùy ý với các phép sánh trị tổng quát hơn phép so sành đẳng thức. Các kết quả trong chương này được công bố trong các CT1-CT6, phần “Danh mục các công trình đã công bố” của NCS. 2.2. Xây dựng hàm lambda và độ đo 2.2.1. Hàm lambda Định nghĩa 2.1 Cho U là tập thuộc tính. Với mỗi thuộc tính A trong U ta định nghĩa một ánh xạ A từ miền trị của thuộc tính sang không gian số thực: A: VA ℝ Tính đơn trị: a,b VA: a = b A(a) = A(b) Tính khác biệt: a, b VA: A(a) A(b) Gọi A là hàm định lượng cho thuộc tính A. Định lý 2.1 Biết A, khi đó hàm A được định nghĩa qua hệ thức (*) dưới đây 푒 a, b VA: A(a,b) ⇔ (A(a) = A(b)) (*) thỏa ba tiên đề A1, A2 và A3 trong định nghĩa ánh xạ . 2.2.2. Độ đo Độ đo d trên tập V là một ánh xạ d: V×V ℝ+ với ℝ+ là tập số thực không âm, thỏa các tiên đề sau đây: a, b, c V Tiên đề không âm: d(a,b) ≥ 0, d(a,a) = 0 Tiên đề đối xứng: d(a,b) = d(b,a) Tiên đề tam giác: d(a,b) + d(b,c) ≥ d(a,c). Định lý 2.2 Cho quan hệ r trên tập thuộc tính U và các hàm Lambda trên mỗi thuộc A trong U. Cho d là một độ đo tùy ý trong không gian vector n chiều. Khi đó hàm d* dưới đây là một độ đo: u, v r: d*(u, v) = d((u), (v))
- 10 Ta gọi d* là độ đo cảm sinh từ độ đo d. 2.3. Đề xuất phụ thuộc hàm xấp xỉ tổng quát Trong phần này sẽ mở rông khái niệm phụ thuộc hàm xấp xỉ trên các tập thuộc tính số, sau đó sẽ mở rộng khái niệm phụ thuộc hàm xấp xỉ trên các tập thuộc tính tùy ý số hoặc phi số. Khái niệm phụ thuộc hàm xấp xỉ tổng quát được định nghĩa như sau: Cho hai tập con thuộc tính X và Y trong tập thuộc tính U và hai ngưỡng 1, 2 là hai số thực không âm. Phụ thuộc hàm xấp xỉ của tập thuộc tính Y theo tập thuộc tính X là biểu thức dạng X 1 2 Y Ta nói tập thuộc tính Y phụ thuộc xấp xỉ vào tập thuộc tính X và quan hệ r(U) thỏa phụ thuộc hàm xấp xỉ X 1 2 Y nếu với mọi cặp bộ u và v trong quan hệ r, hai bộ u và v có độ đo lệch nhau không quá 1 trên tập thuộc tính X thì hai bộ này cũng lệch nhau không quá 2 trên tập thuộc tính Y. trong đó d là hàm độ đo trên các bộ của quan hệ. u, v r(U): d(u.X, v.X) 1 d(u.Y- v.Y) 2 2.4. Xây dựng lược đồ quan hệ xấp xỉ thông qua độ đo Lược đồ quan hệ xấp xỉ là một cặp p = (U, F, d) , trong đó U là tập thuộc tính, F là tập các PTHXX theo độ đo d. Với mỗi độ đo d trên D ta liên kết một giá trị 0 và gọi là ngưỡng của d trên D. Nếu trong D tồn tại hai giá trị a và b thỏa tính chất d(a,b) > thì được gọi là ngưỡng không tầm thường; ngược lại, nếu với mọi cặp tri a, b D, ta đều có d(a,b) thì được gọi là ngưỡng tầm thường. 2.5. Phụ thuộc yếu Cho tập thuộc tính U. Một công thức suy dẫn yếu được gọi là một phụ thuộc yếu. Như vậy mỗi phụ thuộc yếu có dạng f: X Y trong đó X là một hội, Y là một tuyển của các thuộc tính trong U. Ta nói quan hệ r(U) thỏa phụ thuộc yếu f: X Y và viết r(X Y) nếu với mọi cặp bộ u và v trong quan hệ r, hai bộ u và v bằng nhau trên X sẽ bằng nhau trên một thuộc tính nào đó của Y. r(X Y) (u,v R): (u.X = v.X) B Y: (u.B = v.B) Cho tập phụ thuộc yếu F trên tập thuộc tính U. Ta nói quan hệ r(U) thoả tập phụ thuộc yếu F, và viết r(F), nếu r thoả mọi phụ thuộc yếu trong F, r(F) ( f F): r(f) Nếu quan hệ r thỏa phụ thuộc yếu f ta cũng nói phụ thuộc yếu f đúng trong quan hệ r. Vì phụ thuộc yếu là trường hợp riêng của phụ thuộc Boole dương nên ta cũng có: Quan hệ r thỏa phụ thuộc yếu f khi và chỉ khi Tr Tf. Quan hệ r thỏa tập phụ thuộc yếu F khi và chỉ khi Tr TF. 2.6. Đề xuất phụ thuộc yếu xấp xỉ Cho tập thuộc tính U và một công thức suy dẫn yếu trên U, f: X Y. Cho hai ngưỡng 1, 2 là hai số thực không âm. Phụ thuộc yếu xấp xỉ (PTYXX) của tập thuộc tính Y theo tập thuộc tính X là biểu thức dạng X 1 2 Y
- 11 Ta nói quan hệ r(U) thỏaphụ thuộc yếu xấp xỉ X 1 2 Y nếu với mọi cặp bộ u và v trong quan hệ r, hai bộ u và v có độ đo lệch nhau không quá 1 trên tập thuộc tính X thì hai bộ này cũng lệch nhau không quá 2 trên một thuộc tính nào đó của Y: u,v r: d(u.X,v.X) 1 B Y: d(u.B, v.B) 2 , trong đó, d là một độ đo. Ta gọi bộ sáu p = (U, 휀1, 휀2, , d, F) là một lược đồ quan hệ với phụ thuộc yếu xấp xỉ, trong đó U là tập n thuộc tính, mỗi thuộc tính được trang bị một hàm định lượng Lambda tương ứng, d là một độ đo tùy ý, F là tập các công thức suy dẫn yếu X Y, X là một hội, Y là một tuyển khác rỗng các thuộc tính trong U, 휀1 ≥ 0, 휀2 ≥ 0 là các ngưỡng xấp xỉ. Cho quan hệ r trên lược đồ quan hệ với phụ thuộc yếu xấp xỉ, p =(U, 휀1, 휀2, , d, F). Với mỗi cặp bộ = ( 1, 2, , 푛), 푣 = (푣1, 푣2, , 푣푛) trong quan hệ r, ta định nghĩa 푡( , 푣) = (푡1, 푡2, , 푡푛) 푡푖 = ( (( 푖), (푣푖)) ≤ 휀)? 1: 0 ; 1 i n 휀 = 푖푛 (휀1, 휀2) Tr = {t(u,v) | u, v r} và gọi Tr là bảng trị của quan hệ r theo lược đồ p. Định lý 2.3 Cho lươc đồ quan hệ với tập PTYXX F, p =(U, 휀1, 휀2, , d, F) và một PTYXX f. Cho quan hệ r trên U. Khi đó, (i) Quan hệ r thỏa PTYXX f khi và chỉ khi Tr Tf. (ii) Quan hệ r thỏa tập PTYXX F khi và chỉ khi Tr TF. Chứng minh 2.7. Đề xuất phụ thuộc Boole dương xấp xỉ - Việc tiếp tục mở rộng khái niệm phụ thuộc Boole dương sang phụ thuộc Boole dương xấp xỉ có thể giúp ta quản lí các cơ sở dữ liệu phức tạp hơn. Đặc biệt là cho phép mở rộng khả năng tìm kiếm dữ liệu. Các hướng nghiên cứu cơ sở dữ liệu mờ và thô cũng cho phép ta tìm kiếm với các truy vấn thuộc loại trên. Tuy nhiên, sự phụ thuộc giữa các thuộc tính dưới dạng logic tổng quát kèm theo độ đo phản ánh tính xấp xỉ thì còn là vấn đề mở, đáng được quan tâm nghiên cứu. Khái niệm về phụ thuộc Boole dương xấp xỉ được định nghĩa như sau: Cho tập U gồm n thuộc tính, một công thức Boole f dương trên U, và các hàm i trên mỗi thuộc tính i trong U. Cho các ngưỡng i là các số thực không âm trên mỗi thuộc tính i trong U. Ta gọi f là một phụ thuộc Boole dương xấp xỉ theo ngưỡng 휀 = (휀1, 휀2, , 휀푛). Ta nói phụ thuộc Boole dương f thỏa quan hệ r(U) theo ngưỡng nếu với mọi cặp bộ u, v r: f(t(u,v)) = 1, trong đó t(u,v) được xác định như sau: 푡( , 푣) = (푡1, 푡2, , 푡푛) 푡푖 = (|푖( 푖) − 푖(푣푖)| 휀푖)? 1 ∶ 0 Các điều kiện trên có ý nghĩa như sau: Quan hệ r thỏa phụ thuộc Boole dương xấp xỉ nếu với mỗi cặp bộ có độ đo theo từng thuộc tính đạt dưới ngưỡng quy định thỏa công thức f.
- 12 Định nghĩa 2.6 Ta gọi bộ bốn p = (U, , , F) là một lược đồ quan hệ với phụ thuộc Boole dương xấp xỉ, trong đó U là tập n thuộc tính, F là tập các công thức Boole dương trên U, = (1, 2, , 푛) là các hàm định lượng cho các thuộc tính trong U, 휀 = (휀1, 휀2, , 휀푛) là các ngưỡng xấp xỉ cho các thuộc tính trong U, 1 i n Cho quan hệ r trên lược đồ quan hệ với phụ thuộc Boole dương xấp xỉ, p = (U, , , F). Ta ký hiệu, Tr = {t(u,v): u, v r} và gọi Tr là bảng chân lý của quan hệ r theo lược đồ p. Định lý 2.4 Cho lươc đồ quan hệ với phụ thuộc Boole dương xấp xỉ p = (U, , , F) và một phụ thuộc Boole dương xấp xỉ f F. Cho quan hệ r trên U. Khi đó, (i) Quan hệ r thỏa PTBD xấp xỉ f khi và chỉ khi và chỉ khi Tr Tf : r(f) Tr Tf (ii) Quan hệ r thỏa tập PTBD xấp xỉ F khi và chỉ khi và chỉ khi Tr TF : r(F) Tr TF 2.8. Đề xuất thuộc Boole dương xấp xỉ tổng quát 2.8.1. Xây dựng phép sánh trị alpha Ta có thể xây dựng hàm Alpha dựa trên hàm Lambda như sau: Giả sử với mỗi thuộc tính A trong U đã có hàm A . Ta định nghĩa a, b dA: A a,b) (A(a) = A(b)) (*) Định lý sau đây khẳng định rằng A thỏa các tính chất phản xạ, đối xứng và bộ phận. Định lý 2.5 Hàm A được định nghĩa qua hệ thức thỏa ba tính chất A1, A2 và A3 trong định nghĩa ánh xạ . Định nghĩa 2.7 Ta gọi lược đồ dữ liệu là một cặp p = (U, F), trong đó U là tập thuộc tính với các miền trị tương ứng và các phép sánh trị trên mỗi miền trị, F là tập các phụ thuộc trên U [1], [6], [16]. Cho lược đồ p = (U, F) và quan hệ r trên U. Với mỗi cặp bộ u = (u1, u2, , un), v = (v1, v2, , vn) trong r, ta đặt tương ứng một vector 0/1 t = (t1, t2, ,, tn) 𝔅n và kí hiệu là t = (u, v), trong đó thành phần t.x ứng với thuộc tính x trong U chính là ảnh của ánh xạ t.x = x(u.x, v.x). Khi đó mỗi quan hệ r sẽ được đặt tương ứng với tập các vector 0/1, Tr = { (u, v) | u, v r}, và được gọi là bảng trị của quan hệ r trên lược đồ p. Mỗi công thức Boole dương f trong P(U) với các phép sánh trị cho trước được gọi là một phụ thuộc Boole dương tổng quát (PTBDTQ), lược đồ thu được trong trường hợp này được gọi là lược đồ với phụ thuộc boole dương tổng quát. Ta nói quan hệ r trên tập thuộc tính U thỏa PTBDTQ f và ký hiệu r(f), nếu TR Tf: r(f) Tr Tf Nếu r(f) ta cũng nói PTBDTQ f đúng trong quan hệ r. Quan hệ r thỏa tập PTBDTQ F và ký hiệu r(F), nếu R thỏa mọi PTBDTQ trong F,
- 13 r(F) f F: r(f) Tr TF. Cho tập PTBDTQ F và một PTBDTQ f. Ta nói F dẫn ra được f theo quan hệ, và ký hiệu F ├ f nếu r REL U): r F) r f) F dẫn ra được f theo quan hệ có không quá hai bộ, ký hiệu F ├2 f nếu r REL_2 U): r F) r f) Định lý tương đương) [17]Cho tập PTBDTQ F và một PTBDTQ f trên U. Ba mệnh đề sau là tương đương, i) F ╞ f suy dẫn logic) ii) F ├ f suy dẫn theo quan hệ) iii) F ├2 f suy dẫn theo quan hệ có không quá 2 bộ) 2.8.2. Phụ thuộc Boole dương xấp xỉ tổng quát Định nghĩa 2.8 Cho tập thuộc tính U và một công thức Boole dương f trên U. Cho hai ngưỡng 1, 2 là hai số thực không âm. Phụ thuộc Boole dương xấp xỉ tổng quát (PTBDXXTQ) là tập các phụ thuộc yếu xấp xỉ S tương đương với f theo ngưỡng 1, 2. Ta nói quan hệ r(U) thỏa PTBDXXTQ f nếu r thỏa mọi PTYXX trong S. Do f tương đương với S nên Tf = TS = {Tg | g S} nên ta có kết quả sau đây như là một hệ quả của định lý 4.1: Hệ quả 2.3 Cho lươc đồ quan hệ p =(U, 휀1, 휀2, , d, F) và một PTBDTQXX f. Cho quan hệ r trên U. Khi đó, (i) Quan hệ r thỏa PTBDXXTQ f khi và chỉ khi Tr Tf. (ii) Quan hệ r thỏa tập PTBDXXTQ F khi và chỉ khi Tr TF. 2.9. Kết luận chương 2 Trong Chương 2, luận án trình bày kết quả xây dựng hàm biến đổi lambda mới, dựa vào hàm lambda được xây dựng và kết hợp giữa phụ thuộc hàm xấp xỉ và phụ thuộc Boole dương tổng quát, luận án đề xuất các phụ thuộc dữ liệu mới bao gồm: phụ thuộc Boole dương xấp xỉ, phụ thuộc Boole dương xấp xỉ tổng quát và phụ thuộc yếu xấp xỉ và chứng minh sự tương đương giữa phụ thuộc Boole dương và chỉ ra và chứng minh mối quan hệ giữa phụ thuộc Boole dương tổng quát với phụ thuộc Boole dương xấp xỉ và phụ thuộc Boole dương tổng quát xấp xỉ. Việc phân loại và đề xuất một mô hình chung cho các loại phụ thuộc dữ liệu là một trong những vấn đề đang được giới nghiên cứu dữ liệu lớn quan tâm. Với một độ đo tùy ý, thông qua các hàm Lambda trên miền trị của các thuộc tính, ta có thể đánh giá độ xấp xỉ của các bộ trong quan hệ bao gồm các thuộc tính số và phi số như trang phục, kỹ năng biểu diễn, để vận dụng vào hoạt động đánh giá và xếp loại các đối tượng cũng như tìm kiếm xấp xỉ các đối tượng trong cơ sở dữ liệu.
- 14 CHƯƠNG 3. CÁC THUẬT TOÁN XỬ LÝ LƯỢC ĐỒ QUAN HỆ 3.1. Mở đầu Trong chương 3 NCS tập trung trình bày các nội dung sau: (1) Đề xuất qui trình giải bài toán suy dẫn theo ba tiếp cận hình thức là chứng minh trực tiếp theo thuật giải Vương Hạo, chứng minh trực tiếp theo chuẩn hội và chứng minh phản chứng theo hợp giải và các kết quả mới về việc vận dụng các phương pháp chứng minh tautology để giải bài toán thành viên trong lớp các phụ thuộc logic và thu gọn các luật suy dẫn trong cơ sở tri thức (2) Xây dựng và đánh giá thuật toán tìm bao đóng của một tập thuộc tính cho lớp các phụ thuộc logic. (3) Xây dựng và đánh giá thuật toán tìm khóa cho lớp các phụ thuộc logic. Khóa trong một quan hệ được hiểu là một tập đủ nhỏ các thuộc tính có thể xác định không quá một bộ trong cơ sở dữ liệu. Khóa được vận dụng chủ yếu trong các thuật toán truy vấn cơ sở dữ liệu. Các kết quả này là một trong những đóng góp cơ bản của NCS, được trình bày trong CT2, CT4 - Danh mục các công trình công bố của NCS. 3.2. Xây dựng phương pháp chuyển công thức logic về dạng chuẩn hội Để có thể mở rộng khái niệm phụ thuộc Boole dương xấp xỉ, các phần lập luận dưới đây liên quan đến việc chuyển một công thức logic bất kỳ về dạng chuẩn hội (CNF). Định nghĩa 3.1 Cho tập các biến Boole U = {a1, a2, , an}. Công thức logic Ψ trên U có dạng chuẩn hội nếu Ψ được biểu diễn dưới dạng tích của các tuyển : Ψ = g1g2 gm trong đó mỗi gi , 1 i m là một tuyển của các biến thành phần trong U. Ví dụ, Cho tập biến U = {a, b, c, d}. Công thức Ψ sau thuộc dạng chuẩn hội: Ψ = (a+b +c')(b + d)a'(b + c). Định lý 3.3 Mọi công thức logic đều tương đương với một công thức CNF [32]. Theo các giáo trình về toán rời rạc và các tài liệu [28] [32] có hai phương pháp chuyển một công thức logic về dạng CNF như sau : 3.2.1. Phương pháp logic Chuyển công thức logic Ψ về dạng CNF bằng cách áp dụng các luật dưới đây trong logic mệnh đề: Các luật logic Với mọi công thức X, Y, Z trên tập biến Boole U. Ta có: (R1) Luật giao hoán: X + Y Y + X; XY YX. (R2) Luật kết hợp: X+(Y+Z) (X+Y)+Z; X(YZ) (XY)Z. (R3) Luật lũy đẳng: X+X X; XX X. (R4) Luật trung hòa: X+0 X; X+1 1; X0 0; X1 X. (R5) XX’ 0; X+X’ 1. (R6) Phủ định của phủ định: X’’ X. (R7) X Y X’+Y. (R8) (X Y)’ XY’. (R9) Luật de Morgan: (XY)’ X’ + Y’; (X+Y)’ X’Y’. (R10) Luật phân phối: X + YZ (X+Y)(X+Z); (X+Y)Z XZ + YZ; (R11) Luật nuốt: X + XY X; X(X+Y) X.
- 15 Lặp lại việc áp dụng các luật khử phép kéo theo, luật de Morgan, luật phân phối trong logic [46], [47], cho đến khi thu được công thức logic có dạng CNF. 3.2.2. Phương pháp lập bảng Chuyển công thức logic Ψ trên tập thuộc tính U về dạng CNF theo phương pháp lập bảng như sau: 1. Lập bảng trị TΨ theo các biến trong U và công thức logic Ψ 2. Từ mỗi dòng t = (v1, ,vn) thỏa Ψ (t) = 0 trong bảng trị TΨ tạo ra một tuyển cơ sở gt = (z1+ + zn), với 푖 푛ế 푣푖 = 0 푖 = { ′ 1 i n 푖 푛ế 푣푖 = 1 3. Trả kết quả M = g1 gk là tích của các tuyển cơ sở. Kết quả thu được sau bước 3 chính là dạng chuẩn hội của công thức Ψ. Hai phương pháp có thể cho ra hai dạng CNF khác nhau, mặc dù các kết quả thu được là tương đương. Cả hai phương pháp đều thuộc lớp NPC và có độ phức tạp tính toán (2푛), trong đó n là số ký biến logic. Mệnh đề 3.1 Mỗi công thức Boole tương đương với một tập các công thức suy dẫn yếu W. Hệ quả 3.1 Mỗi CTB tương đương với một công thức suy dẫn yếu. Mỗi tập CTB tương đương với một công thức suy dẫn yếu. Hệ quả 3.2 Mỗi tập công thức Boole dương tương đương với một tập các công thức suy dẫn yếu. 3.3. Xây dưng phương pháp chứng minh công thức hằng đúng Định nghĩa 3.2 Cho tập ký biến Boole U. Một công thức Boole f trên được gọi là hằng đúng (tautology) nếu f(x) = 1 với mọi phép gán trị x. 3.3.1. Phương pháp chứng minh trực tiếp theo CNF Theo phương pháp này để chứng minh công thức f là hằng đúng ta thực hiện theo hai pha sau đây: Pha 1. Chuyển f về dạng CNF. ≡ 1 2 Pha 2. Kết luận: f là hằng đúng khi và chỉ khi 푖 = 1, 1 i k. 3.3.2. Phương pháp Vương Hao Phương pháp Vương Hao dùng để chứng minh tautology T P theo các bước sau [5]. Bước 1 (CNF DNF). Đưa vế trai T về dạng CNF. Đưa vế phải i về dạng DNF là công thức logic có dạng chuẩn tuyển. Để đưa công thức T P về dạng CNF DNF ta có thể vận dụng các luật R1 – R11 để biến đổi hai vế T và P thành dạng chuẩn sau: t1 t2 tu p1+ p2+ + pv Trong đó vế trái là một CNF, vế phải là một DNF. Bước 2 (Khử phủ định). Chuyển vế các biến có dấu phủ định. Nếu x' xuất hiện tại vế trái thì chuyển x’ sang vế phải thành x và ngược lại. Bước 3 (Tách). Nếu dòng hiện hành có một trong hai dạng sau: Dạng 1: 푡1 ( + ) 푡 1 + ⋯ + 푣 Thì thay bằng 2 dòng:
- 16 푡 푡 + ⋯ + { 1 1 푣 푡1 푡 1 + ⋯ + 푣 Dạng 2: 푡1 푡 1 + + + + 푣 Thì thay bằng 2 dòng: 푡 푡 + + + + { 1 1 푣 푡1 푡 1 + + + + 푣 Bước 4 (Kết luận). Một dòng được chứng minh khi và chỉ khi có một biến xuất hiện ở cả hai vế. Bài toán được chứng minh nếu mọi dòng được chứng minh. 3.3.3. Phương pháp hợp giải Trong logic, phương pháp hợp giải được sử dụng để giải bài toán suy dẫn f g. Hợp giải còn được gọi là phương pháp chứng minh bằng phản chứng. Cho Q dạng CNF. Phương pháp hợp giải thực hiện quá trình ước lược Q như sau: Thay mỗi cặp nhân tử (x + B), (x’+ C) trong Q bằng nhân tử B + C, B và C là các công thức logic. Quá trình được lặp lại cho đến khi trong Q không còn tồn tại cặp nhân tử nào có dạng trên hoặc không còn ước lược được nữa. Nếu Q = thì ta nói là hợp giải thành công, tức là Q false, ngược lại ta nói hợp giải không thành công. Khi hợp giải thành công, do Q false nên ta kết luận Q là hằng sai. Thuật toán 3.1 (Thuật toán hợp giải) Định lý 3.1 Các bài toán chứng minh tautology sau đây thuộc lớp NPC: (i) Chứng minh theo phương pháp Vương Hao. (ii) Chứng minh theo phương pháp hợp giải. (iii) Chứng minh trực tiếp theo phương pháp CNF. Phép gán trị đẳng thức và bảng chân lý của quan hệ Định nghĩa 3.3 Cho quan hệ r với tập n thuộc tính. Quy ước rằng mỗi miền trị di của thuộc tính i, 1 i n, có chứa ít nhất hai phần tử. Với mỗi cặp bộ = ( 1, 2, , 푛) và 푣 = (푣1, 푣2, , 푣푛) trong r ta xây dựng một vector Boole t(u, v) như sau:
- 17 푡( , 푣) = (푡1, 푡2, , 푡푛) 푡1 = ( 푖 = 푣푖) ? 1 ∶ 0 Với mỗi quan hệ r trên tập n thuộc tính u ta xác định tập các vector Boole = {푡( , 푣): , 푣 } và gọi là bảng chân lý của quan hệ r. Theo định nghĩa ta thấy: Nếu r là quan hệ rỗng thì = . Nếu quan hệ r có chứa ít nhất một bộ u nào đó thì do u,u) = e nên e Tr. Định nghĩa 3.4 [21] Cho U là tập thuộc tính không rỗng. Mỗi công thức Boole dương PTBD) trên U là một phụ thuộc Boole dương (PTBD). Cho quan hệ r trên U. Ta nói quan hệ r thỏa PTBD f và ký hiệu r f) nếu với mọi cặp bộ u, v trong r: r(f) u, v r: f(t(u,v)) = 1. Cho quan hệ r trên U. Ta nói quan hệ r thỏa tập PTBD F và ký hiệu r F) nếu r thỏa mọi phụ thuộc trong f: r(F) f F: r(f) Cho tập thuộc tính U và tập các công thức Boole dương trên U. Ta gọi p = (U, F) là lược đồ quan hệ với tập phụ thuộc Boole dương F. Định lý 3.2 Cho lươc đồ quan hệ p = (U, F) và một phụ thuộc Boole dương f F. Cho quan hệ r trên U. Khi đó, (i) Quan hệ r thỏa PTBD f khi và chỉ khi và chỉ khi Tr Tf : r(f) Tr Tf (ii) Quan hệ r thỏa tập PTBD F khi và chỉ khi và chỉ khi Tr TF: r(F) Tr TF Các phụ thuộc sau đây thuộc lớp PTBD với các công thức Boole tương ứng như sau: Phụ thuộc Ký hiệu Công thức Boole dương Phụ thuộc hàm X Y X Y Phụ thuộc mạnh X s Y X Y Phụ thuộc yếu X w Y X Y Phụ thuộc đối ngẫu X d Y X Y Phụ thuộc đa trị X ↠ Y X Y U\X\Y Bảng 2. 3. Các lớp phụ thuộc Boole dương 3.4. Xây dựng thuật toán suy dẫn trong lược đồ quan hệ - Trong phần này và các phần tiếp theo sẽ phát biểu và chứng minh điều kiện cần và đủ để một công thức logic có thể biểu diễn dưới dạng hội của các công thức suy dẫn. - Ý nghĩa của kết quả này là: phụ thuộc logic có thể được sử dụng để mô tả các loại ràng buộc dữ liệu đa dạng trong thực tiễn. Phụ thuộc hàm và các biến thể, chẳng hạn, phụ thuộc hàm nới lỏng và các phụ thuộc mạnh, yếu và đỗi ngẩu đều được biểu diễn qua các công thức suy dẫn X Y. 3.4.1. Suy dẫn trong lược đồ quan hệ với phụ thuộc hàm Mỗi phụ thuộc giữa các tập thuộc tính trong cơ sở dữ liệu quan hệ được mô tả qua một biểu thức f. Các biểu thức mô tả sự phụ thuộc có thể có dạng giải tích Ví dụ: Hai lần rút tiền của cùng một thẻ ATM tại hai địa điểm cách nhau trên 100 km không thể lệch nhau dưới 30 phút.
- 18 Cho tập thuộc tính U, phụ thuộc f và quan hệ r trên U. Ta nói quan hệ r thỏa phụ thuộc f, và viết r(f) nếu: u, v r: γ(f,u,v) λ(f,u,v), trong đó γ và λ là các tân từ xác định trên f và cặp thuộc tính u, v. Lược đồ quan hệ là một cặp p = (U, Σ), trong đó U là tập thuộc tính, Σ là tập các phụ thuộc trên U. Mọi quan hệ và phụ thuộc trong đều được hiểu là các phụ thuộc xây dựng trên tập thuộc tính U cho trước. Mỗi quan hệ r trên LĐQH p được gọi là một thể hiện của LĐQH p. Mọi thể hiện r trên LĐQH p phải thỏa các phụ thuộc Σ. Ta nói, quan hệ r thỏa tập phụ thuộc Σ, và viết r(Σ), nếu r thỏa mọi phụ thuộc trong Σ, 푒 r(Σ) ⇔ f Σ: r(f) PTH truyền thống và các biến thể của PTH truyền thống được đặc tả như sau u, v R: Eq(u.X, v.X) Eq(u.Y, v.Y) PTH (truyền thống) 푒 Eq(u.X, v.X) ⇔ A X: u.A = v.A u, v R: Eq1(u.X, v.X) Eq(u.Y, v.Y) PT mạnh 푒 Eq1(u.X, v.X) ⇔ A X: u.A = v.A PT yếu u, v R: Eq(u.X, v.X) Eq1(u.Y, v.Y) PT đối ngẫu u, v R: Eq1(u.X, v.X) Eq1(u.Y, v.Y) Bảng 3. 1. Đặc tả các loại phụ thuộc PTH truyền thống, phụ thuộc mạnh, yếu và đối ngẫu 3.4.2. Các bài toán liên quan đến phụ thuộc dữ liệu Khái niệm phụ thuộc dữ liệu được nghiên cứu nhằm giải quyết các bài toán sau đây một cách tốt nhất. Bài toán cập nhật: Cho quan hệ r trên lược đồ p = (U, Σ) và hai bộ t và t' trên U. Bài toán cập nhật liên quan đến ba thao tác thêm, xóa và sửa như sau: Giả thiết: r(Σ): quan hệ r thỏa tập phụ thuộc Σ. Yêu cầu: r'(Σ) : Sau khi cập nhật (thêm, xóa hoặc sửa) quan hệ kết quả r' vẫn thỏa tập phụ thuộc Σ. Cụ thể là, nếu trước đó r đã thỏa tập phụ thuộc Σ thì sau khi thực hiện các thao tác thêm, xóa, sửa để thu được quan hệ r thì r vẫn phải thỏa Σ. Ta nói Σ là bất biến đối với các thao tác cập nhật. Ta thấy, thao tác sửa tương đương với dãy tuần tự hai thao tác xóa và thêm, do đó chỉ cần yêu cầu Σ bất biến đối với hai thao tác xóa và thêm. Mặt khác, theo định nghĩa về tính thỏa, nếu r(Σ) thì với mọi quan hệ r' r, ta có r'(Σ). Từ đây suy ra chỉ cần Σ là bất biến đối với thao tác thêm. Để thêm bộ t vào quan hệ r ta phải kiểm tra điều kiện sau đây. u r, f Σ: γ(f,u,t) λ(f,u,t) Thủ tục này đòi hỏi độ phức tạp tính toán lớn vì phụ thuộc vào kích thước của các tập Σ và r. Khó khăn này được giải quyết bước đầu bằng khái niệm chuẩn hóa. Bài toán chuẩn hóa: Thay quan hệ cho trước bằng tập các quan hệ nhỏ hơn, thuận tiện nhất cho việc cập nhật. Với PTH truyền thống, người thiết kế CSDL tách mỗi quan hệ thành các quan hệ thành phần có dạng chuẩn "tốt nhất" cho phép chỉ kiểm tra trên một khóa K của r.
- 19 Nếu u r: u.K = t.K thì không nạp t; ngược lại: nạp t vào r. Bài toán tìm kiếm: Cho quan hệ r trên lược đồ p = (U,Σ) và một bộ t trên U. Các yêu cầu tìm kiếm có thể rất đa dạng. Muốn tăng tốc độ tìm kiếm ta phải vận dụng khái niệm khóa như một tập con đủ nhỏ các thuộc tính cho phép xác định duy nhất một bộ trong quan hệ. Khái niệm khóa lại được xây dựng trên cơ sở bài toán thành viên dưới đây. Bài toán thành viên [1]: Cho LĐQH p = (U,Σ) và quan hệ r trên p, ta có r(Σ), nghĩa là r thỏa mọi phụ thuộc trong Σ. Ngoài Σ, r có thể thỏa các phụ thuộc khác nữa. Ví dụ, U = ABC, Σ = {A B, B C} thì mọi quan hệ r thỏa Σ, r còn thỏa phụ thuộc A C. Bài toán thành viên được phát biểu như sau: Giả thiết: Cho LĐQH p = (U, Σ) và một phụ thuộc g trên U. Kết luận: g Σ+? Giải được bài toán thành viên ta có thể giải được bài toán khóa. Trong trường hợp nào thì có thể giải bài toán thành viên bằng công cụ logic, cụ thể là, nếu ta xem các biểu thức mô tả các phụ thuộc như là các biểu thức logic xây dựng trên các biến là các thuộc tính trên U thì trong điều kiện nào Σ├ g tương đương với Σ╞ g ? Vấn đề này được Armstrong giải quyết trọn vẹn với PTH truyền thống [3] như sau Cho LĐQH p = (U, Σ) và một phụ thuộc g trên U. Ta nói phụ thuộc g được suy dẫn theo quan hệ có không quá hai bộ từ tập phụ thuộc Σ và viết Σ├2 g nếu r REL2(U): r(Σ) r(g). Định lý tương đương [1], [2] Cho LĐQH p = (U, Σ) và một PT g trên U. Ba mệnh đề sau là tương đương: Σ╞ g (suy dẫn logic) Σ├ g (suy dẫn theo quan hệ) Σ├2 g (suy dẫn theo quan hệ có không quá hai bộ). Armstrong cũng đề xuất ba tiên đề làm cơ sở cho suy dẫn logic đối với PTH truyền thống. X, Y, Z U: Tiên đề phản xạ: Nếu Y X thì X Y Tiên đề gia tăng: Nếu X Y thì XZ YZ Tiên đề bắc cầu: Nếu X Y và Y Z thì X Z Theo định lý tương đương, muốn chứng minh Σ├g ta có thể vận dụng các tiên đề Armstrong, muốn phủ định Σ├ g ta chỉ cần xây dựng một quan hệ r với 2 bộ sao cho r(Σ) nhưng r không thỏa g. Các công trình liên quan đến phụ thuộc hàm và các loại phụ thuộc Boole dương trước năm 1992 chỉ quan tâm phép sánh trị đẳng thức Eq được định nghĩa như sau. X U, u, v r(U): 푒 Eq(u.X, v.X) ⇔ A X: u.A = v.A Năm 1992 nhóm nghiên cứu của Nguyễn Xuân Huy mở rộng khái niệm sánh trị và cung cấp mô hình phụ thuộc Boole dương tổng quát bảo toàn định lý tương đương làm cơ sở cho cơ chế suy dẫn và các bài toán liên quan như bài toán tìm kiếm, bài toán thành viên, xác định khóa là những vấn đề không thể thiếu trong quản lý CSDL.
- 20 3.4.3. Thuật toán suy dẫn Khái niệm chung Trong lớp các phụ thuộc Boole dương, các công thức suy dẫn chính là lớp các phụ thuộc hàm được Codd hình thức hóa lần đầu tiên vào năm 1970 [15]. Ta định nghĩa v Ɓn, Set(v) = {A U | v.A = 1}, khi đó giữa Ɓn và 2U tồn tại một song ánh. Nếu coi X là một hội các biến logic thì với mỗi phép gán trị v, ta có X(v)=1 khi và chỉ khi Set(v)X. Cho f: X Y là một CTSD trên U, với mỗi phép gán trị v, ta có f(v)=1 khi và chỉ khi Set(v) X Set(v) Y. Ký hiệu I(U) là tập các CTSD trên tập biến U. Ta gọi một hội suy dẫn là tập F các CTSD, F = {f1, ,fm}. Với mỗi CTSD f: X Y, ta biết f(e) = X(e) Y(e) = 1 1 = 1, nên các CTSD là các công thức Boole dương, tức là I(U) P(U). Hội suy dẫn Ta cũng biết mọi công thức logic đều có thể biểu diễn dưới dạng chuẩn tuyển (hội). Nói cách khác, mỗi bảng T Ɓn đều ứng với một công thức logic dạng chuẩn tuyển (hội). Vấn đề biểu diễn một công thức logic qua một tập các phép toán và hằng logic cho trước chưa có lời giải tổng quát [2]. Các phần trình bày dưới đây liên quan đến bài toán sau. Bài toán Xác định điều kiện cần và đủ để có thể biểu diễn một công thức logic dưới dạng hội suy dẫn [2]. Bổ đề 3.1 (Bổ đề về tính đóng của phép & trong Tf [2]) Với mỗi CTSD f trên U, Tf chứa các phép gán trị đơn vị e, gán trị không z và đóng với phép &. Với mỗi HSD F trên U, vì bảng chân lý TF của F là giao của các bảng chân lý của các công thức thành viên nên ta có các hệ quả sau đây. Hệ quả 3.1 Với mỗi HSD F trong I(U), TF chứa các phép gán trị đơn vị e, gán trị không z và đóng với phép &. Hệ quả dưới đây thiết lập điều kiện cần và đủ để một bảng T Ɓn là một bảng chân lý của một hội suy dẫn. Hệ quả 3.2 Bảng T Ɓn là bảng chân lý của một HSD khi và chỉ khi T chứa các phép gán trị đơn vị e, gán trị không z và đóng với phép &. 3.5. Xây dựng thuật toán tìm bao đóng với phụ thuộc Booe dương tổng quát Gọi U là tập các thuộc tính và Ψ là tập phụ thuộc logic trên U, X U. Ta định nghĩa bao đóng X+ của X là tập các thuộc tính sau: X+ = {a U | X╞ a Ψ +} Bao đóng của tập thuộc tính X là tập toàn bộ các thuộc tính phụ thuộc vào X. Thuật toán tìm bao đóng của tập các thuộc tính Ý tưởng thuật toán: Để tìm bao đóng X+ của X, ta khởi tạo X+ = X, sau đó vận dụng thuật toán thành viên để xét cho từng thuộc tính a U - X, nếu X ╞ a Ψ + thì bổ sung a vào X+. Với Ψ đã được đưa về dạng chuẩn không dư thì điều kiện X╞a Ψ+ sẽ cho CNF(Ψ (X╞ a)’) = ΨXa’, do đó sẽ tương đương với điều kiện Unif(ΨXa’) = .
- 21 Thuật toán 3.2 (Thuật toán tìm bao đóng trong lớp các PTLG) (Thuật toán được đề xuất trong CT2 - Danh mục công trình công bố của NCS). Mệnh đề 3.1 Bài toán tìm bao đóng trong lớp các phụ thuộc logic thuộc lớp NPC. 3.6. Xây dựng thuật toán tìm khóa với phụ thuộc Booe dương tổng quát Khóa là tập con các thuộc tính đủ nhỏ và xác định đơn trị một bộ trong quan hệ. Cho F là tập phụ thuộc logic trên U. Tập K U được gọi là khóa nếu thỏa: K+ = U, a K: (K a)+ ≠ U. Nếu K chỉ thỏa điều kiện thứ nhất thì K được gọi là siêu khóa. Thuật toán sau thực hiện các bước tìm một khóa trên tập thuộc tính U và tập PTLG F cho trước: Thuật toán tìm khóa Xuất phát từ một siêu khóa K tùy ý, lần lượt duyệt từng thuộc tính a trong K, nếu (K a)+ = U thì loại a khỏi K. Thuật toán 3.3 (Tìm khóa K trong lớp các PTLG) Mệnh đề 3.2 Bài toán tìm khóa trong lớp các phụ thuộc logic thuộc lớp NPC.
- 22 3.7. Kết luận chương 3 Trong chương 3, luận án trình bày kết quả đề xuất: - Tiếp cận bài toán suy dẫn trong lớp các phụ thuộc logic theo ba phương pháp: Phương pháp Vương Hạo, phương pháp gián tiếp theo hợp giải, phương pháp trực tiếp - Thuật toán tìm bao đóng của tập thuộc tính trong lược đồ quan hệ với phụ thuộc hàm, thuật toán tìm bao đóng của tập thuộc tính trong lược đồ quan hệ với phụ thuộc Boole dương tổng quát, thuật toán tìm khóa với phụ thuộc hàm và thuật toán tìm khoá với phụ thuộc Boole dương tổng quát được xây dựng.
- 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN I. Các kết quả đạt được của luận án Một số đóng góp mới của luận án tập trung vào ba nhóm kết quả: (1) Xây dựng hàm biến đổi lambda, dựa vào hàm lambda được xây dựng, kết hợp giữa phụ thuộc hàm xấp xỉ và phụ thuộc Boole dương tổng quát, luận án đề xuất các phụ thuộc dữ liệu mới bao gồm: phụ thuộc xấp xỉ tổng quát, phụ thuộc Boole dương xấp xỉ, phụ thuộc Boole dương xấp xỉ tổng quát và phụ thuộc yếu xấp xỉ. (2) Xây dựng mối quan hệ giữa các loại phụ thuộc logic: Chứng minh sự tương đương giữa phụ thuộc Boole dương tổng quát và phụ thuộc hàm nới lỏng, sự tương đương giữa phụ thuộc Boole dương tổng quát và phụ thuộc Boole dương xấp xỉ, sự tương đương giữa phụ thuộc Boole dương tổng quát và phụ thuộc Boole dương xấp xỉ tổng quát (3) Xây dựng một số thuật toán giải các bài toán đặc trưng sau: Sử dụng phương pháp Vương Hạo, CNF và hợp giải để giải bài toán suy dẫn. Xây dựng và đánh giá độ phức tạp tính toán cho các thuật toán tìm bao đóng của một tập thuộc tính cho phụ thuộc hàm và phụ thuộc Boole dương tổng quát. Xây dựng và đánh giá độ phức tạp tính toán cho các thuật toán tìm khóa cho phụ thuộc hàm và phụ thuộc Boole dương tổng quát. Kết quả của đề tài có thể cung cấp cho người thiết kế và quản trị cơ sở dữ liệu một khung nhìn tổng quan về mối quan hệ giữa các phụ thuộc logic, qua đó, có thể lựa chọn loại phụ thuộc logic phù hợp với nhu cầu thực tiễn. II. Những đóng góp mới của luận án (1) Đề xuất các dạng phụ thuộc mới là phụ thuộc xấp xỉ tổng quát, phụ thuộc Boole dương xấp xỉ, phụ thuộc boole dương xấp xỉ tổng quát và phụ thuộc yếu xấp xỉ. (2) Xây dựng mối quan hệ giữa các loại phụ thuộc logic, giữa phụ thuộc Boole dương tổng quát và phụ thuộc hàm nới lỏng, phụ thuộc Boole dương tổng quát và phụ thuộc Boole dương xấp xỉ, phụ thuộc Boole dương tổng quát và phụ thuộc Boole dương xấp xỉ tổng quát (3) Đề xuất qui trình giải bài toán suy dẫn theo ba tiếp cận hình thức. Xây dựng và đánh giá thuật toán tìm bao đóng, thuật toán tìm khóa của một tập thuộc tính cho lớp các phụ thuộc logic. III. Hướng phát triển tiếp theo cho luận án: Hiện nay, có khá nhiều loại phụ thuộc logic phục vụ cho việc thiết kế cơ sở dữ liệu đã được đề xuất. Để xây dựng nên một mô hình tổng quan cho các loại phụ thuộc logic, ta phải xác định được mối quan hệ giữa chúng. Với mục tiêu đó, luận án đã chứng minh sự tương đương giữa một số loại phụ thuộc logic như: phụ thuộc Boole dương tổng quát, phụ thuộc sai khác tổng quát, phụ thuộc yếu tổng quát, phụ thuộc xấp xỉ và xây dựng nên lớp các phụ thuộc logic. Nếu tiếp tục mở rộng lớp các phụ thuộc logic này bằng cách thu nạp thêm một số loại phụ thuộc logic khác nữa thì mức tổng quát của lớp các phụ thuộc logic càng có độ tin cậy cao hơn. Đây cũng là hướng phát triển tiếp theo của NCS khi định hướng tiếp tục theo đuổi đề tài này: Tiếp tục tìm hiểu một số loại phụ thuộc mới được nghiên cứu như: phụ thuộc hàm mềm, phụ thuộc đối sánh, phụ thuộc có điều kiện, phụ thuộc theo mẫu, phụ thuộc tuần tự, và một số phụ thuộc được đề xuất trong tương lai. Tìm ra mối quan hệ giữa các loại phụ thuộc mới này với các phụ thuộc đã nêu trong luận án.
- 24 Bổ sung các phụ thuộc mới được các nhóm nghiên cứu vào lớp các phụ thuộc logic mà luận án đã xây dựng. Nghiên cứu thêm một số bài toán như bài toán kinh điển và xây dựng nên các chuẩn cho lớp các phụ thuộc logic. Xây dựng phần mềm ứng dụng, giải quyết bài toán thực tế cho lớp các phụ thuộc logic và giải quyết bài toán trong lớp này theo phương pháp hợp giải.
- 25 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ [CT1] Nguyễn Xuân Huy, Trương Thị Thu Hà, Nguyễn Thị Vân (2016), “Tương quan giữa phụ thuộc hàm xấp xỉ và phụ thuộc Boole dương tổng quát trong cơ sở dữ liệu quan hệ”, Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông, NXB Khoa học và Kỹ thuật, ISBN: 978- 604-67-0781-3, Hà Nội, tr.361-365. [CT2] Trương Thị Thu Hà, Nguyễn Thị Vân, Nguyễn Xuân Huy (2016), “Thuật toán xác định bao đóng và khóa theo tiếp cận hợp giải trong lớp các phụ thuộc logic”, Tạp chí Thông tin và TT, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và truyền thông, ISSN 1859-3526, kỳ 3, tập V-2, số 16(36), tr.50-57. [CT3] Nguyễn Thị Vân, Trương Thị Thu Hà, Nguyễn Xuân Huy (2017), “Phụ thuộc trong cơ sở dữ liệu theo tiếp cận logic”, Kỷ yếu Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông, Qui Nhơn, 23-24/11/2017, NXB Khoa học và Kỹ thuật, ISBN: 978-604-67-1009-7, Hà Nội, tr.260-265. [41] [42] [43] [44] [45] [46] [47] [48, 49, 50] [CT4] Nguyễn Xuân Huy, Nguyễn Thị Vân (2018), “Bài toán suy dẫn logic và ứng dụng trong cơ sở tri thức”, Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông, NXB Khoa học và Kỹ thuật, ISBN: 978-604-67-1104-9, Thanh Hóa, tr.27-31. [CT5] Nguyễn Xuân Huy, Nguyễn Thị Vân, Trương Thị Thu Hà (2020), “Quan hệ giữa phụ thuộc hàm nới lỏng và phụ thuộc Boole dương tổng quát”, Tạp chí Chuyên san Công nghệ thông tin và truyền thông, ISSN 1859-3526, số 1, tháng 6-tập 2020, tr.44-58. [CT6] Nguyen Xuan Huy, Nguyen Thi Van (2022), “Lambda functions and approximate generalized positive Boolean dependencies”, Journal on Information Technologies & Communications, ISSN 1859-3526, Vol 2022, No 2, page.112-118.