Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu
Bạn đang xem 30 trang mẫu của tài liệu "Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
01 Luan An full.pdf
01 Luan An tomtat EN w Cover.pdf
01 Luan An tomtat VN w Cover.pdf
02 Cong trinh cong bo.pdf
NCS. Mẫu 4-HV Trang thông tin đóng góp mới TV TA.docx
Trang thông tin đóng góp mới TV TA Nguyễn Tuấn Khang_0001.pdf
Nội dung tài liệu: Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu
- BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN TUẤN KHANG NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT GỢI Ý MUA HÀNG THEO PHIÊN DỰA TRÊN MÔ HÌNH HỌC SÂU TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Mã số: 9 48 01 01 Hà Nội - 2023
- Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học 1: TS. Nguyễn Phú Bình Đại học Victoria Wellington (New Zealand) Người hướng dẫn khoa học 2: PGS. TS. Nguyễn Việt Anh Viện Công nghệ thông tin Viện Hàn lâm Khoa học và Công nghệ Việt Nam Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi giờ, ngày tháng năm 2023. Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học và Công nghệ - Thư viện Quốc gia Việt Nam
- Mở đầu 1 T½nh c§p thi¸t cõa đề tài Trong bèi c£nh thương m¤i điện tû và dịch vụ trực tuy¸n đang ph¡t triºn nhanh chóng [1], h» thèng gñi ý đã trở thành mët công cụ quan trọng để n¥ng cao tr£i nghi»m kh¡ch hàng và thúc đẩy sự ph¡t triºn kinh doanh. C¡c mô h¼nh gñi ý truy·n thèng như phương ph¡p đề xu§t dựa tr¶n nëi dung [2] và phương ph¡p lọc dựa tr¶n cëng t¡c [3] chõ y¸u tªp trung vào sở th½ch c¡ nh¥n dài h¤n và bỏ qua c¡c tương t¡c ngn h¤n. Với động cơ nghi¶n cùu như vªy, phương ph¡p h» gñi ý dựa tr¶n phi¶n (Session-based recom- mendation) đã được đề xu§t, và nhi»m vụ cõa chúng là dự đoán hành vi ti¸p theo cõa người dùng dựa tr¶n hành vi cõa phi¶n làm vi»c hi»n t¤i. Với góc nh¼n này, t¡c gi£ nh§n m¤nh t½nh c§p thi¸t cõa vi»c nghi¶n cùu c¡c mô h¼nh gñi ý hành vi mua sm cõa kh¡ch hàng dựa tr¶n phi¶n và kh¡m ph¡ nhúng kh£ n«ng mới mà chúng mang l¤i cho vi»c đ©y m¤nh lĩnh vực h» thèng gñi ý nh¬m dự b¡o hành vi kh¡ch hàng [4]. 2 Mục ti¶u cõa luªn ¡n Đặt v§n đề Ph¥n t½ch phi¶n làm vi»c cõa kh¡ch hàng để dự b¡o kh£ n«ng họ s³ mua s£n ph©m nào hoặc lựa chọn s£n ph©m nào ti¸p theo là mët bài to¡n dự b¡o kh¡ phê bi¸n trong ngành thương m¤i điện tû. Vi»c dự b¡o này giúp cho doanh nghi»p đưa ra c¡c ý tưởng b¡n hàng phù hñp trong qu¡ tr¼nh người dùng tương t¡c với h» thèng b¡n hàng cõa m¼nh. Đối tượng nghi¶n cùu Đối tượng nghi¶n cùu cõa luªn ¡n này là chuéi hành vi nh§p chuët trong qu¡ tr¼nh lựa chọn s£n ph©m cõa kh¡ch hàng. Chuéi hành vi nh§p chuët được ghi nhªn trong mët phi¶n mua hàng tr¶n mët h» thèng thương m¤i điện tû hoặc n·n t£ng m¤ng x¢ hëi nào đó. Mục ti¶u nghi¶n cùu Mục ti¶u cõa luªn ¡n này là nghi¶n cùu và đề xu§t mô h¼nh dự b¡o hành vi lựa chọn s£n ph©m trong phi¶n làm vi»c hi»n t¤i cõa kh¡ch hàng với h» thèng b¡n hàng. Cụ thº hơn, luªn ¡n này có mët sè mục ti¶u nghi¶n cùu ch½nh như sau: • Nghi¶n cùu và đề xu§t c¡ch thùc biºu di¹n dú li»u phi¶n làm vi»c. • Nghi¶n cùu và đề xu§t mët sè mô h¼nh m¤ng nơ-ron học s¥u và m¤ng nơ-ron đồ thị nh¬m x¥y dựng mô h¼nh dự b¡o hành vi mua hàng. • Thực nghi»m mët sè phương ¡n kh¡c nhau và so s¡nh với mët sè mô h¼nh cơ sở nh¬m đ¡nh gi¡ t½nh hi»u qu£ cõa mô h¼nh đề xu§t. Ph¤m vi nghi¶n cùu Ph¤m vi nghi¶n cùu ti¸p cªn với hai bài to¡n cụ thº sau: • Bài to¡n 1 tr£ lời c¥u hỏi ”Với danh s¡ch s£n ph©m đang lựa chọn trong phi¶n tương t¡c hi»n t¤i th¼ kh£ n«ng kh¡ch hàng có mua hàng không, và n¸u mua th¼ kh£ n«ng họ chọn mặt hàng nào?”. • Bài to¡n 2 mang t½nh têng qu¡t hơn khi tr£ lời c¥u hỏi ”Với danh s¡ch s£n ph©m đang lựa chọn trong phi¶n tương t¡c hi»n t¤i th¼ kh£ n«ng kh¡ch hàng s³ chọn nhúng s£n ph©m nào ti¸p theo”. 1
- Mở đầu 3 Phương ph¡p nghi¶n cùu Bài to¡n1 là bài to¡n nhị ph¥n mua hàng đơn gi£n, luªn ¡n đề xu§t hai mô h¼nh m¤ng nơ-ron là m¤ng học rëng và s¥u và m¤ng học m¡y bi¸n đổi để ph¥n t½ch phi¶n làm vi»c dưới d¤ng b£ng (tabular data) gồm c¡c thuëc t½nh có dú li»u chuéi sè và danh mục (c¡c đối tượng dú li»u rời r¤c) nh¬m dự b¡o hành vi có mua hàng hay không cõa kh¡ch hàng. Hai mô h¼nh m¤ng nơ-ron này kh¡ đơn gi£n và phù hñp với c¡c phi¶n dú li»u d¤ng b£ng, tuy nhi¶n điểm h¤n ch¸ là ch¿ đánh gi¡ dú li»u theo tøng phi¶n cụ thº (intra-session), mà không đánh gi¡ được mèi quan h» giúa c¡c phi¶n dú li»u trong c£ bë dú li»u lớn. Với Bài to¡n2 nh¬m x¥y dựng h» gñi ý top − k, phương ph¡p nghi¶n cùu c¦n c£i ti¸n b¬ng c¡ch t¼m hiºu và đề xu§t phương ¡n biºu di¹n dú li»u phi¶n làm vi»c và đặc bi»t hơn là kh£ n«ng thº hi»n rã mèi quan h» giúa hàng tri»u phi¶n làm vi»c trong bë dú li»u thực t¸, kh¡i ni»m này gọi là inter-session [5]. Đồ thị là hướng ti¸p cªn r§t phù hñp nh¬m biºu di¹n dú li»u phi¶n làm vi»c cõa hàng tri»u kh¡ch hàng trong qu¡ tr¼nh lựa chọn cùng tr¶n mët tªp c¡c s£n ph©m cõa mët h» thèng nào đó [6]. Với góc đë mô h¼nh ki¸n trúc, luªn ¡n nghi¶n cùu và đề xu§t sû dụng mô h¼nh nơ-ron đồ thị để x¥y dựng mô h¼nh gñi ý cho Bài to¡n2. 4 Bè cục luªn ¡n Bè cục cõa luªn ¡n gồm ph¦n Mở đầu và bèn chương nëi dung, và ph¦n K¸t luªn được mô t£ ngn gọn như sau: • ”Mở đầu”: Ph¦n mở đầu tr¼nh bày têng quan v· bài to¡n nghi¶n cùu, t½nh c§p thi¸t và ý nghĩa khoa học thực ti¹n cõa đề tài. • Chương 1 ”Têng quan v· h» gñi ý”: Chương 1 tr¼nh bày v· bài to¡n gñi ý mà nhi·u h» thèng b¡n hàng thương m¤i đi»n tû hay c¡c n·n t£ng m¤ng x¢ hëi đang triºn khai. Chương này n¶u định nghĩa và ph¡t biºu hai bài to¡n ùng với hai mục ti¶u cụ thº cõa luªn ¡n được n¸u ở ph¦n Mở đầu, gồm Bài to¡n1 là mô h¼nh dự b¡o nhị ph¥n có mua hàng hay không và Bài to¡n2 là h» gñi ý top − k dựa theo phi¶n làm vi»c hi»n t¤i cõa kh¡ch hàng khi nh§p chuët lựa chọn s£n ph©m tr¶n h» thèng b¡n hàng. • Chương 2 ”Đề xu§t mô h¼nh m¤ng nơ-ron học s¥u gi£i bài to¡n mua hàng”: Chương 2 gi£i quy¸t Bài to¡n1 cõa luªn ¡n tr£ lời c¥u hỏi ”khách hàng có mua hàng trong phi¶n làm vi»c hi»n t¤i không?”. Chương này đề xu§t hai mô h¼nh m¤ng nơ-ron cụ thº gồm m¤ng nơ-ron rëng & s¥u và m¤ng nơ-ron bi¸n đổi để x¥y dựng mô h¼nh dự b¡o mua hàng. • Chương 3 ”Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị gi£i bài to¡n top − k”: Chương 3 gi£i quy¸t Bài to¡n2 mang t½nh têng qu¡t cõa luªn ¡n là bài to¡n top − k. Chương này tr¼nh bày mët sè phương ¡n thi¸t k¸ đồ thị để mô h¼nh hóa thông tin đ¦u vào là phi¶n làm vi»c cõa kh¡ch hàng, gồm hai đồ thị đơn G, H và mët đồ thị đa quan h» K. • Chương 4 ”Đề xu§t phương ph¡p nhúng cho mô h¼nh m¤ng nơ-ron đồ thị”: Nh¬m ti¸p tục c£i ti¸n mô h¼nh GNN đề xu§t ở chương 3, chương 4 để xu§t ph²p biºn đổi tr¶n đồ thị đº n¥ng cao hi»u qu£ cõa mô h¼nh. T¡c gi£ để xu§t tèi ưu hóa mô h¼nh m¤ng nơ-ron đồ thị GNN b¬ng c¡ch đ· xu§t mới mët lớp nhúng đồ thị đặc bi»t nh¬m c£i ti¸n mô h¼nh dự b¡o top−k. Chương này thi¸t k¸ lớp nhúng phi¶n sû dụng ph²p bi¸n đổi nhúng k¸t hñp bao gồm nhúng đỉnh, nhúng đồ thị và nhúng nh¢n. • ”Kết luªn”: Ph¦n cuèi cùng đưa ra c¡c k¸t luªn chung và nhªn x²t k¸t qu£ đạt được cõa luªn ¡n để gi£i th½ch rã động cơ nghi¶n cùu và c¡c bước c£i ti¸n c¡c mô h¼nh. 2
- Chương 1| Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u 1.1 Bài to¡n h» gñi ý 1.1.1 Têng quan v· h» gñi ý Có kh¡ nhi·u h» thèng gñi ý kh¡c nhau tùy theo ngú c£nh bài to¡n [7]. Đơn gi£n nh§t, h» thèng gñi ý dựa vào thông tin lịch sû hoặc sở th½ch cõa người dùng đã được lưu l¤i để t¼m ra s£n ph©m phù hñp nh§t [8]. H» thèng ho¤t động kiºu này kh¡ d¹ hiºu nhưng l¤i gặp nhi·u th¡ch thùc khi c¦n đưa ra gñi ý cho người dùng mới, trong khi h» thèng chưa ghi nhªn được thông tin lịch sû g¼ tø họ. Mët h¼nh thùc mới v· h» thèng gñi ý ch¿ đựa vào qu¡ tr¼nh tương t¡c hi»n t¤i cõa người dùng, gọi là phi¶n làm vi»c. Dựa vào thông tin phi¶n làm vi»c, h» thèng có thº đưa ra gñi ý cho người dùng ch¿ sau vài ba chuéi sự ki»n tương t¡c cõa họ với h» thèng, mô h¼nh này được gọi là h» thèng gñi ý dựa vào phi¶n làm vi»c [9]. 1.1.2 Ph¥n lo¤i bài to¡n h» gñi ý Méi lo¤i h» thèng gñi ý sû dụng c¡c thuªt to¡n và kỹ thuªt kh¡c nhau để t¼m hiºu và ph¥n t½ch dú li»u, tø đó đưa ra c¡c gñi ý phù hñp với sở th½ch và nhu c¦u cõa người dùng. • H» gñi ý dựa tr¶n nëi dung (Content-Based Filtering). • H» gñi ý dựa tr¶n sự cëng t¡c (Collaborative Filtering. • H» gñi ý k¸t hñp (Hybrid Recommendation Systems). • H» gñi ý dựa tr¶n tri thùc (Knowledge-Based Recommendation Systems). • H» gñi ý dựa tr¶n bèi c£nh (Context-Aware Recommendation Systems). • H» gñi ý dựa tr¶n học t«ng cường (Reinforcement Learning-Based Recommendation Sys- tems). • H» gñi ý dựa tr¶n phi¶n làm vi»c (Session-Based Recommendation Systems). 1.2 Hai bài to¡n cơ sở 1.2.1 Định nghĩa phi¶n làm vi»c Định nghĩa 1. Phi¶n làm vi»c cõa kh¡ch hàng là mët chuéi c¡c sự ki»n nh§p chuët khi lựa chọn s£n ph©m và được h» thèng ghi nhªn dưới d¤ng v²c-tơ s = fid1; id2; :::; idcg trong đó idi là m¢ định danh s£n ph©m, c là sè lượt s£n ph©m được nh§p chọn trong phi¶n làm vi»c s và cũng ch½nh là độ dài cõa phi¶n làm vi»c đó. 1.2.2 Bài to¡n 1 - Dự b¡o hành vi mua hàng Bài to¡n 1. Cho mët chuéi nh§p chuët có t½nh thù tự theo thời gian được sinh ra tø mët phi¶n làm vi»c cõa kh¡ch hàng khi lựa chọn s£n ph©m, c¦n x¥y dựng mô h¼nh dự b¡o xem li»u kh¡ch hàng có mua hàng trong phi¶n làm vi»c hi»n t¤i không? 1.2.3 Bài to¡n 2 - H» gñi ý top − k Bài to¡n 2. Cho mët chuéi nh§p chuët có t½nh thù tự theo thời gian được sinh ra tø mët phi¶n làm vi»c cõa kh¡ch hàng khi lựa chọn s£n ph©m, c¦n x¥y dựng mô h¼nh gñi ý xem li»u kh¡ch hàng lựa chọn mặt hàng nào ti¸p theo trong phi¶n làm vi»c hi»n t¤i? 3
- Chương 1. Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u 1.3 Lý thuy¸t m¤ng nơ-ron học s¥u 1.3.1 Mô h¼nh m¤ng nơ-ron học s¥u truy·n th¯ng Ph¦n này nghi¶n cùu mët sè mô h¼nh c£i ti¸n cụ thº cõa m¤ng nơ-ron truy·n th¯ng FNN nh¬m cung c§p c¡i nh¼n têng quan hơn v· kỹ thuªt học s¥u trong vi»c gi£i quy¸t Bài to¡n1. Ba mô h¼nh có t½nh ch§t tương tự như FNN nhưng kh¡c nhau ở phương ph¡p ti·n xû lý lớp nhúng trước khi vào lớp học s¥u truy·n th¯ng. C¡c bi¸n thº cõa mô h¼nh FNN được minh họa ở H¼nh 1.1. H¼nh 1.1: Mët sè mô h¼nh nơ-ron sû dụng trong dự b¡o chuéi nh§p chuët 1.3.2 Mô h¼nh m¤ng nơ-ron rëng và s¥u Với hướng nghi¶n cùu cùu ùng dụng m¤ng nơ-ron học s¥u cho Bài to¡n1, t¡c gi£ sû dụng m¤ng nơ-ron học rëng và s¥u để phục vụ mục ti¶u đề ra. Mô h¼nh này được đề xu§t n«m 2016 bởi mët nhóm làm vi»c trong Google [10]. H¼nh 1.2: Sơ đồ c§u trúc m¤ng nơ-ron rëng và s¥u Mô h¼nh rëng và s¥u là mët m¤ng nơ-ron hén hñp với c§u trúc bao gồm hai nh¡nh được mô t£ như sau: Ph¦n Rëng Ph¦n rëng là mô h¼nh tuy¸n t½nh có d¤ng: y = W T x + b (1.1) Trường thuëc t½nh đầu vào bao gồm c¡c thuëc t½nh thô và mët sè thuëc t½nh đặc bi»t được t¤o ra b¬ng ph²p bi¸n đổi t½ch ch²o như công thùc 1.2: d Y cki 'k(x) = xi ; cki 2 f0; 1g (1.2) i=1 trong đó cki nhªn gi¡ trị 1 n¸u thuëc t½nh thù i n¬m trong bi¸n đổi thù k cõa 'k, và nhªn gi¡ trị 0 n¸u ngược l¤i. 4
- Chương 1. Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u Ph¦n S¥u Ph¦n s¥u là m¤ng nơ-ron học s¥u truy·n th¯ng k¸t hñp kỹ thuªt nhúng, lớp đầu ti¶n cõa m¤ng (0) truy·n th¯ng là lớp nhúng thuëc t½nh. Đầu ra cõa lớp nhúng có d¤ng a = [e1; e2; :::; em] với m là sè trường thuëc t½nh, trong đó ei là véc-tơ nhúng cõa trường thuëc t½nh thù i. C¡c véc-tơ này k¸t hñp với c¡c thuëc t½nh d¤ng sè được truy·n vào c¡c lớp ©n ti¸p theo cõa m¤ng nơ-ron học s¥u: al+1 = σ(W (l)a(l)) + b(l)) (1.3) trong đó σ là hàm k½ch ho¤t, thường là hàm ReLU có d¤ng f(x) = x+ = max(0; x); W (l), a(l), và b(l) đầu ra và đë l»ch cõa lớp nơ-ron thù l. Qu¡ tr¼nh học cõa m¤ng di¹n ra đồng thời đối với c£ hai ph¦n để t¤o ra k¸t qu£ cuèi cùng cõa mô h¼nh dự b¡o têng hñp theo công thùc 1.4 1 y^ = Sigmoid(yR + yS) = (1.4) 1 + e−(yR+yS ) trong đó y^ 2 (0; 1) là gi¡ trị dự b¡o kh£ n«ng mua hàng, yR là đầu ra cõa ph¦n rëng và yS là đầu ra cõa ph¦n s¥u. 1.3.3 Mô h¼nh m¤ng nơ-ron bi¸n đổi Mô h¼nh bi¸n đổi Transformer bao gồm hai mô-dun ch½nh là khèi m¢ hóa (encoder) và khèi gi£i m¢ (decoder) được mô t£ như H¼nh 1.3: H¼nh 1.3: Mô h¼nh minh họa ki¸n trúc Transformer Ki¸n trúc Transformer ti¸p cªn kh¡ gièng với c¡c m¤ng nơ-ron học s¥u cơ b£n như tr¼nh bày ở ph¦n tr¶n gồm W&DNN, FNN, PNN v¼ nó cũng sû dụng k¸t hñp lớp nhúng và m¤ng nơ-ron truy·n th¯ng FNN. Tuy nhi¶n có 2 điểm kh¡c là (1) ki¸n trúc Transformer sû dụng lớp nhúng theo cơ ch¸ tự chú ý đº bi¸n đổi dú li»u đầu vào theo d¤ng chuéi tu¦n tự, (2) c¡c khèi này được x¸p lớp với nhau để xû lý song song được nhi·u thuëc t½nh kh¡c nhau tø chuéi dú li»u đầu vào. H¼nh 1.4: C¡c lớp chi ti¸t cõa ki¸n trúc Transformer 5
- Chương 1. Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u 1.4 Lý thuy¸t m¤ng nơ-ron đồ thị 1.4.1 Định nghĩa v· đồ thị Theo định nghĩa cơ b£n th¼ đồ thị là mët tªp c¡c đối tưñng gọi là đỉnh nèi với nhau bởi c¡c c¤nh, mà ở đây c¤nh thº hi»n mët quan h» cụ thº nào đó giúa hai đỉnh. Tùy tøng bài to¡n cụ thº mà c¤nh có thº có hướng hoặc vô hướng, và tương ùng đồ thị khi đó cũng được gọi là có hướng hoặc vô hướng như mët sè ph¡t biºu sau. Định nghĩa 2. Mët đồ thị đơn G gồm mët tªp không réng V mà c¡c ph¦n tû cõa nó gọi là c¡c đỉnh và mët tªp E mà c¡c ph¦n tû cõa nó gọi là c¡c c¤nh, đó là c¡c cặp không sp x¸p thù tự c¡c đỉnh ph¥n bi»t. Đồ thị này cán gọi là đồ thị vô hướng (undirected graph). Biºu thùc to¡n học biºu di¹n đồ thị mô t£ theo Công thùc 1.5. G = (V; E) (1.5) trong đó • V = fv1; v2; :::; vng là tªp c¡c đỉnh cõa đồ thị, và sè đ¿nh n = jV j. • E = fe1; e2; :::; emg là tªp c¡c c¤nh cõa đồ thị. và sè c¤nh m = jEj. Định nghĩa 3. Mët đồ thị có hướng (directed graph) G = (V; E) gồm tªp c¡c đỉnh V và tªp c¡c c¤nh E là c¡c cặp có thù tự cõa c¡c ph¦n tû thuëc V . Với c¡c d¤ng đồ thị phùc t¤p hơn, chúng có thº có nhi·u lo¤i c¤nh kh¡c nhau nèi giúa c¡c đỉnh. Đồ thị này được gọi là đồ thị đa quan h» (multi-relational graphs) v¼ nó chùa nhi·u t¦ng quan h» kh¡c nhau [11]. Với d¤ng đồ thị đa quan h», chúng ta c¦n th¶m tham sè để ch¿ ra lo¤i quan h» (lo¤i c¤nh) giúa 2 đỉnh (u; v) thông qua mët hàm f nào đó sao cho f(e) = (u; v). Định nghĩa 4. Mët đồ thị đa quan h» vô hướng G = (V; E) gồm tªp c¡c đỉnh V , mët tªp c¡c c¤nh E và mët hàm f tø E tới ffu; vgju; v 2 V; u 6= vg. C¡c c¤nh e1 và e2 được gọi là c¤nh song song hay c¤nh bëi n¸u f(e1) = f(e2). Định nghĩa 5. Mët đồ thị đa quan h» có hướng G = (V; E) gồm tªp c¡c đỉnh V , mët tªp c¡c c¤nh E và mët hàm f tø E tới ffu; vgju; v 2 V g. C¡c c¤nh e1 và e2 được gọi là c¤nh song song hay c¤nh bëi n¸u f(e1) = f(e2). Định nghĩa 6. (đỉnh k·) Hai đỉnh u và v trong mët đồ thị vô hướng G được gọi là li·n k· n¸u fu; vg là mët c¤nh cõa đồ thị G. N¸u e = fu; vg th¼ e gọi là c¤nh li¶n thuëc với c¡c đỉnh u và v. C¤nh e cán đưñc gọi là c¤nh nèi c¡c đỉnh u và v, và c¡c đỉnh u và v gọi là c¡c điểm đầu mút cõa c¤nh fu; vg. Định nghĩa 7. Khi e = fu; vg là c¤nh cõa đồ thị có hướng G th¼ u được gọi là đỉnh nèi tới v và v được gọi là đỉnh được nèi tø u. Đỉnh u gọi là đỉnh đầu, đỉnh v gọi là đỉnh cuèi cõa c¤nh fu; vg. Định nghĩa 8. (bªc cõa đỉnh) Bªc cõa mët đỉnh trong đồ thị vô hướng là sè c¡c c¤nh li¶n thuëc với nó. Ký hi»u bªc cõa đỉnh v là deg(v). Định nghĩa 9. Với đồ thị có hướng, bªc vào (incoming degree) cõa đỉnh v ký hi»u là deg−(v) là sè c¡c c¤nh có đỉnh cuèi là v. Bªc ra (outgoing degree) cõa đỉnh v ký hi»u là deg+(v) là sè c¡c c¤nh có đỉnh đầu là v. Định nghĩa 10. (đường đi) Mët đường P đi tø đỉnh v1 tới đỉnh vk là tªp c¡c đỉnh fv1; v2; :::; vkg sao cho tồn t¤i (vi; vi+1) 2 E; 8i : 1 ≤ i < k. Đường đi P có độ dài là P (v1; vk) = k − 1 do không t½nh đỉnh khởi đầu v1, độ dài này cũng ch½nh là sè lượng c¤nh chùa trong đường đi đó. 6
- Chương 1. Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u 1.4.2 Biºu di¹n đồ thị a. Danh s¡ch k· Danh s¡ch k· (adjacency list) là danh s¡ch biºu di¹n t§t c£ c¡c c¤nh cõa mët đồ thị. N¸u đồ thị vô hướng, méi ph¦n tû cõa danh s¡ch là mët cặp hai đỉnh là hai đầu cõa c¤nh tương ùng. N¸u đồ thị có hướng, méi ph¦n tû là mët cặp có thù tự gồm hai đỉnh là đỉnh đầu và đỉnh cuèi cõa cung tương ùng. H¼nh 1.5 minh họa c¡ch biºu di¹n đồ thị b¬ng danh s¡ch k· Đỉnh C¡c đỉnh k· v1 v2; v3; v4 e1 e4 v1 v2 v5 v2 v1; v4; v5 e e 5 e v v 2 3 3 1 e 6 v4 v1; v2; v5 v3 v4 v5 v2; v4 (a) Đồ thị minh họa (b) Danh s¡ch c¡c đỉnh k· H¼nh 1.5: Biºu di¹n đồ thị b¬ng danh s¡ch k· b. Ma trªn k· Khi biºu di¹n đồ thị sû dụng danh s¡ch k· th¼ vi»c x¥y dựng thuªt to¡n có thº s³ r§t cồng k·nh n¸u đồ thị có nhi·u c¤nh, để đơn gi£n hóa vi»c t½nh to¡n ta có thº biºu di¹n đồ thị b¬ng ma trªn k· (adjacency matrix). Gi£ sû G = (V; E) là mët đồ thị đơn có n đỉnh, ta có thº biºu di¹n đồ thị b¬ng mët ma trªn n×n AG = [aij] 2 R , ma trªn này cán được gọi là ma trªn k·: • aij = 1 n¸u fvi; vjg 2 E. • aij = 0 n¸u không có c¤nh nèi đỉnh vi với đỉnh vj. • Quy ước aii = 0 với 8i. Với trường hñp biºu di¹n đồ thị có trọng sè, th¼ gi¡ trị aij = w(i; j) là trọng sè cõa c¤nh cõa hai đỉnh li·n k· vi nèi tới vj. 1.4.3 Mô h¼nh m¤ng nơ-ron đồ thị Mô h¼nh m¤ng nơ-ron đồ thị được giới thi»u đầu ti¶n vào n«m 2005 [12], GNN là mët lo¤i m¤ng nơ-ron ho¤t động trực ti¸p tr¶n c§u trúc đồ thị. Với vi»c sû dụng nơ-ron như là c¡c nút trong c§u trúc m¤ng, tøng nút s³ chùa thông tin cõa ri¶ng nó và thu thªp th¶m c¡c thông tin tø c¡c nút l¥n cªn thº hi»n mèi tương quan giúa chúng trong đồ thị. C¡c nút này s³ được bè cục và k¸t hñp với nhau theo mët ki¸n trúc mô h¼nh cụ thº nào đó để tø đó đưa ra dự đoán hoặc ph¥n lo¤i k¸t qu£. Thông thường c¡i bài to¡n GNN s³ tªp trung gi£i quy¸t mët sè v§n đề như sau [13]: • Ph¥n lo¤i nút (Node classification). • Dự đoán k¸t nèi (Link prediction). • Ph¡t hi»n cụm (Clustering detection). • Ph¥n lo¤i đồ thị (Graph classification). 7
- Chương 1. Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u 1.5 Ph²p bi¸n đổi nhúng 1.5.1 Kh¡i ni»m ph²p bi¸n đổi nhúng Trong lĩnh vực học m¡y, ph²p bi¸n đổi nhúng (embedding) là mët kỹ thuªt được sû dụng để bi¸n đổi c¡c dú li»u thuëc t½nh rời r¤c, ch¯ng h¤n như tø hay danh mục, thành d¤ng c¡c véc-tơ li¶n tục trong mët không gian chi·u th§p hơn [14]. Như vªy, ph²p bi¸n đổi nhúng ¡nh x¤ méi bi¸n rời r¤c thành mët véc-tơ sè thực, có thº đưñc sû dụng làm đầu vào cho mët m¤ng nơ-ron. C¡c ph²p bi¸n đổi nhúng có thº sû dụng với nhi·u lo¤i dú li»u kh¡c nhau v½ dụ như dú li»u rời r¤c, v«n b£n, dú li»u chuéi thời gian (time series), h¼nh £nh hay đồ thị. Ph¦n ti¸p theo cõa luªn ¡n s³ tr¼nh bày mët sè kỹ thuªt nhúng được sû dụng trong c¡c chương ti¸p theo cõa luªn ¡n, bao gồm: • Kỹ thuªt nhúng dú li»u có d¤ng rời r¤c sû dụng cho m¤ng nơ-ron học s¥u truy·n th¯ng được đề xu§t trong chương 2 và chương 3. • Kỹ thuªt nhúng dú li»u có d¤ng chuéi tu¦n tự (v½ dụ như c¥u v«n b£n) sû dụng cho m¤ng nơ-ron bi¸n đổi được đề xu§t trong chương 2, hoặc dú li»u chuéi thời gian sû dụng cho m¤ng nơ-ron hồi quy. • Kỹ thuªt nhúng dú li»u có d¤ng đồ thị sû dụng cho m¤ng nơ-ron đồ thị được đề xu§t trong chương 4. 1.5.2 Ph²p bi¸n đổi nhúng với dú li»u rời r¤c Hai lo¤i dú li»u phê bi¸n nh§t là dú li»u li¶n tục và rời r¤c, được x¸p vào d¤ng dú li»u d¤ng b£ng (tabular)[15]. Dú li»u li¶n tục được biºu di¹n bởi c¡c sè thực, trong khi đó gi¡ trị rời r¤c như trường danh mục s£n ph©m được biºu di¹n bởi c¡c nh¢n chú hoặc nh¢n sè. Thực t¸ vi»c đánh nh¢n ch¿ là c¡ch biºu di¹n thuªn ti»n cho bë tø điển gi¡ trị cõa mët thuëc t½nh rời r¤c nào đó, c¡c nh¢n này thực sự không mang gi¡ trị có ½ch nào như c¡c thuëc t½nh li¶n tục. Lo¤i dú li»u này được gọi là thuëc t½nh danh mục, chúng có thº có thù tự hoặc không. Điểm lưu ý là mô h¼nh nơ-ron không phù hñp khi xû lý lo¤i dú li»u danh mục v¼ t½nh rời r¤c cõa chúng [16], do đó c¡c thuëc t½nh rời r¤c c¦n ph£i được bi¸n đổi sang d¤ng véc-tơ để thº hi»n được t½nh li¶n tục trong mi·n gi¡ trị cõa chúng. C¡c đối véc-tơ sau khi bi¸n đổi s³ giúp c£i thi»n kh£ n«ng học cõa c¡c mô h¼nh nơ-ron trong vi»c ghi nhớ sự tương quan giúa c¡c gi¡ trị rời r¤c cõa tøng thuëc t½nh cũng như mèi tương t¡c giúa c¡c thuëc t½nh. Ph²p bi¸n đổi gồm hai bước như H¼nh 1.6. H¼nh 1.6: Bi¸n đổi thuëc t½nh danh mục thành véc-tơ nhúng Ph²p bi¸n đổi nhúng thuëc t½nh (feature embedding) là kỹ thuªt x¥y dựng véc-tơ đặc trưng cho mët thuëc t½nh danh mục trong không gian đa chi·u thuëc mi·n gi¡ trị cõa nó [17]. Kỹ thuªt này t¼m c¡ch biºu di¹n và sp x¸p l¤i c¡c ph¦n tû có mùc £nh hưởng gièng nhau ở g¦n nhau để (1) t¼m ra t½nh li¶n tục cõa dú li»u trong không gian nhúng, và (2) nm bt được mèi quan h» giúa c¡c danh mục rời r¤c cõa thuëc t½nh tø đó giúp m¤ng nơ-ron học s¥u có thº học hi»u qu£ hơn. Với kỹ thuªt này, véc-tơ nhúng sau khi bi¸n đổi có sè chi·u th§p hơn và c¡c thành ph¦n cõa véc-tơ là sè thực thay v¼ ch¿ là gi¡ trị 0 và 1 như véc-tơ one-hot. 8
- Chương 1. Têng quan v· h» gñi ý và mët sè mô h¼nh m¤ng nơ-ron học s¥u 1.5.3 Ph²p bi¸n đổi nhúng với dú li»u theo chuéi tu¦n tự C¡c mô h¼nh m¤ng nơ-ron học s¥u cơ b£n (v½ dụ như m¤ng nơ-ron truy·n th¯ng) có thº xû lý tèt dú li»u d¤ng sè và danh mục tuy nhi¶n nó l¤i không xû lý được c¡c d¤ng dú li»u chuéi tu¦n tự (sequential data) v½ dụ như dú li»u chuéi tø trong c¥u hoặc chuéi thời gian. Như vªy, mô h¼nh m¤ng nơ-ron khi xû lý v«n b£n không ch¿ t½nh to¡n tøng tø trong c¥u mà cán ph£i xem x²t c¡ch c¡c tø đó xu§t hi»n theo thù tự và li¶n quan đến nhau như th¸ nào. Ý nghĩa cõa c¡c tø có thº thay đổi tùy thuëc vào c¡c tø kh¡c xu§t hi»n trước và sau chúng trong c¥u. a. Chuéi dú li»u tu¦n tự d¤ng v«n b£n Có ba kỹ thuªt bi¸n đổi k¸t hñp với ph²p nhúng như H¼nh 1.7 sû dụng m¤ng nơ-ron để xû lý dú li»u chuéi tu¦n tự: H¼nh 1.7: C¡c kỹ thuªt xû lý dú li»u chuéi dú li»u tu¦n tự cho m¤ng nơ-ron b. Chuéi dú li»u tu¦n tự d¤ng thời gian Dú li»u chuéi thời gian cũng kh¡ phê bi¸n v½ dụ như b£ng gi¡ chùng kho¡n, t½n hi»u đi»n t¥m đồ hay phùc t¤p hơn khi thu thªp t½n hi»u đa bi¸n (multivariate time series) tø c¡c thi¸t bị IoT hay điện tho¤i thông minh. Với d¤ng dú li»u chuéi thời gian này th¼ c¦n c¡c mô h¼nh m¤ng nơ-ron phù hñp hơn v½ dụ như m¤ng nơ-ron t½ch chªp CNN [18] hoặc m¤ng nơ-ron hồi quy RNN. Đặc bi»t khi c¦n ph£i làm vi»c với dú li»u chuéi thời gian đa bi¸n, kỹ thuªt ph¥n t½ch thành ph¦n ch½nh PCA (Principal Component Analysis), dù không hoàn toàn được t½nh là mët kỹ thuªt nhúng, là mët phương ph¡p r§t phê bi¸n [19] để thực hi»n vi»c ph¥n t½ch và gi£m chi·u dú li»u đa bi¸n này. 1.5.4 Ph²p bi¸n đổi nhúng với dú li»u đồ thị Kỹ thuªt nhúng với dú li»u đồ thị, gọi là ph²p nhúng đồ thị, là mët kỹ thuªt cho ph²p biºu di¹n mët đồ thị dưới d¤ng c¡c véc-tơ có sè chi·u cao. Điều này cho ph²p sû dụng c¡c thuªt to¡n học m¡y hoặc m¤ng nơ-ron phù hñp để xû lý và ph¥n t½ch c¡c thông tin trong đồ thị, ch¯ng h¤n như ph¥n lo¤i nút, dự đoán li¶n k¸t và ph¥n cụm đồ thị. Có nhi·u c¡ch thực hi»n ph²p nhúng đồ thị, v½ dụ như phương ph¡p random walk [20], deep walk [21], ph¥n t½ch ma trªn (matrix factorization)[22] và mët sè phương ph¡p kh¡c dựa tr¶n m¤ng nơ-ron học s¥u. K¸t qu£ cõa ph²p nhúng đồ thị có r§t nhi·u ùng dụng trong thực t¸, v½ dụ như ph¥n t½ch m¤ng x¢ hëi hay x¥y dựng h» thèng gñi ý. V½ dụ, nó có thº được sû dụng để ph¥n cụm c¡c người dùng tương tự trong m¤ng x¢ hëi hoặc để đề xu§t c¡c s£n ph©m tương tự cho kh¡ch hàng trong qu¡ tr¼nh mua hàng. 9
- Chương 2| Đề xu§t mô h¼nh m¤ng nơ-ron học s¥u cho bài to¡n mua hàng Chương 2 tr¼nh bày phương ph¡p ti¸p cªn gi£i Bài to¡n1, đây là bài to¡n nhị ph¥n dự b¡o kh¡ch hàng có mua hàng trong trong phi¶n làm vi»c hi»n t¤i hay không. Chương này đề xu§t sû dụng hai m¤ng nơ-ron học s¥u, gồm m¤ng nơ-ron rëng & s¥u và m¤ng nơ-ron bi¸n đổi, để học dú li»u d¤ng chuéi biºu di¹n thông tin phi¶n làm vi»c cõa kh¡ch hàng. 2.1 Ph¡t biºu bài to¡n Gi£ sû tªp dú li»u hu§n luy»n bao gồm n m¨u (X ; y), trong đó X là chuéi dú li»u được ghi nhªn với m trường thuëc t½nh li¶n quan tới kh¡ch hàng và s£n ph©m, và y 2 (0; 1) là nh¢n tương ùng với hành vi mua cõa kh¡ch hàng (y = 1 n¸u kh¡ch hàng mua s£n ph©m, và y = 0 trong trường hñp ngược l¤i). Như vªy, Bài to¡n1 là x¥y dựng mô h¼nh dự b¡o y ≈ y^ = f(x) nh¬m ước t½nh x¡c su§t cõa người dùng có mua hàng dựa vào chuéi dú li»u đầu vào hay không. 2.2 C¡c mô h¼nh đề xu§t 2.2.1 M¤ng nơ-ron học rëng và s¥u Mô h¼nh m¤ng học rëng và s¥u được đ· xu§t với thi¸t k¸ ki¸n trúc như sau: • Ph¦n Rëng: gồm 2 lớp truy·n th¯ng, với lớp đầu ra có mët nơ-ron và lớp đầu vào có sè nơ-ron x¡c định b¬ng: N = Ncat + Nnum, trong đó, N là sè nơ-ron cõa lớp đầu vào, Ncat là sè trường thuëc t½nh d¤ng danh mục và Nnum là sè cặp tương t¡c ch²o cõa c¡c trường thuëc t½nh d¤ng danh mục. • Ph¦n S¥u: gồm 6 lớp truy·n th¯ng, trong đó có 1 lớp đầu vào với sè nơ-ron b¬ng sè trường thuëc t½nh, 1 lớp nhúng, 3 lớp ©n với sè nơ-ron l¦n lượt được l§y b¬ng 400 − 400 − 400 và 1 lớp đầu ra với 1 nơ-ron. C¡c nơ-ron ©n sû dụng hàm k½ch ho¤t ReLU, nơ-ron đầu ra sû dụng hàm k½ch ho¤t sigmoid. C§u trúc mô h¼nh được sû dụng thº hi»n ở H¼nh 2.1. H¼nh 2.1: C§u trúc mô h¼nh rëng và s¥u sû dụng trong dự b¡o chuéi nh§p chuët Mô h¼nh m¤ng đề xu§t này có c¡c điểm c£i ti¸n như sau: 10
- Chương 2. Đề xu§t mô h¼nh m¤ng nơ-ron học s¥u cho bài to¡n mua hàng • Đề xu§t sû dụng ph²p nhúng với c¡c thuëc t½nh d¤ng danh mục và li¶n k¸t dú li»u với c¡c thuëc t½nh cán l¤i nh¬m t¤o ra mët véc-tơ nhúng đặc trưng cho phi¶n làm vi»c. • X¥y dựng ki¸n trúc m¤ng với mët sè lớp nơ-ron ở nh¡nh học s¥u (nh¡nh FNN). • Thực hi»n ph²p bi¸n đổi t½ch ch²o giúa mët sè cặp thuëc t½nh nh¬m t¼m ra c¡c tương t¡c ©n cõa c¡c trường thuëc t½nh. Vi»c k¸t hñp đồng thời hai kỹ thuªt học s¥u và rëng giúp cho mô h¼nh dự b¡o đưñc ch½nh x¡c hơn so với c¡c mô h¼nh ch¿ sû dụng mët kỹ thuªt. 2.2.2 M¤ng nơ-ron bi¸n đêi T¡c gi£ nghi¶n cùu đề xu§t mët ki¸n trúc Transformer c£i ti¸n b¬ng c¡ch bê sung lớp nhúng thuëc t½nh giúp mô h¼nh hu§n luy»n làm vi»c tèi ưu hơn tr¶n dú li»u d¤ng b£ng như được mô t£ ở H¼nh 2.2, gọi là mô h¼nh FE-Transformer. Mô h¼nh này đề xu§t th¶m lớp nhúng nh¬m bi¸n đổi t§t c£ c¡c thuëc t½nh gồm c£ d¤ng sè và danh mục rời r¤c thành c¡c véc-tơ nhúng, c¡c bước sau s³ ¡p dụng mët chuéi c¡c lớp Transformer cho c¡c véc-tơ nhúng đó. Do đó, méi lớp Transformer có kh£ n«ng học được c¡c đặc trưng ri¶ng bi»t trong bë dú li»u. H¼nh 2.2: Ki¸n trúc FE-Transformer Thi¸t k¸ chi ti¸t cõa hai thành ph¦n cõa ki¸n trúc FE-Transformer được biºu di¹n như ở H¼nh 2.3: (a) Lớp nhúng thuëc t½nh FE (b) Lớp bi¸n đổi H¼nh 2.3: Thi¸t k¸ lớp cho mô h¼nh FE-Transformer 11
- Chương 2. Đề xu§t mô h¼nh m¤ng nơ-ron học s¥u cho bài to¡n mua hàng 2.3 Kỹ thuªt thực nghi»m 2.3.1 Bë dú li»u thực nghi»m Ph¦n thực nghi»m này sû dụng bë dú li»u cung c§p bởi Yoochoose GmbH. 2.3.2 Xû lý và tr½ch chọn đặc trưng B£ng 2.1 li»t k¶ c¡c thuëc t½nh cơ sở đ¢ được tr½ch chọn. B£ng 2.1: Danh s¡ch c¡c thuëc t½nh tr½ch chọn I Thuëc t½nh s£n ph©m (2 thuëc t½nh) 1 Product ID Danh mục M¢ s£n ph©m 2 Cat ID Danh mục M¢ danh mục cõa s£n ph©m II Thuëc t½nh phi¶n (11 thuëc t½nh) 3 The First Product Danh mục S£n ph©m đầu ti¶n trong phi¶n 4 The Pre Product Danh mục S£n ph©m trước đó trong phi¶n 5 Session Duration Sè Độ dài cõa phi¶n 6 Current Duration Sè Thời gian t½nh tø đầu phi¶n 7 #Clicks/Session Sè Sè lượng nh§p trong phi¶n 8 #Products/Session Sè Sè lượng s£n ph©m trong phi¶n 9 #Clicks So Far Sè Sè lượng nh§p tới hi»n t¤i trong phi¶n 10 #Products So Far Sè Sè lượng s£n ph©m được nh§p tới hi»n t¤i 11 #Views of Product Sè Sè lượng views s£n ph©m này trong phi¶n 12 #Products of the same Cat Sè Sè lượng s£n ph©m trong cùng danh mục 13 #Cats Sè Sè lượng danh mục chùa cùng s£n ph©m III Thuëc t½nh thời gian chi ti¸t theo giờ, phút, gi¥y (9 thuëc t½nh) 14-16 Session Start Danh mục Thời điểm phi¶n bt đầu 17-19 The first time that product Danh mục Thời điểm đầu ti¶n lựa chọn s£n ph©m is clicked 20-22 Current Time Danh mục Thời điểm hi»n t¤i IV Thuëc t½nh boolean (4 thuëc t½nh) 23 The most clicked product Boolean S£n ph©m được click nhi·u nh§t trong phi¶n 24 The most viewed product Boolean S£n ph©m được xem nhi·u nh§t trong phi¶n 25 The first clicked product Boolean S£n ph©m được click đầu ti¶n trong phi¶n 26 The most viewed category Boolean Danh mục được xem nhi·u nh§t trong phi¶n 2.3.3 C¡ch thùc chia dú li»u Toàn bë tªp dú li»u được chia ng¨u nhi¶n theo tỷ l» 60% để hu§n luy»n, 20% để đánh gi¡ mùc độ hi»u qu£ trong qu¡ tr¼nh tèi ưu c§u trúc m¤ng, 20% để kiºm tra và so s¡nh giúa c¡c mô h¼nh m¤ng dự ki¸n trong qu¡ tr¼nh x¥y dựng c§u trúc m¤ng. B£ng 2.2: B£ng thèng k¶ sè lượng nh¢n cõa c¡c tªp dú li»u sau khi chia Dú li»u Nh¢n mua Nh¢n không mua Têng Tªp hu§n luy»n 325.966 5.593.860 5.919.826 Tªp kiºm thû 81.808 1.398.149 1.479.957 Tªp thực nghi»m 101.922 1.748.024 1.849.946 2.3.4 Độ đo đánh gi¡ mô h¼nh Nh¬m t¼m ki¸m mô h¼nh dự b¡o tèt nh§t, ph¦n thực nghi»m sû dụng c¡c ch¿ sè cơ b£n sau để ti¸n hành ph¥n t½ch đánh gi¡ c¡c c§u trúc m¤ng kh¡c nhau: • AUC (Area Under the Curve). 12
- Chương 2. Đề xu§t mô h¼nh m¤ng nơ-ron học s¥u cho bài to¡n mua hàng • Logloss (Logarithmic Loss). • Độ ch½nh x¡c (Accuracy). 2.4 K¸t qu£ thực nghi»m 2.4.1 K¸t qu£ thực nghi»m B£ng 2.3: So s¡nh hi»u qu£ giúa c¡c mô h¼nh trong dự b¡o chuéi nh§p chuët Mô h¼nh AUC Logloss Accuracy LR 0,7604 0,5842 0,6967 FNN 0,8521 0,6145 0,7789 FMNN 0,8620 0,5061 0,7814 PNN 0,8596 0,5332 0,7808 W&DNN 0,8670 0,4519 0,7826 FE-Transformer 0,7868 0,1844 0,9449 2.4.2 So s¡nh với c¡c nghi¶n cùu li¶n quan Nghi¶n cùu cũng ti¸n hành so s¡nh k¸t qu£ với nhóm Yandex Data Factory v· nh§t trong cuëc thi RecSys Challenge 2015, cùng sû dụng bë dú li»u Yoochoose [23]. Theo nghi¶n cùu này, họ sû dụng phương ph¡p k¸t hñp bao gồm: C¥y ph¥n r¢ (Gradient Boosted Deccision Tree) + M¤ng ph¥n t½ch nh¥n tû FM + Ph¥n t½ch Singular Value Decomposition (SVD) với k¸t qu£ AUC = 0,85 và độ ch½nh x¡c Accuracy = 0,77. Như vªy có thº th§y nghi¶n cùu hi»n t¤i cho k¸t qu£ tèt hơn với tài nguy¶n t½nh to¡n ½t hơn. C¡c đóng góp cõa vi»c đề xu§t và thi¸t k¸ hai m¤ng nơ-ron học s¥u như sau: • C£ hai mô h¼nh sû dụng ki¸n trúc m¤ng nơ ron học s¥u truy·n th¯ng c£i ti¸n. Mô h¼nh W&DNN sû dụng m¤ng FNN có k¸t hñp với mô h¼nh tuy¸n t½nh ở nh¡nh học rëng. Mô h¼nh FE-Transformer sû dụng lớp tự chú ý để học được c¡c đặc trưng tø c¡c thành ph¦n quan trọng trong phi¶n làm vi»c. • Mô h¼nh W&DNN sû dụng lớp nhúng ở nh¡nh s¥u và ph²p bi¸n đổi t½ch ch²o ở nh¡nh rëng, giúp cho mô h¼nh có thº nm bt được c¡c trường thuëc t½nh bªc th§p và bªc cao. Mô h¼nh FE-Transformer được c£i ti¸n với lớp nhúng thuëc t½nh FE. 2.5 K¸t luªn chương Chương này nghi¶n cùu và đề xu§t sû dụng hai mô h¼nh m¤ng nơ-ron cụ thº gồm m¤ng rëng & s¥u và m¤ng bi¸n đổi để gi£i quy¸t Bài to¡n1 nh¬m dự b¡o kh£ n«ng mua sm cõa kh¡ch hàng tr¶n cơ sở dú li»u nh§p chuët. K¸t qu£ cho th§y mô h¼nh rëng và s¥u có nhúng kh£ n«ng vượt trëi hơn: (1) không c¦n ti·n hu§n luy»n, (2) có thº học được tương t¡c bªc th§p l¨n bªc cao cõa c¡c trường thuëc t½nh, (3) tªn dụng được kh£ n«ng ghi nhớ cõa mô h¼nh tuy¸n t½nh và kh£ n«ng têng qu¡t hóa cõa m¤ng nơ-ron học s¥u vào trong cùng mët mô h¼nh. Mô h¼nh bi¸n đổi có kh£ n«ng xû lý tèt dú li»u tu¦n tự sau khi ¡p dụng mët lớp nhúng thuëc t½nh. K¸t qu£ nghi¶n cùu cõa mô h¼nh học s¥u và rëng được công bè ở công tr¼nh [A-1], và mô h¼nh bi¸n đổi được gûi đi công bè ở công tr¼nh [A-8] (đº đảm b£o t½nh đa d¤ng trong thực nghi»m, công tr¼nh [A-8] sû dụng bë dú li»u kh¡c so với Luªn ¡n này). Mët k¸t luªn quan trọng cho Bài to¡n1 là tø k¸t qu£ thu được cho th§y vi»c dự b¡o hành vi mua cõa kh¡ch hàng với độ ch½nh x¡c cao có thº đưñc thực hi»n b¬ng c¡ch ch¿ dựa tr¶n ph¥n t½ch chuéi nh§p chuët trong phi¶n làm vi»c hi»n t¤i, mà không c¦n x²t đến thông tin qu¡ khù cõa người sû dụng. 13
- Chương 3| Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị cho bài to¡n top-k Chương 3 tr¼nh bày c¡ch thùc ti¸p cªn gi£i quy¸t Bài to¡n2 trong vi»c x¥y dựng mô h¼nh gñi ý top − k. Cụ thº chương này đề xu§t biºu di¹n dú li»u phi¶n làm vi»c dưới d¤ng đồ thị, tø đó nghi¶n cùu đề xu§t sû dụng m¤ng nơ-ron đồ thị đº x¥y dựng bài to¡n SR gñi ý top − k. 3.1 Ph¡t biºu bài to¡n Bài to¡n top − k là mët h» thèng gñi s£n ph©m (v½ dụ như bë phim, b£n nh¤c hay s£n ph©m khi mua hàng ) cho người dùng dựa tr¶n tương t¡c cõa họ và c£ cõa người kh¡c với h» thèng. H» thèng gñi ý s³ x¸p h¤ng t§t c£ c¡c s£n ph©m đề xu§t theo thù tự gi£m d¦n cõa x¡c xu§t kh£ n«ng được người dùng lựa chọn, và s³ giới h¤n tr£ v· top − k s£n ph©m được đề xu§t. 3.2 Đề xu§t thi¸t k¸ đồ thị 3.2.1 Biºu di¹n phi¶n làm vi»c b¬ng đồ thị Mët phi¶n làm vi»c s có thº được biºu di¹n b¬ng mët đồ thị có hướng Gs = (Vs;Es). Trong đó, méi đỉnh thº hi»n là s£n ph©m vs;i 2 V (V là tªp đỉnh têng thº cõa toàn bë h» thèng). Minh họa biºu di¹n đồ thị tø c¡c phi¶n làm vi»c sk được thº hi»n như H¼nh 3.1. v1 v2 v5 Phi¶n s1 v1 ! v2 ! v4 ! v3 Phi¶n s2 v1 ! v2 ! v5 ! v4 v6 v4 Phi¶n s3 v2 ! v5 ! v6 ! vn Phi¶n s v ! v ! v ! v vn k 5 4 3 6 v 3 (a) Danh s¡ch c¡c phi¶n làm vi»c (b) Đồ thị biºu di¹n H¼nh 3.1: Minh họa biºu di¹n phi¶n làm vi»c b¬ng đồ thị Tương tự như đồ thị, khi biºu di¹n phi¶n làm vi»c dưới d¤ng đồ thị, ta có mët sè định nghĩa: Định nghĩa 11. (độ dài đường đi cục bë) Gi£ sû vi và vj là 2 s£n ph©m b§t kỳ được nh§p trong phi¶n s với thù tự nh§p l¦n lượt là x và y với x < y. Độ dài đường đi tø nh§p vi tới nh§p vj trong phi¶n làm vi»c s ký hi»u là ps(vi; vj) thỏa m¢n công thùc: ps(vi; vj) = y − x Định nghĩa 12. (p-nh§p) Hai nh§p vào s£n ph©m vi và vj trong mët phi¶n làm vi»c s được gọi là p-nh§p n¸u thành ph¦n vj được nh§p sau vi đúng p l¦n nh§p trong phi¶n làm vi»c s. Nói c¡ch kh¡c, hai nh§p vi và vj trong mët phi¶n làm vi»c s là p-nh§p n¸u và ch¿ n¸u ps(vi; vj) = p. Định nghĩa 13. (nh§p k·) Hai nh§p vào s£n ph©m vi và vj trong mët phi¶n làm vi»c s được gọi là nh§p k· n¸u thành ph¦n vj được nh§p ngay sau vi trong phi¶n làm vi»c s. Nói c¡ch kh¡c, hai nh§p vi và vj trong mët phi¶n làm vi»c s là nh§p k· n¸u và ch¿ n¸u ps(vi; vj) = 1. Định nghĩa 14. (trọng sè nh§p k·) Hai nh§p vào s£n ph©m vi và vj trong mët phi¶n làm vi»c s có trọng sè là sè lượng nh§p k· t¤o bởi 2 s£n ph©m vi và vj trong phi¶n làm vi»c s, được ký hi»u vi;vj là ws . Trọng sè này được gọi là trọng sè nh§p k·. 14
- Chương 3. Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị cho bài to¡n top-k Định nghĩa 15. (trọng sè p-nh§p) Hai nh§p vào s£n ph©m vi và vj trong mët phi¶n làm vi»c s có trọng sè là sè lượng p-nh§p t¤o bởi 2 s£n ph©m vi và vj trong phi¶n làm vi»c s, được ký hi»u vi;vj là ws;p . Trọng sè này được gọi là trọng sè p-nh§p. Định nghĩa 16. (đường đi toàn cục) Mët đường đi P tø nh§p v1 tới nh§p vk mà ở đó c¡c nh§p v1 tới vk có thº n¬m ở nhi·u phi¶n kh¡c nhau, th¼ đường đi toàn cục giúa 2 nh§p đó ch½nh là đường đi giúa 2 đỉnh ở đồ thị têng thº G biºu di¹n toàn bë tªp phi¶n làm vi»c, ký hi»u là P (v1; vk). C¥u hỏi đặt ra là: ”Với tªp đỉnh V = fv1; v2; :::; vng có sè lượng n s£n ph©m cè định th¼ khi biºu di¹n đồ thị têng thº G c¦n x¥y dựng tªp c¤nh E và trọng sè c¤nh như th¸ nào cho hi»u qu£?”. 3.2.2 Đề xu§t thi¸t k¸ đồ thị Ph¦n này đề xu§t mët sè phương ¡n x¥y dựng đồ thị G tø tªp danh s¡ch phi¶n làm vi»c cõa c¡c kh¡ch hàng. Cụ thº t¡c gi£ đề xu§t 3 d¤ng đồ thị sau: a. Đồ thị G n×n vi;vj Gọi G là mët đồ thị tho£ m¢n ma trªn k· MG 2 R với MG là sè l¦n s£n ph©m vj được nh§p k· ngay sau khi nh§p s£n ph©m vi trong mët phi¶n. Ta có: vi;vj X vi;vj MG = ws ; 8s (3.1) s vi;vj trong đó ws là ”trọng sè nh§p k· ” cõa 2 đ¿nh vi, vj trong phi¶n làm vi»c s. b. Đồ thị H n×n vi;vj Gọi H là mët đồ thị tho£ m¢n ma trªn k· MH 2 R với MH là sè l¦n s£n ph©m vj được nh§p sau khi nh§p s£n ph©m vi trong mët phi¶n. Ta có: jsj vi;vj X X vi;vj MH = ws;p ; 8s (3.2) s p=0 vi;vj trong đó ws;p là ”trọng sè p-nh§p” cõa 2 đ¿nh vi, vj trong phi¶n làm vi»c s. c. Đồ thị K Gi£ sû c là sè lượng nh§p nhi·u nh§t cõa mët phi¶n trong tªp dú li»u. Gọi K là mët đồ thị tho£ n×n×c vi;vj m¢n khèi ma trªn k· MK 2 R với MK [p] là têng sè l¦n s£n ph©m vj được nh§p sau khi nh§p s£n ph©m vi đúng p l¦n nh§p trong mët phi¶n. Ta có: vi;vj X vi;vj MK [p] = ws;p (3.3) s 3.3 C¡c mô h¼nh đề xu§t 3.3.1 M¤ng nơ-ron truy·n th¯ng (FNN ) Ph¦n này đề xu§t sû dụng m¤ng nơ-ron truy·n th¯ng FNN như ở chương 2 nhưng gi£i quy¸t Bài to¡n2 là x¥y dựng mô h¼nh gñi ý top − k thay v¼ Bài to¡n1. a. Lớp nhúng s£n ph©m Luªn ¡n đề xu§t x¥y dựng lớp nhúng s£n ph©m như H¼nh 3.2. Lớp nhúng này s³ được dùng làm lớp cở sở để x¥y dựng mët sè mô h¼nh kh¡c nhau trong luªn ¡n này. 15
- Chương 3. Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị cho bài to¡n top-k c c * n n * 256 c * 256 id1 x1 w1 e1 id2 x2 w2 e2 . . . . . . . . . . . . One hotencoding idc xc wn ec ID X W E H¼nh 3.2: Lớp nhúng s£n ph©m (Layer.ItemEmbed) b. Mô h¼nh m¤ng nơ-ron truy·n th¯ng c x 1 c x q q=256 id1 e1 n x 1 id2 e2 Flatten . . y .ItemEmbed) Softmax Dense . . . Lớp nhúng . (Layer n = 52069 idc ec H¼nh 3.3: Mô h¼nh FNN cơ sở 3.3.2 M¤ng nơ-ron đồ thị (GNN ) a. Mô h¼nh m¤ng nơ-ron cho đồ thị G và H c x 1 d x c d x c id1 z1 p1 d x 1 id2 z2 p2 . . . y Graph . . . Softmax . . Norm Layer . idc zc pc Fully ConnectedLayer H¼nh 3.4: Mô h¼nh m¤ng nơ-ron cho đồ thị G và H b. Mô h¼nh m¤ng nơ-ron cho đồ thị K Để c£i ti¸n mô h¼nh m¤ng nơ-ron đồ thị khi ph£i làm vi»c với đồ thị đa quan h» K với trọng sè c¤nh là véc-tơ c chi·u, luªn ¡n đề xu§t sû dụng th¶m mët lớp học s¥u như H¼nh 3.5. c x 1 d x c x c d x c d x c id1 v1 z1 p1 d x 1 id2 v2 z2 p2 . . . . y Graph K . . . . Softmax Norm Layer . . Depth Layer . . idc vc zc pc Fully ConnectedLayer H¼nh 3.5: Mô h¼nh m¤ng nơ-ron cho đồ thị K 16
- Chương 3. Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị cho bài to¡n top-k 3.4 Kỹ thuªt thực nghi»m 3.4.1 Ti·n xû lý dú li»u Bë dú li»u sau bước ti·n xû lý được mô t£ ở B£ng 3.1. B£ng 3.1: Thèng k¶ v· bë dú li»u nh§p Yoochoose sau khi ti·n xû lý Bë hu§n luy»n Bë kiºm tra Têng Sè lượng phi¶n 7.990.018 1.996.408 9.986.426 Sè lượng s£n ph©m 52.069 38.733 52.069 Sè lượng nh§p 31.744.233 7.926.322 39.670.555 Sè nh§p lớn nh§t 200 200 200 Sè nh§p nhỏ nh§t 2 2 2 Sè nh§p trung b¼nh 3,97 3,97 3,97 Biºu đồ ph¥n bè sè lưñng phi¶n được nh§p tø 1 tới 10 l¦n ở H¼nh 3.6, do sè lượng phi¶n có nh§p lớn hơn 10 r§t nhỏ n¶n không c¦n thº hi»n trong biºu đồ này: B hu n luy n n (%) 4 B ki m tra 80 u) n luy 3 60 hu 2 40 ng phiên (tri p trên b p trên l nh S 1 20 4 nh p - 11.721% 0 0 Phân b 2 3 4 5 6 7 8 9 10 S l ng nh p m i phiên H¼nh 3.6: Biºu đồ ph¥n bè sè lượng nh§p chuët (sau khi ti·n xû lý) 3.4.2 Chu©n hóa dú li»u hu§n luy»n C¡c phi¶n dú li»u trong bë dú li»u gèc có sè lượng nh§p kh¡c nhau n¶n không thº dùng ngay cho c¡c mô h¼nh ph¥n lo¤i. Để có được dú li»u đào t¤o phù hñp cho c¡c mô h¼nh, t¡c gi£ đề xu§t mët sè thuªt to¡n chu©n hóa dú li»u hu§n luy»n theo đúng ti¶u chu©n đ¦u vào đã được thi¸t k¸ cho c¡c mô h¼nh đề xu§t. a. Chu©n hóa dú li»u hu§n luy»n cho mô h¼nh FNN Mô h¼nh FNN là mô h¼nh cơ sở không sû dụng đồ thị, v¼ vªy thuªt to¡n chu©n hóa dú li»u kh¡ đơn gi£n và được thº hi»n như mô h¼nh 3.7: Gi£ m¢ cõa c¡c bước chu©n hóa dú li»u tr¶n được mô t£ t¤i Thuªt to¡n 3.1: b. Chu©n hóa dú li»u hu§n luy»n cho mô h¼nh GNN Để có nhúng véc-tơ chu©n đầu vào cho c¡c mô h¼nh sû dụng đồ thị, c¡c bước chu©n hóa được mô t£ như H¼nh 3.8 với méi phi¶n cõa tøng đồ thị. Gi£ m¢ cõa c¡c bước chu©n hóa dú li»u tr¶n được mô t£ t¤i Thuªt to¡n 3.2: 3.4.3 Độ đo đánh gi¡ mô h¼nh Đề xu§t c¡c độ đo Recall@k, MRR@k và ACCs@k để đánh gi¡ h» gñi ý top − k. 17
- Chương 3. Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị cho bài to¡n top-k s1 id1 s2 id2 x s3 id3 . id4 . . id5 Ánh xạđỉnhvàchuẩnhóa . sc-1 . y . sc idc' Mã hóaOnehot H¼nh 3.7: Mô h¼nh chu©n hóa dú li»u hu§n luy»n cho mô h¼nh FNN Algorithm 3.1: Thuªt to¡n NORM.FNN: Chu©n hóa dú li»u hu§n luy»n cho mô h¼nh FNN Input: s = fid1; id2; :::; idcg Output: Dú li»u đầu vào hu§n luy»n là x và đầu ra hu§n luy»n y 0 1 c c; 0 2 while c < 5 do 3 Th¶m vào cuèi s mët nh§p None; 0 0 4 c c + 1; 5 x fid1; id2; id3; id4g; 6 Z fid5; id6; :::; idc0 g; 7 y OneHotEncoding(Z) 4 n×2 8 return x 2 R , y 2 R ; s1 id1 v1 s2 id2 v2 x s3 id3 Đồ thị v3 . id4 v4 . . id5 Ánh xạđỉnhvàchuẩnhóa . s . c-1 y . sc idc' Mã hóaOnehot H¼nh 3.8: Mô h¼nh chu©n hóa dú li»u hu§n luy»n cho c¡c mô h¼nh GNN n−1 i i 1 X jSpred \ Slabelsj Recall@k = (3.4) n jSi j i=0 labels n−1 1 X MRR@k = RR(idi ;Si ) (3.5) n ∗ pred i=0 18
- Chương 3. Đề xu§t mô h¼nh m¤ng nơ-ron đồ thị cho bài to¡n top-k Algorithm 3.2: Thuªt to¡n NORM.GNN: Chu©n hóa dú li»u dú li»u hu§n luy»n cho c¡c mô h¼nh GNN Input: s = fid1; id2; id3; :::; idc−1; idcg Output: Dú li»u đầu vào hu§n luy»n là x và đầu ra hu§n luy»n y 0 1 c c; 0 2 while c < 5 do 3 Th¶m vào cuèi s mët nh§p None; 0 0 4 c c + 1; 5 x fg; 6 for i 1 to 4 by 1 do 7 if idi == None then 8 vi vec-tơ toàn 0; 9 else 10 vi vec-tơ trọng sè cõa đỉnh idi trong đồ thị; 11 Th¶m vi vào x 12 Z fid5; id6; :::; idc0 g; 13 y OneHotEncoding(Z) 4 n×2 14 return x 2 R , y 2 R ; n−1 1 X ACCs@k = min(1; jSi \ Si j) (3.6) n pred labels i=0 3.5 K¸t qu£ và nhªn x²t H¼nh 3.9 biºu di¹n k¸t qu£ cõa c¡c mô h¼nh sû dụng trong qu¡ tr¼nh thực nghi»m. 0.8 0.8 0.8 k= 1 0.7 0.7 0.7 k= 5 k= 10 0.6 0.6 0.6 k= 20 0.5 0.5 0.5 MRR@k ACCs@k Recall@k 0.4 k= 1 0.4 k= 1 0.4 k= 5 k= 5 0.3 k= 10 0.3 k= 10 0.3 k= 20 k= 20 0.2 0.2 0.2 GNN.K GNN.K GNN.K GNN.H GNN.H GNN.H GNN.G GNN.G GNN.G FNN.Base FNN.Base FNN.Base H¼nh 3.9: Biºu đồ k¸t qu£ so s¡nh c¡c mô h¼nh GNN với FNN 3.6 K¸t luªn chương Chương này t¡c gi£ đề xu§t thi¸t k¸ 3 đồ thị kh¡c nhau gồm đồ thị đơn G, đồ thị đơn H và đồ thị đa quan h» K. C¡c đồ thị này kh¡c nhau v· c¡ch thùc thi¸t k¸ tªp c¤nh và trọng sè c¤nh trong vi»c biºu di¹n méi quan h» giúa c¡c nh§p, bao gồm c£ quan h» trong phi¶n làm vi»c cục bë và giúa c¡c phi¶n làm vi»c toàn cục trong tªp dú li»u. K¸t qu£ thực nghi»m cho th§y mô h¼nh GNN k¸t hñp với đồ thị biºu di¹n phi¶n làm vi»c cho k¸t qu£ r§t kh£ quan so với mô h¼nh m¤ng nơ-ron truy·n th¯ng FNN không dùng đồ thị. K¸t luªn cõa chương kh¯ng định m¤ng nơ-ron đồ thị GNN hoàn toàn có thº được sû dụng để x¥y dựng h» thèng gñi ý top − k. 19
- Chương 4| Đề xu§t c£i ti¸n mô h¼nh GNN với ph²p nhúng Với k¸t qu£ đạt được ở Chương 3 cho Bài to¡n2 b¬ng c¡ch biºu di¹n phi¶n làm vi»c dưới d¤ng đồ thị, tuy nhi¶n v¨n có mët th¡ch thùc đặt ra là mô h¼nh đ· xu§t ph£i xû lý bài to¡n đa nh¢n với sè lượng nh¢n tương đương với sè lượng đỉnh cõa đồ thị là r§t lớn. 4.1 Th¡ch thùc cõa bài to¡n ph¥n lo¤i đa nh¢n Ph¥n lo¤i đa nh¢n là mët v§n đề khó kh«n trong m¡y học do nhi·u lý do như sự phụ thuëc giúa nh¢n, không gian nh¢n lớn, dú li»u m§t c¥n b¬ng và tr½ch xu§t đặc trưng. 4.2 Phương ph¡p nhúng đồ thị Định nghĩa 17. Ph²p nhúng đồ thị. Ph²p nhúng đồ thị là mët kỹ thuªt để biºu di¹n mët đồ thị dưới d¤ng c¡c v²c-tơ có sè chi·u cao với mục đích hé trñ c¡c thuªt to¡n học m¡y xû lý và ph¥n t½ch thông tin cõa đồ thị, v½ dụ như ph¥n lo¤i nút, dự đo¡n li¶n k¸t và ph¥n cụm đồ thị. 4.2.1 Ph²p bi¸n đổi nhúng đỉnh Ph²p bi¸n đổi nhúng để bi¸n đổi mët đỉnh v 2 V vào mët không gian nhúng d chi·u để t¤o ra c¡c véc-tơ nhúng đ¿nh trong không gian mới _ 2 Rd, được minh họa như H¼nh 4.1. H¼nh 4.1: Ph²p bi¸n đổi nhúng đỉnh 4.2.2 Ph²p bi¸n đổi nhúng đồ thị Ph²p bi¸n đổi nhúng đồ thị là ph²p bi¸n đổi mët nhóm đỉnh có li¶n quan với nhau vào mët không gian nhúng d chi·u để t¤o ra c¡c véc-tơ nhúng trong không gian mới _ 2 Rd, được minh họa như H¼nh 4.2. H¼nh 4.2: Ph²p bi¸n đổi nhúng đồ thị con 4.3 Đề xu§t c£i ti¸n mô h¼nh GNN.K 4.3.1 Chuyºn đổi bài to¡n đa nh¢n thành nhị ph¥n T¡c gi£ đề xu§t th¶m mô h¼nh nhị ph¥n để đánh gi¡ th¶m mùc độ hi»u qu£ giúa mô h¼nh đa nh¢n và mô h¼nh nhị ph¥n. Đº bi¸n đổi mët mô h¼nh đa nh¢n thành mô h¼nh nhị ph¥n chúng ta đưa nh¢n vào đầu vào để mô h¼nh tr£ lời ”có” hoặc ”không” với nh¢n đó. 4.3.2 Đề xu§t m¤ng nơ-ron truy·n th¯ng nhị ph¥n T¡c gi£ đº xu§t chuyºn đổi thành mô h¼nh nhị ph¥n thông qua vi»c ti¸p tục sû dụng lớp nhúng s£n ph©m Layer.ItemEmbed như mô h¼nh FNN cơ sở tuy nhi¶n có điểm kh¡c bi»t là đưa th¶m 20
- Chương 4. Đề xu§t c£i ti¸n mô h¼nh GNN với ph²p nhúng ∗ thành ph¦n nh¢n id và k¸t hñp ch²o với tøng thành ph¦n idi cõa dú li»u đầu vào. Mô h¼nh đề xu§t được mô t£ như ở H¼nh 4.3. 2 x q 1024 q=256 5 e 5 x q 1 z1 Flatten q 4 x q id1 e1 e* Dense Block z d1 2 2 e2 id2 e2 Flatten q y d z3 1 e* 2 Dense Block Flatten id3 e3 .ItemEmbed) . Softmax e . y2 Lớp nhúng 3 d Dense Block - 2 Dense Block - 32 3 Dense Block - 64 Dense Block - 128 Dense Block - 256 . Dense Block - 512 (Layer Flatten q id e 4 4 e* Dense Block z d4 1023 id* e* e4 Flatten q z1024 e* Dense Block H¼nh 4.3: Mô h¼nh FNN nhị ph¥n (F NN:bin) 4.3.3 Đề xu§t mô h¼nh nhúng đồ thị K nhị ph¥n a. Đề xu§t lớp nhúng phi¶n k¸t hñp Trước ti¶n, luªn ¡n đề xu§t kỹ thuªt nhúng đồ thị biºu di¹n phi¶n làm vi»c b¬ng c¡ch k¸t hñp mô h¼nh FNN.bin (H¼nh 4.3) sû dụng lớp nhúng s£n ph©m Layer.ItemEmbed và lớp nhúng đồ thị K, trong đó lớp nhúng đồ thị K cũng sû dụng kỹ thuªt nhúng ch²o k¸t hñp nh¢n id∗ với tøng thành ph¦n idi. Lớp nhúng phi¶n đề xu§t với t¶n gọi Layer:SessionEmbed được thi¸t k¸ như H¼nh 4.4. b. Đề xu§t mô h¼nh Mô h¼nh đề xu§t có t½nh phùc t¤p v¼ t½ch hñp nhi·u c£i ti¸n qua nhúng mô h¼nh thû nghi»m để xû lý cho bài to¡n đa nh¢n có không gian nh¢n lớn bao gồm: (1) bi¸n đổi nhị ph¥n; (2) biºu di¹n đồ thị; (3) nhúng đồ thị k¸t hñp với nhúng nh¢n. Mô h¼nh gñi ý được đề xu§t có c§u trúc nhị ph¥n như H¼nh 4.5. 4.4 Kỹ thuªt thực nghi»m 4.4.1 Chu©n hóa dú li»u hu§n luy»n Thuªt to¡n chu©n hóa dú li»u hu§n luy»n được mô t£ như sau cho méi phi¶n ùng với đồ thị K được mô t£ t¤i Thuªt to¡n 4.1: 4.5 K¸t qu£ và nhªn x²t 4.5.1 K¸t qu£ thực nghi»m H¼nh 4.6 biºu di¹n k¸t qu£ têng hñp cõa k 2 [1; 5; 10; 20] trong cùng mët biºu đồ để ti»n so s¡nh k¸t qu£. K¸t qu£ cho th§y mô h¼nh nhúng với đồ thị K (GNN.Bin.K ) cao hơn h¸t c¡c mô h¼nh dùng m¤ng nơ-ron kh¡c. 21
- Chương 4. Đề xu§t c£i ti¸n mô h¼nh GNN với ph²p nhúng 2 x q 5 x q e1 Flatten q 4 x q e 1 e* q=256 DenseBlock d1 e2 e2 Flatten q d e* 2 DenseBlock 1024 e3 .ItemEmbed) 5 z1 e3 Lớp nhúng d3 4 x q (Layer Flatten q id 1 e4 e* Dense Block x1 z2 d4 id 2 e* e4 x Flatten q 2 z3 e* Flatten id3 Dense Block . MatMul x3 . 4 x 4 4 x 4 . id4 v s 1 1 x4 z1023 Graph K id* v2 s2 z1024 v3 s3 Depth-Layer s v4 4 H¼nh 4.4: Lớp nhúng phi¶n với đồ thị K (Layer:SessionEmbed) Algorithm 4.1: Thuªt to¡n NORM.GNN.Bin: Chu©n hóa dú li»u hu§n luy»n cho mô h¼nh GNN nhị ph¥n Input: s = fid1; id2; :::; idcg //phi¶n lựa chọn nid∗ //sè lượng đỉnh c¦n c¦n quan s¡t xem có ph£i là nh¢n không Output: Dú li»u đầu vào hu§n luy»n là x và đầu ra hu§n luy»n y 0 1 c c; 0 2 while c < 5 do 3 Th¶m vào cuèi s mët nh§p None; 0 0 4 c c + 1; 5 Z id5; id6; :::; idc0 ; 6 I tªp chùa nid∗ đỉnh k· cõa c¡c đỉnh ng¨u nhi¶n trong phi¶n, ưu ti¶n đỉnh có trong c¡c fid5; id6; :::; idc0 g; //lưu ý bỏ c¡c đỉnh có gi¡ trị là None. 7 for đỉnh o 2 I do o o o o o o 8 x fv1; v2; v3; v4g với vi là trọng sè c¤nh nèi tø đỉnh idi đến đỉnh o; o 9 y f0; 1g; //nh¢n true 10 if o 62 Z then o 11 y f1; 0g //nh¢n false o n ∗ ×4 12 x fx jo 2 Ig 2 R id ; o n ∗ ×2 13 y fy jo 2 Ig 2 R id ; 14 return x, y; 22
- Chương 4. Đề xu§t c£i ti¸n mô h¼nh GNN với ph²p nhúng 1024 5 z1 id1 2 z2 id2 y1 z3 id 3 . . .SessionEmbed Softmax Lớp nhúng . id y2 4 Dense Block - 2 Dense Block - 64 Dense Block - 32 Layer Dense Block - 128 Dense Block - 512 Dense Block - 256 z1023 id* z1024 H¼nh 4.5: Mô h¼nh nhúng nhị ph¥n với đồ thị K (GNN:Bin:K) 0.8 0.8 0.8 k= 1 k= 1 0.7 k= 5 0.7 0.7 k= 5 k= 10 k= 10 0.6 k= 20 0.6 0.6 k= 20 0.5 0.5 0.5 MRR@k ACCs@k Recall@k 0.4 0.4 k= 1 0.4 k= 5 0.3 0.3 k= 10 0.3 k= 20 0.2 0.2 0.2 GNN.K GNN.K GNN.K FNN.Bin FNN.Bin FNN.Bin FNN.Base FNN.Base FNN.Base GNN.Bin.K GNN.Bin.K GNN.Bin.K H¼nh 4.6: So s¡nh GNN:Bin:K với c¡c mô h¼nh kh¡c 4.6 K¸t luªn chương K¸t luªn ph²p bi¸n đổi nhúng đồ thị là kỹ thuªt quan trọng để x¥y dựng h» thèng gñi ý top−k, đặc bi»t với c¡c bài to¡n li¶n quan đến vi»c biºu di¹n mèi tương t¡c giúa người dùng khi lựa chọn s£n ph©m trong phi¶n làm vi»c dưới d¤ng đồ thị. B¬ng c¡ch học c¡ch biºu di¹n đồ thị sang mët chi·u không gian nhúng mới để nm bt c¡c đặc trưng ti·m ©n cõa c¡c v²c-tơ nhúng phi¶n, mô h¼nh gñi ý top − k ho¤t động hi»u qu£ hơn. K¸t qu£ thực nghi»m trong chương này đã chùng minh mô h¼nh đề xu§t đạt được hi»u su§t tèt với 3 c£i ti¸n gồm (1) chuyºn đêi mô h¼nh nhị ph¥n, (2) đề xu§t lớp nhúng đồ thị biºu di¹n phi¶n làm vi»c và (3) thi¸t k¸ k¸t hñp nhúng nh¢n. 23
- K¸t luªn 1 K¸t luªn chung Luªn ¡n đề xu§t sû dụng đồ thị để biºu di¹n dú li»u chuéi sự ki»n nh§p chuët mua hàng, gồm ba đồ thị G, H, và K với c¡c độ phùc t¤p kh¡c nhau để đánh gi¡ mùc độ hi»u qu£ cõa c¡c mô h¼nh dự b¡o top − k. Với c¡c đồ thị biºu di¹n dú li»u, t¡c gi£ đề xu§t sû dụng m¤ng nơ-ron đồ thị GNN để làm mô h¼nh dự b¡o. 2 K¸t qu£ đạt được Mët sè nhªn x²t v· k¸t qu£ cõa m¼nh so với c¡c nghi¶n cùu trước đây: 3 Luªn ¡n nghi¶n cùu và đề xu§t mô h¼nh m¤ng nơ-ron học s¥u cho Bài to¡n1 và m¤ng nơ-ron đồ thị cho Bài to¡n2. Trong đó Bài to¡n1 là bài to¡n nhị ph¥n và Bài to¡n2 là bài to¡n đa nh¢n top − k. 3 Luªn ¡n này sû dụng c£ tªp dú li»u hu§n luy»n và kiºm thû tø bë dú li»u gèc với sè lượng s£n ph©m, tùc sè lượng nh¢n, l¶n tới hơn 52 ngh¼n. ➜ C¡c nghi¶n cùu trước đây không sû dụng bë dú li»u kiºm thû ri¶ng bi»t, mà tr½ch ra tø tªp dú li»u hu§n luy»n. 3 Luªn ¡n này đề xu§t và x¥y dựng mô h¼nh GNN có t½nh mở rëng cao khi ho¤t động với đồ thị với hơn 52 ngh¼n đỉnh. Luªn ¡n đề xu§t thi¸t k¸ đồ thị G với kh¡i ni»m nh§p k·, đồ thị H sû dụng trọng sè c¤nh là đường đi giúa c¡c nh§p trong phi¶n làm vi»c, và đồ thị K với trọng sè c¤nh là mët véc-tơ c chi·u. ➜ Mët sè nghi¶n cùu li¶n quan tr¼nh bày không thº ch¤y được mô h¼nh với bë dú li»u đầy đủ, do đó họ ph£i thực nghi»m với bë dú li»u nhỏ hơn với sè lượng nh¢n thªm ch½ cán ½t hơn. 3 Mô h¼nh đề xu§t cho k¸t qu£ Recall@20 là 0,712 và MRR@20 là 0,363 ➜ K¸t qu£ tr¶n là tèt hơn nghi¶n cùu cõa Kiewan có Recall@20 là 0,691 và cõa Tan có Recall@20 là 0,680 và tèt hơn h¯n nghi¶n cùu đầu ti¶n cõa Bal¡zs Hidas với Recall@20 là 0,632. 3 C¡c đóng góp ch½nh cõa luªn ¡n Luªn ¡n này có c¡c đóng góp ch½nh sau: • Sû dụng đồ thị để mô h¼nh hóa hành vi mua sm cõa kh¡ch hàng thông qua chuéi nh§p chuët trong phi¶n làm vi»c, bao gồm c£ đồ thị đơn và đa quan h» • Đề xu§t mô h¼nh m¤ng nơ-ron học s¥u cho Bài to¡n1 và m¤ng nơ-ron đồ thị cho Bài to¡n2. Với Bài to¡n2, luªn ¡n đề xu§t thi¸t k¸ ba đồ thị G, H và K. Với đồ thị đa quan h» K sû dụng trọng sè c¤nh là mët véc-tơ, luªn ¡n đề xu§t sû dụng th¶m mët lớp học s¥u tuy¸n t½nh cho ph²p m¤ng GNN có thº học được đồ thị này hi»u qu£ hơn. • Đề xu§t thuªt to¡n nhúng đồ thị cho ph²p mô h¼nh GNN có thº học được c¡c thuëc t½nh ©n cõa hành vi cõa người dùng trong qu¡ tr¼nh lựa chọn c¡c danh mục s£n ph©m trong phi¶n làm vi»c hi»n t¤i. 24
- DANH MỤC CÁC BÀI BÁO ĐÃ XUẤT BẢN LIÊN QUAN ĐẾN LUẬN ÁN 1. Khang Nguyen, Anh V. Nguyen, Lan N. Vu, Nga T. Mai, and Binh P. Nguyen, ”An Efficient Deep Learning Method for Customer Behaviour Prediction Using Mouse Click Events”, Proceedings of the 11th National Conference on Fundamental and Applied Information Technology Research (FAIR’2028), 2018, pp.10, Vietnam, doi = 10.15625/vap.2018.0002. 2. Khang Nguyen, Nga T. Mai, An H. Nguyen, and Binh P. Nguyen, ”Prediction of Wart Treatment Using Deep Learning with Implicit Feature Engineering”, Soft Computing for Biomedical Applications and Related Topics, Springer International Publishing, 2020, pp.153–168, doi = 10.1007/978-3-030-49536-7_14. 3. Nguyễn Tuấn Khang, Nguyễn Viết Việt, Nguyễn Hải An, Mai Sơn, Mai Thúy Nga, và Nguyễn Việt Anh, ”Phát hiện giao dịch thẻ gian lận sử dụng mô hình học sâu”, hội thảo quốc gia lần thứ XXIII, 2020, pp.335 4. Nguyễn Tuấn Khang, Mai Thúy Nga, Nguyễn Hải An, và Nguyễn Việt Anh, ”Phân Tích Hành Vi Khách Hàng Với Mô Hình Mạng Học Sâu Đồ Thị”, hội thảo quốc gia lần thứ XXIV, 2021, p.439 5. Nguyễn Tuấn Khang, Nguyễn Tú Anh, Mai Thúy Nga, Nguyễn Hải An, và Nguyễn Việt Anh, ”Hệ Gợi Ý Mua Sắm Dựa Theo Phiên Làm Việc Với Mô Hình Mạng Học Sâu Đồ Thị”, chuyên san Các công trình nghiên cứu, phát triển và ứng dụng CNTT và Truyền thông, Bộ Thông tin và Truyền thông, 2022, vol. 2022, no. 02. 6. Khang Nguyen, Viet V. Nguyen, Nga T. Mai, An H. Nguyen, and Anh V. Nguyen, ”Behavioral gait recognition using hybrid Convolutional Neural Networks”, Journal of Computer Science and Cybernetics, 2023 7. Khang Nguyen, Nga T. Mai, An H. Nguyen, and Anh V. Nguyen, ”A Computational Model for Predicting Customer Behaviors Using Transformer Adapted with Tabular Features”, International Journal of Computational Intelligence Systems, vol. 16, no. 1, pp. 1–8, 2023, doi = 10.1007/s44196-023-00307-5. 8. Khang Nguyen, Anh T. Nguyen, Nga T. Mai, An H. Nguyen, and Anh V. Nguyen, ”Developing Advanced Product Recommendation System using Embedding Graph Neural Networks”, Applied Intelligence, Springer, 2023 (bài đang nộp)