Nghiên cứu cải tiến một số phương pháp phân tích quan điểm mức khía cạnh dựa trên học máy

pdf 126 trang lethuy22 04/04/2025 180
Bạn đang xem 30 trang mẫu của tài liệu "Nghiên cứu cải tiến một số phương pháp phân tích quan điểm mức khía cạnh dựa trên học máy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfLuan an Nguyen Thi Ngoc Tu.pdf
  • docxNCS. NTNTu-HV Trang thông tin đóng góp mới TV TA.docx
  • pdfTrang thông tin đóng góp mới TA và TV_0001.pdf
  • pdfTóm tắt luận án TA.pdf
  • pdfTóm tắt luận án tiếng Việt.pdf

Nội dung tài liệu: Nghiên cứu cải tiến một số phương pháp phân tích quan điểm mức khía cạnh dựa trên học máy

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ NGUYỄN THỊ NGOC TÚ NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH DỰA TRÊN HỌC MÁY Chuyên ngành: Hệ thống thơng tin Mã số: 9 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SĨ NGÀNH HỆ THỐNG THƠNG TIN HÀ NỘI - 2023
  2. CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ Người hướng dẫn khoa học: PGS.TS Nguyễn Việt Anh Phản biện 1: Phản biện 2: Phản biện 3: Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp tại Học viện Khoa học và Cơng nghệ - Viện Hàn lâm Khoa học và Cơng nghệ Việt Nam vào hồi giờ , ngày tháng năm 2023. Cĩ thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học và Cơng nghệ - Thư viện Quốc gia
  3. MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong thời đại cơng nghệ thơng tin phát triển hiện nay, hầu hết các hoạt động của con người đã xuất hiện phổ biến trên mạng Internet và các phương tiện truyền thơng trực tuyến. Đặc biệt, các trang thương mại điện tử ngày nay gia tăng hoạt động tương tác với người dùng thơng qua việc khuyến khích họ chia sẻ các bài đánh giá về sản phẩm và thể hiện quan điểm trên các trang web mua sắm hoặc các trang mạng xã hội. Khai phá các bài đánh giá này cĩ thể hiểu được quan điểm, tâm lý của người tiêu dùng từ đĩ giúp ích cho việc xây dựng các chiến lược của doanh nghiệp như: chiến dịch tiếp thị, sản phẩm ưu tiên, giám sát, nĩ cũng cĩ thể được thực hiện để học hành vi của người tiêu dùng, thị trường mẫu, và dự đốn xu hướng tiêu dùng của xã hội. Hiện nay, phân tích quan điểm dựa trên khía cạnh đang thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu và các nhà phát triển ứng dụng. Trong phân tích dựa trên khía cạnh, việc tổng hợp hệ thống của các quan điểm về các thực thể và các thuộc tính của chúng cĩ thể được tạo ra. Điều này biến văn bản phi cấu trúc thành dữ liệu cĩ cấu trúc, và cĩ thể sử dụng cho tất cả các loại phân tích định tính và phân tích định lượng. Hai vấn đề chính trong phân tích quan điểm dựa trên khía cạnh là trích rút khía cạnh (Aspect extraction) và phân lớp cảm xúc khía cạnh (Aspect sentiment classcification). Mặc dù nhiều nghiên cứu, nhiều ứng dụng đã được thực hiện trong phân tích quan điểm mức khía cạnh, nhưng lĩnh vực này vẫn cịn nhiều thách thức cần vượt qua. Đối với nhiệm vụ trích rút khía cạnh: Khĩ khăn đầu tiên là thiếu dữ liệu huấn luyện cĩ gán nhãn trong nhiệm vụ này. Thứ hai, nhiều câu đánh giá thiếu các thể hiện khía cạnh rõ ràng (danh từ) dẫn đến khĩ xác định khía cạnh. Ngồi ra, cĩ nhiều cách thức ám chỉ các khía cạnh (đặc trưng ẩn) xuất hiện khiến nhiệm vụ khai phá càng phức tạp, bởi phải xác định đặc trưng ẩn nào gán với khía cạnh nào. Thứ ba, khi một từ xuất hiện cần xem xét ngữ cảnh của nĩ. Đối với nhiều từ cách giải thích phụ thuộc vào ngữ cảnh sử dụng chúng. Ví dụ, từ “apple” xuất hiện trong hai câu: "Apple is a tasty fruit" và “Apple has just launched a new product” được hiểu theo hai nghĩa khác nhau. Thứ tư, một số khía cạnh quan trọng nhưng cĩ tần suất xuất hiện thấp dễ bị bỏ qua. Làm thế nào cĩ thể phát hiện được các khía cạnh như vậy cũng là một thách thức của nhiệm vụ trích rút khía cạnh. Đối với nhiệm vụ phân lớp cảm xúc khía cạnh: Thứ nhất, nhiệm vụ phân loại cảm xúc đa lớp cĩ nhiều thách thức hơn so với phân loại hai lớp. Sự hiện diện của nhiều lớp làm cho một bộ phân loại khĩ xác định 1
  4. biên giới giữa các lớp khác nhau hơn. Thứ hai, sự gần gũi giữa các lớp cảm xúc hoặc giữa các lớp cĩ cùng cực cảm xúc gần như là tương tự nhau và chúng rất dễ bị phân loại nhầm lẫn nhau. Thứ ba, một từ cĩ thể cĩ các nghĩa khác nhau dựa trên ngữ cảnh và miền lĩnh vực được sử dụng. Nghĩa của cùng một từ cĩ thể khác nhau đối với từng tình huống. Ví dụ: từ “long time” khi nĩi về thời lượng pin của điện thoại thì mang nghĩa tích cực, song trong ngữ cảnh nĩi về tốc độ xử lý của CPU thì lại mang tính tiêu cực. Cuối cùng, sự hiện diện của phủ định cĩ thể đảo ngược cực cảm xúc của một văn bản. Tuy nhiên, khơng dễ để xử lý điều này bằng cách đảo cực vì các từ phủ định cĩ thể được tìm thấy trong một câu mà khơng ảnh hưởng đến cảm xúc thể hiện trong văn bản. Từ những khảo sát và đánh giá các kết quả nghiên cứu cĩ được, tác giả cho rằng cần cĩ một nghiên cứu đầy đủ trên tất cả các nhiệm vụ của phân tích quan điểm dựa trên khía cạnh để đem lại thơng tin hữu ích nền cho các ứng dụng thực tế. Đồng thời cần tìm ra cách tiếp cận hiệu quả để vượt qua các thách thức trong lĩnh vực nghiên cứu, cải thiện hiệu suất của hệ thống phân tích quan điểm dựa trên khía cạnh. Tác giả luận án lựa chọn đề tài “Nghiên cứu phát triển một số thuật tốn học máy trong dự báo kinh tế”. 2. Mục tiêu nghiên cứu Mục tiêu của luận án là đề xuất một hệ thống thực hiện ba nhiệm vụ của bài tốn phân tích quan điểm mức khía cạnh đánh giá sản phẩm trực tuyến. Từ đĩ, nghiên cứu sinh đề xuất một số thuật tốn học máy bán giám sát để trích rút khía cạnh và quan điểm, đề xuất một số thuật tốn học máy cĩ giám sát để giải quyết nhiệm vụ phân lớp quan điểm đã được trích rút từ nhiệm vụ đầu thành các cực cảm xúc khác nhau, đề xuất một cách tiếp cận mới để ước lượng trọng số khía cạnh mà người dùng đặt lên mỗi khía cạnh. 3. Các nội dung nghiên cứu Luận án nghiên cứu các vấn đề trong phân tích quan điểm và bài tốn phân tích quan điểm mức khía cạnh. Luận án nghiên cứu các phương pháp học máy truyền thống và hiện đại, đề xuất 02 thuật tốn bán giám sát để trích rút khía cạnh và quan điểm từ các bài đánh giá sản phẩm trực tuyến. Thuật tốn thứ nhất dựa trên xác suất cĩ điều kiện kết hợp giải thuật bootstrapping, thuật tốn thứ hai dựa trên biểu diễn WordtoVector kết hợp mơ hình ngơn ngữ. Nghiên cứu sinh cũng đề xuất các phương pháp học Nạve Bayes, Support Vector Machine, mạng Bayesian cổng OR, lý thuyết kết hợp Dempster-Shafer cho nhiệm vụ phân lớp cảm xúc khía cạnh. Một phương pháp học khơng giám sát dựa trên nội dung bài đánh giá được đề xuất cho nhiệm vụ ước lượng trọng số khía cạnh. 2
  5. CHƯƠNG 1. TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM VÀ PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH 1.1 Tổng quan về phân tích quan điểm 1.1.1. Các khái niệm cơ bản Định nghĩa 1.6 Quan điểm (opinion): Quan điểm là một bộ gồm 5 thành phần (ei, aij, sijkl, hk, tl). Trong đĩ ei là tên của thực thể, aij là một khía cạnh j của thực thể ei, cịn sijkl là cảm xúc trên khía cạnh aij của thực thể ei được phát biểu bởi hk tại thời điểm tl, hk là chủ sở hữu quan điểm, và tl là thời gian khi quan điểm được thể hiện bởi hk. 1.1.2. Các nhiệm vụ trong phân tích quan điểm Bài tốn 1 (trích rút và phân loại thực thể Bài tốn 2 (trích rút và phân loại khía cạnh): Trích rút tất cả các thể hiện khía cạnh của các thực thể, và phân loại các thể hiện khía cạnh vào các cụm. Mỗi một cụm thể hiện khía cạnh của thực thể ei đại diện điển hình một khía cạnh đơn nhất aij. Bài tốn 3 (trích rút và phân loại chủ sở hữu quan điểm Bài tốn 4 (trích rút và chuẩn hĩa thời gian) Bài tốn 5 (phân lớp cảm xúc quan điểm): Xác định một quan điểm trên một khía cạnh aij là tích cực, tiêu cực hoặc trung lập, hoặc gán nhãn điểm đánh giá ngữ nghĩa đối với khía cạnh. Bài tốn 6 (tổng hợp và sinh bộ năm của quan điểm): Tạo ra tất cả bộ năm của quan điểm (ei, aij, sijkl, hk, tl) thể hiện trong văn bản d dựa trên kết quả của các nhiệm vụ nêu trên. Đây là nhiệm vụ dường như rất là đơn giản nhưng trong thực tế nĩ rất khĩ khăn trong một vài trường hợp. 1.1.3. Các mức độ phân tích quan điểm Mức độ văn bản: là một hình thức phân loại đơn giản. Trong đĩ tồn bộ tài liệu của văn bản đã cho được coi như một đơn vị thơng tin cơ bản. Mức độ câu: là một phân tích chi tiết của mức văn bản, trong đĩ xác định tính phân cực cho mỗi câu và mỗi câu cĩ thể cĩ quan điểm khác nhau. Mức độ cụm từ: phân lớp được thực hiện theo cách xử lý trơn mịn hơn. Ở đây, các thuộc tính hoặc các khía cạnh của các thực thể được quan tâm chủ yếu và phân cực được tính tốn cho từng khía cạnh riêng lẻ. 1.1.4. Vấn đề đặc trưng trong phân tích quan điểm 1.2 Phân tích quan điểm mức khía cạnh 1.2.1. Quy trình phân tích quan điểm mức khía cạnh 3
  6. Hình 1.4 Quy trình phân tích quan điểm dựa trên khía cạnh 1.2.2. Các bài tốn trong phân tích quan điểm mức khía cạnh Bài tốn trích rút khía cạnh: xác định tất cả các thuật ngữ khía cạnh cĩ trong mỗi câu của bài đánh giá hoặc tồn bộ văn bản bài đánh giá. Bài tốn phân lớp cảm xúc dựa trên khía cạnh: cho một khía cạnh, xác định cực của từng thuật ngữ khía cạnh hoặc tồn bộ khía cạnh đĩ. Bài tốn xác định trọng số khía cạnh: Nhiệm vụ này xác định các khía cạnh quan trọng đánh giá tổng thể mà người dùng đưa ra. 1.2.3. Các cách tiếp cận trích rút khía cạnh 1.2.3.1 Các phương pháp trích rút khía cạnh rõ ràng Các phương pháp trích rút khía cạnh rõ ràng cĩ thể phân thành ba loại theo cách tiếp cận học tập: khơng giám sát, bán giám sát và cĩ giám sát. Trích rút khía cạnh rõ ràng với học khơng giám sát bao gồm phương pháp dựa trên tần suất và thống kê, phương pháp dựa trên kinh nghiệm hoặc dựa trên luật, và phương pháp dựa trên điểm thơng tin tương hỗ. Trích rút khía cạnh rõ ràng với học bán giám sát bao gồm phương pháp sử dụng Bootstrapping, phương pháp phân tích cú pháp phụ thuộc, phương pháp dựa trên từ điển. Trích rút khía cạnh rõ ràng với học giám sát bao gồm các mơ hình Markov ẩn (HMM), trường ngẫu nhiên cĩ điều kiện (CRF), mạng nơ ron hồi quy (RNN), mạng nơ ron tích chập (CNN). 1.2.3.2 Các phương pháp trích rút khía cạnh ẩn Các phương pháp trích rút khía cạnh ẩn cĩ thể phân thành các phương pháp học khơng giám sát, cĩ giám sát, và cách tiếp cận lai. Trích rút khía cạnh ẩn với học khơng giám sát bao gồm các phương pháp dựa trên sự đồng xuất hiện, phương pháp dựa trên mơ hình chủ đề, phương pháp dựa trên phân cụm. Trích rút khía cạnh ẩn với học cĩ giám sát bao gồm các phương pháp dựa trên phân lớp, dựa trên luật, dựa trên nhãn tuần tự. Trích rút khía cạnh ẩn theo cách tiếp cận lai là cách kết hợp của nhiều phương pháp khác nhau. 4
  7. 1.2.4. Các phương pháp phân lớp cảm xúc khía cạnh Các cách tiếp cận hiện nay cho nhiệm vụ phân lớp cảm xúc cĩ thể được phân loại thành cách tiếp cận học máy, cách tiếp cận dựa trên từ điển, và các phương pháp lai. Các phương pháp phân lớp cảm xúc dựa trên học máy: gồm cĩ học cĩ giám sát, học khơng giám sát, học bán giám sát, học tăng cường, và học sâu. Phân lớp cảm xúc theo cách tiếp cận học cĩ giám sát được phân thành 4 loại: tuyến tính, dựa trên xác suất, dựa trên quy tắc, và cây quyết định. Phân lớp cảm xúc theo cách tiếp cận học khơng cĩ giám sát bao gồm các kỹ thuật phân cụm phân cấp và phân cụm theo vùng. Phân lớp cảm xúc theo cách tiếp cận học bán giám sát được phân thành học tổng quát, học đồng huấn luyện, huấn luyện chọn lọc, học dựa trên đồ thị, và học đa quan điểm. Phân lớp cảm xúc theo cách tiếp cận học tăng cường là phương pháp trong đĩ tác nhân được thưởng trong bước thời gian tiếp theo dựa trên đánh giá về hành động trước đĩ của nĩ. Phân lớp cảm xúc theo cách tiếp cận học sâu là dựa trên mạng ANN bao gồm các mơ hình mạng nơ ron hồi quy (RNN), mạng nơ ron tích chập (CNN), và mạng niềm tin sâu (DBN). Các phương pháp dựa trên từ điển: cịn được gọi là cách tiếp cận dựa trên tri thức. Cĩ ba kỹ thuật chính để tạo các từ điển chú thích là phương pháp thủ cơng, phương pháp dựa trên từ điển và phương pháp dựa trên kho ngữ liệu. Xây dựng từ vựng cảm xúc dựa trên phương pháp thủ cơng sử dụng từ đồng nghĩa trái nghĩa và dựa trên một từ điển cĩ sẵn. Xây dựng từ vựng cảm xúc dựa trên phương pháp kho ngữ liệu, từ điển được học từ dữ liệu với cách tiếp cận thống kê và ngữ nghĩa. Các phương pháp lai kết hợp cả cách tiếp cận từ vựng và học máy. 1.3 Một số kiến thức học máy liên quan được sử dụng trong luận án cho phân tích quan điểm mức khía cạnh 1.3.1. Thuật tốn bootstrap 1.3.2. Cơ sở lý thuyết biểu diễn từ Word to Vector 1.3.3. Phân loại hai lớp máyvec tơ hỗ trợ 1.3.4. Phân loại đa lớp Naive Bayes 1.3.5. Tương tác khơng kết hợp (Nhiễu cổng OR - Noisy OR-gate) 1.4 Các phương pháp đánh giá kết quả phân tích quan điểm 5
  8. CHƯƠNG 2 KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH 2.1 Đặt vấn đề Đánh giá của người dùng thường đề cập đến các khía cạnh khác nhau, đĩ là các thuộc tính hoặc thành phần của sản phẩm. Đối với mỗi một khía cạnh, người dùng thường đưa ra các quan điểm của họ thơng qua việc thể hiện thái độ tích cực hoặc tiêu cực về khía cạnh đĩ. Làm thế nào để hiểu nội dung bài đánh giá và các vấn đề mà người dùng đề cập? Phân tích quan điểm dựa trên khía cạnh giải quyết vấn đề phân tích chi tiết trên những khía cạnh của sản phẩm mà người dùng đã đề cập đến trong bài đánh giá của họ. Mức độ chi tiết là người dùng đã đề cập đến những khía cạnh nào trong bài đánh giá của họ, độ hài lịng/quan điểm của khách hàng đối với mỗi khía cạnh đĩ, và sau cùng là mức độ quan tâm của mỗi khách hàng trên mỗi khía cạnh. Bài tốn phân tích quan điểm mức khía cạnh bao gồm ba bài tốn con là: (1) Bài tốn trích rút khía cạnh tạo ra các phần (như từ trong câu hoặc câu trong bài đánh giá) đề cập đến một khía cạnh cụ thể của sản phẩm; (2) Bài tốn phân lớp cảm xúc khía cạnh là thơng qua đo lường biểu thị cảm xúc tích cực - tiêu cực hoặc dựa trên điểm đánh giá của người dùng đối với từng khía cạnh đã được trích rút trong nhiệm vụ (1); (3) Bài tốn xác định trọng số khía cạnh là việc đánh giá mức độ quan tâm của người dùng đối với từng khía cạnh sản phẩm. Bài tốn trích rút khía cạnh là xác định tất cả các khía cạnh xuất hiện trong bài đánh giá. Trong nhiệm vụ này cĩ một số thách thức như sau: Một số khía cạnh được đề cập rõ ràng và một số khác thì khơng. Cần trích rút được khía cạnh ẩn. Giải quyết vấn đề nhiễu (các thuật ngữ phi khía cạnh) trong khi vẫn cĩ thể xác định các khía cạnh hiếm và quan trọng. Giả định rằng, một tập hợp phổ quát của tất cả các khía cạnh cĩ thể cĩ cho mỗi sản phẩm đều biết trước cùng với các từ khía cạnh được gọi là từ lõi khía cạnh (thuật ngữ mơ tả chính xác khía cạnh). Giả định này là thực tế vì số lượng khía cạnh quan trọng thường nhỏ và cĩ thể dễ dàng thu được từ các chuyên gia miền lĩnh vực. Sau đĩ nhiệm vụ trích rút khía cạnh trở thành xác định chính xác các khía cạnh hiện cĩ cho các câu/phần văn bản trong bài đánh giá. Thách thức chính ở đây là trong nhiều bài đánh giá, các câu khơng chứa đủ các từ lõi khía cạnh, thậm chí khơng cĩ bất kỳ từ lõi khía cạnh nào, và do đĩ cĩ thể bị gán cho các nhãn khía cạnh sai. Vấn đề này được giải quyết bằng cách liên tục cập nhật và mở rộng các từ lõi khía cạnh thành tập các từ khía cạnh bằng cách sử dụng kỹ thuật xác suất cĩ điều kiện kết hợp bootstrap. Bộ phân lớp Naive Bayes được sử dụng để giải quyết vấn đề phân lớp cảm xúc khía cạnh sau khi đã được trích rút. Cĩ thể giả định rằng điểm đánh giá tổng 6
  9. thể trên một sản phẩm là tổng trọng số của điểm đánh giá mà người dùng đưa ra trên nhiều khía cạnh của sản phẩm, trong đĩ, trọng số về cơ bản đo lường mức độ quan trọng của các khía cạnh. Luận án đề xuất một cách tiếp cận ước lượng trọng số của khía cạnh bằng cách sử dụng tần suất của từ khía cạnh trong bài đánh giá và tính nhất quán của khía cạnh trên tất cả các bài đánh giá. Hình 2.2 mơ tả chi tiết ba bài tốn nhỏ của bài tốn phân tích quan điểm mức khía cạnh đối với các bài nhận xét sản phẩm trực tuyến. Hình 2.3 Các bài tốn con của bài tốn phân tích quan điểm dựa trên khía cạnh 2.2 Các nghiên cứu liên quan 2.2.1 Trích rút khía cạnh 2.2.2 Phân lớp cảm xúc 2.2.3 Trọng số khía cạnh 2.3 Các khái niệm cơ bản trong bài tốn phân tích quan điểm mức khía cạnh Bài đánh giá của người dùng i về một số sản phẩm được ký hiệu di. cĩ nhiều câu, mỗi câu chứa nhiều từ wj trong tập hợp của tất cả các từ cĩ thể cĩ. Định nghĩa 2.1 Tập các bài đánh giá (Review Text Documents): 풟 = {d1, d2, , dD} là một tập các bài viết nhận xét về một loại sản phẩm. Định nghĩa 2.2 Từ điển (Vocabulary): Giả sử rằng cĩ V các từ được tách ra từ tập các bài đánh giá 풟. Tập các từ này là từ điển 풱 = {wj|j = 1̅̅,̅̅ ̅}. Định nghĩa 2.3 Khía cạnh (Aspect): Khía cạnh là một đặc điểm (một thuộc tính hoặc một thành phần) của sản phẩm. Giả định rằng cĩ K khía cạnh được đề cập trong tất cả các bài đánh giá, được ký hiệu là 풜 = {ak|k = 1̅̅,̅̅퐾̅}. 7
  10. Một khía cạnh ak được biểu diễn bằng một tập hợp các từ và ký hiệu là ak = {w|w ∈ V, A(w) = ak}, trong đĩ ak là tên của khía cạnh, w là một từ thuộc 풱 và A(.) là một tốn tử ánh xạ một từ tới một khía cạnh. Định nghĩa 2.4 Từ lõi khía cạnh (Aspect Core Words): Cho một khía cạnh ak, một tập rất ít các từ thuộc 풱 miêu tả rất rõ ràng khía cạnh ak được gọi là từ lõi khía cạnh, ký hiệu là 풞k={wkj ∈풱 |wkj → ak, j = 1̅̅,̅̅ ̅ }, trong đĩ wkj là từ mơ tả khía cạnh ak, N là số từ lõi của khía cạnh ak. Tập từ lõi khía cạnh này khơng giao thoa sang tập từ lõi khía cạnh khác. Định nghĩa 2.5 Từ khía cạnh (Aspect Words): Tập tất cả các từ cĩ trong từ điển 풱 mà chúng cĩ thể mơ tả về khía cạnh ak (các từ này khác với các từ lõi khía cạnh) được gọi là các từ khía cạnh, ký hiệu là 퓣k = {wkj ∈ 풱, wkj ∈/ 풞k|wkj → ak, j = 1̅̅̅,̅ ̅̅}. M là số từ khía cạnh của khía cạnh ak. Định nghĩa 2.6 Điểm đánh giá khía cạnh (Aspect Rating): Cho một K văn bản đánh giá của người dùng di, một vector K chiều ri ∈ ℝ được sử dụng để biểu diễn điểm đánh giá của K khía cạnh trong văn bản đánh giá di, ký hiệu là ri = {ri1, ri2, , riK}, trong đĩ rik là một giá trị số cho biết đánh giá của người dùng về khía cạnh ak, và rik ∈ [rmin, rmax] (ví dụ rik thuộc từ 1 đến 5). Định nghĩa 2.7 Trọng số khía cạnh (Aspect Weight): Trọng số khía cạnh biểu hiện sự quan tâm của người dùng đối với một hoặc một vài khía cạnh cụ thể của sản phẩm. Cho một văn bản đánh giá của người dùng di, một K vector K chiều αi ∈ ℝ được sử dụng để biểu diễn mức độ quan tâm của người dùng đối với K khía cạnh trong văn bản đánh giá di, ký hiệu là αi = {αi1, αi2, , αiK}, trong đĩ αik là một giá trị số cho biết trọng số đánh giá của người dùng 퐾 về khía cạnh ak, và αik ∈ [0, 1], và ∑ =1 훼푖 = 1. Định nghĩa 2.8 Điểm đánh giá tổng thể của bài đánh giá (Review + overall Rating): Cho văn bản đánh giá di, một giá trị số yi ∈ ℝ biểu diễn điểm đánh giá tổng thể của người dùng về một sản phẩm trên tất cả các khía cạnh sản phẩm. Giá trị điểm tổng thể này tương tự như điểm đánh giá khía cạnh. Nhiệm vụ trích rút khía cạnh: Giả định rằng mỗi khía cạnh là một phân phối xác suất trên tất cả các từ và mỗi câu trong văn bản của bài đánh giá cĩ thể đề cập đến nhiều khía cạnh, mục tiêu của nhiệm vụ này là trích rút các khía cạnh được đề cập trong một bài đánh giá. Nhiệm vụ dự đốn điểm đánh giá khía cạnh: Nhiệm vụ này là suy ra vector ri của điểm đánh giá khía cạnh (Định nghĩa 2.6) cho một bài đánh giá di. Điểm đánh giá của một khía cạnh phản ánh cảm xúc của người dùng về khía cạnh đĩ được thể hiện bằng các từ cảm xúc (tích cực hoặc tiêu cực). Nhiệm vụ ước lượng trọng số khía cạnh: Nhiệm vụ này là ước tính trọng số khơng âm αi mà người dùng đặt trên khía cạnh aik của văn bản di 8
  11. (Định nghĩa 2.7). Về cơ bản, trọng số của một khía cạnh đo lường mức độ quan trọng được đưa ra bởi người dùng đối với khía cạnh đĩ. 2.4 Hệ thống phân tích quan điểm mức khía cạnh các bài đánh giá sản phẩm trực tuyến 2.4.1 Trích rút khía cạnh sử dụng xác suất cĩ điều kiện kết hợp kỹ thuật Bootstraping Nhãn khía cạnh được xác định dựa trên tập hợp các từ cĩ liên quan được gọi là các từ khía cạnh hoặc thuật ngữ khía cạnh 풯 . Giả sử cĩ một số từ khĩa được chỉ định để mơ tả từng khía cạnh, gọi là từ lõi khía cạnh 풞 . Giả định rằng tập hợp phổ quát của tất cả các khía cạnh cĩ thể cĩ cho mỗi sản phẩm đều biết trước. Nhiệm vụ trích xuất khía cạnh trở thành xác định chính xác các khía cạnh hiện cĩ cho các câu trong bài đánh giá. Thách thức chính là trong nhiều bài đánh giá, các câu khơng chứa đủ các từ cốt lõi hoặc thậm chí khơng cĩ bất kỳ từ cốt lõi nào, do đĩ cĩ thể bị gán cho các khía cạnh sai. Vấn đề này được giải quyết bằng cách liên tục cập nhật và mở rộng tập các từ cốt lõi thành tập các từ khía cạnh bằng cách sử dụng kỹ thuật xác suất cĩ điều kiện kết hợp với kỹ thuật bootstrap. Hình 2.4 Từ lõi với các khía cạnh Giả sử rằng 풜= {a1, a2, , aK} là tập của K khía cạnh của sản phẩm. ak là tập các từ thuộc tính đại diện cho khía cạnh ak và tần suất xuất hiện của chúng luơn lớn hơn ngưỡng θ. Mục tiêu là thu thập tập các từ mà chúng xuất hiện trong các câu của tồn bộ ngữ liệu thuộc về khía cạnh ak. Tập hợp các từ của hai khía cạnh cĩ thể trùng nhau, do đĩ một số thuật ngữ cĩ thể thuộc về nhiều khía cạnh (xem Hình 2.4). Đầu tiên, các câu cĩ chứa ít nhất một từ trong tập từ cốt lõi 풞k ban đầu của khía cạnh được định vị (gán nhãn). Sau đĩ, tất cả các từ bao gồm danh từ, cụm danh từ, tính từ, trạng từ và động từ xuất hiện trong những câu này được tìm kiếm. Các từ xuất hiện lớn hơn ngưỡng θ được bổ sung vào tập hợp các từ khía cạnh. Các từ cĩ số lần xuất hiện lớn 9
  12. nhất trong tập từ khía cạnh mới tìm được sẽ được thêm vào tập các từ cốt lõi. Tập các từ khía cạnh và các từ cốt lõi được cập nhật, các từ này được sử dụng để gán nhãn các câu tiếp theo. Quá trình này được lặp lại cho đến khi khơng tìm thấy thêm từ mới. 2.4.2 Dự đốn điểm đánh giá khía cạnh dựa trên phân lớp Naive Bayes Vấn đề dự đốn điểm đánh giá khía cạnh cĩ thể được coi là vấn đề phân loại đa lớp, trong đĩ điểm đánh giá được coi là các nhãn và các từ cảm xúc được xem xét như là các đặc trưng. Ngồi ra một số các đặc trưng bi-gram được trích rút theo các mẫu cú pháp được đề xuất trong. Cho một văn bản đánh giá di, điểm đánh giá của khía cạnh ak với Q đặc trưng (ký hiệu là fq) được trích rút xác định dựa trên xác suất điểm rik thuộc về lớp c ∈ Cclass = {1, 2, 3, 4, 5}. Xác suất là: Giả định rằng các đặc trưng là độc lập, điểm đánh giá khía cạnh rik được gán nhãn c khi xác suất p(rik ∈ c|f1, f2, , fQ) là lớn nhất. 2.4.3 Ước lượng trọng số khía cạnh dựa trên tần suất khía cạnh trong bài đánh giá và trong tồn bộ kho ngữ liệu Đối với người dùng, nếu một khía cạnh là quan trọng, họ sẽ đề cập nhiều hơn về nĩ trong bài đánh giá. Hơn nữa, một ý tưởng rằng một khía cạnh quan trọng thường được nhiều người dùng chia sẻ. Số đo trọng số của khía cạnh ak trong văn bản di được ký hiệu là EDik, và số đo trọng số của khía cạnh thơng qua tồn bộ kho dữ liệu được ký hiệu là ECk. trong đĩ wikj là từ thứ j trong các từ khía cạnh của khía cạnh ak, và Ni là số từ khía cạnh xuất hiện trong văn bản di của tất cả các khía cạnh. trong đĩ skh, là câu thứ h trong kho ngữ liệu được gán nhãn khía cạnh ak, và M là tổng số câu cĩ trong kho ngữ liệu. Trọng số αik cho khía cạnh ak của bài đánh giá di được tính như sau: 10
  13. 2.5 Kết quả thực nghiệm 2.5.1 Dữ liệu thử nghiệm Các thí nghiệm được thực hiện trên ba bộ dữ liệu đánh giá khách sạn được thu thập từ Tripadvisor.com, đánh giá bia được thu thập từ Beeradvocate.com và đánh giá cà phê Trung Nguyên được thu thập từ trang web Amazon.com. 2.5.2 Tiền xử lý và trích chọn đặc trưng 2.5.3 Kết quả và đánh giá Trích rút khía cạnh Để đánh giá hiệu quả, độ đo precision được sử dụng. Bảng 2.5 cho thấy hiệu suất của phương pháp này trong nhiệm vụ trích rút khía cạnh. Độ chính xác trung bình tương ứng là 0,786, 0,803 và 0,653 lần lượt cho bộ dữ liệu khách sạn, bộ dữ liệu bia và bộ dữ liệu cà phê. Phương pháp đề xuất đạt được hiệu suất tốt trên bộ dữ liệu khách sạn và bia. Tuy nhiên, đối với bộ dữ liệu cà phê, kết quả khơng tốt như mong đợi. Bảng 2.5 Kết quả trích rút khía cạnh trên ba bộ dữ liệu Khách sạn, Bia, Cà phê Trong thuật tốn đề xuất, ngưỡng θ là ngưỡng xác suất để lấy mở rộng các tập từ khía cạnh. Bằng thực nghiệm, ngưỡng θ tốt nhất được thể hiện trong Hình 2.7 khoảng 0.15. Hình 2.7 Hiệu suất của phương pháp ứng với các ngưỡng θ khác nhau Phương pháp đề xuất của luận án được so sánh với phương pháp dựa trên tần suất trong trên tập dữ liệu khách sạn. Hình 2.9 cho thấy kết quả so sánh giữa hai phương pháp. 11
  14. Hình 2.9 Kết quả so sánh phương pháp đề xuất với phương pháp của Long và các cộng sự Phương pháp đề xuất cũng được so sánh với hai phương pháp dựa trên mơ hình chủ đề trong (PALE LAGER bán giám sát và giám sát) và trong (LDA) trên tập dữ liệu bia. Trong Hình 2.10 cho thấy rằng phương pháp đề xuất của luận án tốt hơn LDA với tỷ lệ khoảng cách lớn và hơi nhỉnh hơn PALE LAGER (bán giám sát và cĩ giám sát). Hình 2.10 Kết quả phương pháp đề xuất so sánh với LDA và PALE LAGER Nhiệm vụ dự đốn điểm đánh giá khía cạnh Để đánh giá hiệu suất của phương pháp đề xuất trong nhiệm vụ này, ba 2 độ đo: sai số bình phương trung bình theo khía cạnh (∆ aspect), độ tương quan khía cạnh (ρaspect), và độ tương quan khía cạnh qua tất cả các bài đánh giá (ρreview) được sử dụng. Kết quả của phương pháp đề xuất được so sánh với hai phương pháp của Long và các cộng sự, Wang trên bộ dữ liệu khách sạn. Kết quả so sánh được chỉ ra trong Bảng 2.9. 12
  15. Bảng 2.9 So sánh kết quả phương pháp đề xuất với một số phương pháp về nhiệm vụ dự đốn điểm đánh giá khía cạnh Nhiệm vụ ước lượng trọng số khía cạnh Phương pháp đề xuất được so sánh với phương pháp của Wang dựa trên độ 2 đo lỗi bình phương trung bình của điểm đánh giá tổng thể (∆ overallrating) cho ba tập dữ liệu. Kết quả được chỉ ra trong Bảng 2.10. Bảng 2.10 MSE của điểm đánh giá tổng thể 2.6 Kết luận chương 2 Trong Chương 2, nghiên cứu sinh trình bày một mơ hình tổng thể giải quyết ba bài tốn con của bài tốn phân tích quan điểm mức khía cạnh: (1) trích rút các khía cạnh được đề cập đến trong bài đánh giá về một sản phẩm bằng cách sử dụng xác suất cĩ điều kiện của các từ kết hợp với giải thuật Boostrapping; (2) suy ra điểm đánh giá của người dùng cho từng khía cạnh được xác định dựa trên bộ phân loại Naive Bayes; (3) ước lượng trọng số mà người dùng đặt trên mỗi khía cạnh bằng cách sử dụng số lần xuất hiện của các từ thảo luận về khía cạnh đĩ trong một bài đánh giá và tần suất của các câu văn thảo luận về cùng một khía cạnh trên tất cả các bài đánh giá. CHƯƠNG 3 TRÍCH RÚT KHÍA CẠNH DỰA TRÊN BIỂU DIỄN WORD2VEC VÀ ĐỘ ĐO HỖ TRỢ 3.1 Đặt vấn đề 3.2 Các nghiên cứu liên quan 3.3 Một số khái niện cơ bản trong mơ hình trích rút khía cạnh dựa trên biểu diễn từ Word2vec Định nghĩa 3.1 Vectơ từ (Word vector): Đưa ra một từ wj một vectơ P P chiều xwj ∈ ℝ được sử dụng để biểu diễn cho P ngữ cảnh khác nhau của từ wj trong tồn bộ khơng gian ngữ cảnh của kho ngữ liệu. Ký hiệu xwj = {x1wj,x2wj, ,xpwj}, trong đĩ xpwj là một giá trị số thực cĩ được nhờ quá trình huấn luyện Word2vec. 13
  16. Định nghĩa 3.2 Vectơ từ lõi khía cạnh (Aspect core word vector): Mỗi từ lõi của khía cạnh ak, wk j ∈ 풞k được ánh xạ tương ứng tới một vectơ trong tập vectơ từ được gọi là Vectơ từ lõi khía cạnh ký hiệu xcoreak. Định nghĩa 3.3 Độ hỗ trợ của từ đối với khía cạnh (supp(wj → ak)): Độ hỗ trợ của từ wj đối với khía cạnh ak là một giá trị biểu diễn cho khả năng từ wj cĩ thể mơ tả về khía cạnh ak. Độ hỗ trợ được tính tốn dựa trên sự cải tiến của độ đo Euclidean như trong cơng thức (3.1). trong đĩ: supp(wj → ak) là độ hỗ trợ của từ chủ đề wj đối với khía cạnh ak; N là số từ lõi của khía cạnh ak; P là số chiều của vector từ; xpwi là giá trị của chiều thứ p (trong biểu diễn vector từ) của từ wj; xpcoretak là giá trị của chiều thứ p (trong biểu diễn vector từ) của từ lõi thứ t thuộc về khía cạnh ak. Định nghĩa 3.4 Độ hỗ trợ của câu đối với khía cạnh (supp(S → ak)): Độ hỗ trợ của một câu S đối với khía cạnh ak là một giá trị biểu diễn cho khả năng câu S cĩ thể mơ tả về khía cạnh ak. Độ hỗ trợ của câu S đối với khía cạnh ak được tính tốn dựa trên trung bình độ hỗ trợ của tất cả các từ wj cĩ trong câu S đối với khía cạnh ak theo cơng thức (3.2). trong đĩ: supp(S→ak) là độ hỗ trợ câu S với khía cạnh ak; supp(wj→ak) là độ hỗ trợ của từ chủ đề wj đối với khía cạnh ak; Q là số từ của câu S. 3.4 Trích rút khía cạnh dựa trên biểu diễn từ Word2vec và độ đo hỗ trợ Mỗi khía cạnh ak được thể hiện bởi một tập các từ. Từ được biểu diễn từ dưới dạng Word2vec để nắm bắt các ngữ cảnh khác nhau của từ nhằm nâng cao độ chính xác. Mơ hình đề xuất được mơ tả trong Hình 3.2. Pha huấn luyện: Bước 1 (Dữ liệu): tách câu, chuẩn hĩa câu. Bước 2 (Huấn luyện word2vec): sử dụng cơng cụ word2vec chạy trên ngơn ngữ python để vector hĩa các từ. Bước 3 (Tạo tập các vectơ từ lõi khía cạnh): Tập từ lõi khía cạnh được ánh xạ tới các vectơ từ tương ứng. Bước 4 (Tính supp(Từ -> Khía cạnh)): Từ tập các vectơ từ, tính độ hỗ trợ của từng từ đối với từng khía cạnh. Độ hỗ trợ của từ wj đối với khía cạnh ak được tính theo cơng thức (3.1). 14
  17. Hình 3.2 Gán nhãn khía cạnh của câu dựa trên Word2vec và độ đo hỗ trợ Pha kiểm tra: Bước 1 (Tách câu): tách câu, chuẩn hĩa câu. Bước 2 (Trích rút từ): Trích rút các danh từ, tính từ, động từ, trạng từ trong câu. Các từ này được so khớp với các từ đã được huấn luyện để xác định độ hỗ trợ của từ đối với từng khía cạnh Bước 3 (supp(Câu -> Khía cạnh)): tính độ hỗ trợ của từng câu đối với từng khía cạnh theo cơng thức (3.2). Bước 4 (Gán nhãn khía cạnh cho câu): so sánh độ hỗ trợ của câu với ngưỡng hoặc lấy giá trị lớn nhất để xác định nhãn khía cạnh cho câu. 3.5 Kết quả thực nghiệm 3.5.1 Tiền xử lý dữ liệu 3.5.2 Huấn luyện Word2vec 3.5.3 Tạo cơ sở dữ liệu và lựa chọn đặc trưng tính tốn 3.5.4 Kết quả thực nghiệm Để đánh giá hiệu quả của phương pháp đề xuất, trong phần này luận án sử dụng các độ đo là precision và recall và F1. Kết quả thử nghiệm trên ba bộ dữ liệu được thể hiện trong bảng 3.3, 3.4, 3.5. Phương pháp đề xuất được tiến hành thử nghiệm và so sánh kết quả với hai phương pháp cơ sở là LDA và của Long và các cộng sự trên bộ dữ liệu khách sạn sử dụng độ đo precision. Kết quả được chỉ ra trong bảng 3.6. 15
  18. Bảng 3.3 Kết quả trích rút khía cạnh đối với bộ dữ liệu Khách sạn Bảng 3.4 Kết quả trích rút khía cạnh đối với bộ dữ liệu Bia Bảng 3.5 Kết quả trích rút khía cạnh đối với bộ dữ liệu Cà Phê Bảng 3.6 So sánh kết quả phương pháp đề xuất với phương pháp LDA và Long và cộng sự trên tập dữ liệu Khách sạn với độ đo precision 3.6 Kết luận chương 3 Trong chương này, nghiên cứu sinh đã đề xuất một mơ hình trích rút khía cạnh dựa trên việc khai thác hiệu quả biểu diễn đặc trưng từ dạng vector và sử dụng chúng để tính tốn trọng số của thuật ngữ cốt lõi bằng thước đo hỗ trợ. Phương pháp này hoạt động tốt trên các bộ dữ liệu của thế giới thực và nĩ cĩ thể được áp dụng cho một số lĩnh vực khác nhau. 16
  19. CHƯƠNG 4: ĐA PHÂN LỚP CẢM XÚC BẰNG CÁCH KẾT HỢP CÁC BỘ PHÂN LOẠI CƠ SỞ 4.1 Đặt vấn đề Bài đánh giá được phân thành 5 lớp dựa trên các đánh giá cảm tính và đánh giá lý tính. Thách thức chính là làm thế nào để phân loại chính xác một bài đánh giá vào các lớp lân cận do sự khác biệt tương đối nhỏ giữa các lớp, do độ khơng chắc chắn, sự mơ hồ xảy ra khi vector đặc trưng khơng chứa đủ thơng tin, do các lớp cĩ điểm xác suất tương tự nhau. Khĩ khăn quan trọng khác là vấn đề dữ liệu khơng cân bằng. Thách thức thứ ba là tính thưa thớt của dữ liệu và phụ thuộc nhiều vào ngữ cảnh của văn bản ngắn dẫn đến khĩ cĩ hàm phân biệt tốt giữa các văn bản khác nhau. Để khắc phục những khĩ khăn trên, ý tưởng cơ bản là kết hợp các bộ phân loại khác nhau, cĩ thể bổ sung cho nhau, khắc phục yếu điểm của mỗi bộ phân loại riêng lẻ, cung cấp nhiều loại bằng chứng khác nhau, cĩ thể cải thiện độ chính xác của việc phân loại, đặc biệt là trong trường hợp cĩ độ khơng chắc chắn và mơ hồ cao. Nghiên cứu sinh đề xuất sử dụng phương pháp dựa trên lý thuyết Dempster-Shafer (DS) và sử dụng chỉ hai bộ phân loại mạnh mẽ là SVM nhiều lớp và thuật tốn phân loại nhiều lớp dựa trên mơ hình tương tác khơng kết hợp (hay OR Gate Bayesian Network - OGBN). Mục tiêu của đề xuất: sử dụng ít bộ phân loại nhất, giải quyết vấn đề dữ liệu mất cân bằng, cải thiện hiệu suất phân loại đa lớp. Văn bản được tiền xử lý, các đặc trưng được lựa chọn là uni-gram, bi- gram, độ lợi thơng tin (Information Gain - IG) và thơng tin tương hỗ (Mutual Information – MI). Bài viết được phân loại dựa trên SVM và OGBN. Đầu ra của thuật tốn SVM được đưa qua một hàm chuyển đổi thành giá trị xác suất. Giá trị xác suất tương ứng của SVM cùng với đầu ra xác suất OGBN trở thành đầu vào của luật kết hợp DS. Điểm đánh giá cuối cùng của bài đánh giá là lớp mà giá trị xác của nĩ là lớn nhất. 4.2 Các nghiên cứu liên quan 4.3 Phân loại cảm xúc đa lớp bằng cách kết hợp các bộ phân loại cơ sở Như đã giới thiệu ở Mục 4.1, nghiên cứu sinh đề xuất một mơ hình kết hợp thực hiện phân loại đa lớp bằng cách kết hợp xác suất đầu ra từ hai thuật tốn phân lớp cơ sở (SVM và OGBN) dựa trên luật kết hợp DS với dữ liệu phi cấu trúc. Lớp dự đốn cuối cùng dựa trên kết quả tổng hợp từ các thuật tốn cơ sở. Hình 4.1 mơ tả quy trình trong mơ hình đề xuất. Văn bản được tiền xử lý (xem Mục 2.5.2), các đặc trưng được lựa chọn là uni-gram, bi-gram, IG và MI. Các đặc trưng biểu diễn văn bản trở thành đầu vào của các thuật tốn phân loại cơ bản SVM và OGBN. Đầu ra của thuật 17
  20. tốn SVM là hàm khoảng cách từ điểm dữ liệu đến các siêu phẳng, đây khơng phải là một giá trị xác suất. Do đĩ, điểm khoảng cách này được đưa qua một hàm chuyển đổi thành giá trị xác suất. Giá trị xác suất tương ứng của SVM cùng với đầu ra xác suất OGBN trở thành đầu vào của luật kết hợp DS. Điểm đánh giá cuối cùng của bài đánh giá là lớp mà giá trị xác kết hợp của nĩ là lớn nhất. Hình 4.1 Mơ hình phân loại cảm xúc đa lớp bằng cách kết hợp SVM và OGBN dựa trên luật DS 4.3.1 Phân loại cảm xúc đa lớp dựa trên SVM Trong trường hợp tập dữ liệu đa lớp, chiến lược một với tất cả (One-vs- all-OVA) được lựa chọn. Một mẫu x mới được gán cho lớp mà đầu ra bộ phân loại của nĩ theo (4.1) xuất ra giá trị dương lớn nhất (nghĩa là cực đại lề) như trong (4.2). 4.3.2 Biến đổi đầu ra SVM thành xác suất SVM tạo ra một giá trị chưa được hiệu chỉnh trong (4.1) và (4.2), đây khơng phải là một giá trị xác suất. Vì phương pháp Dempster-Shafer được đề xuất để kết hợp các bộ phân loại, do đĩ cần hiệu chỉnh đầu ra bộ phân loại SVM nhiều lớp để xuất ra các giá trị xác suất hậu nghiệm. Platt đề xuất một phương pháp để ước lượng SVM hậu nghiệm bằng cách sử dụng một hàm sigmoid và điểm số SVM như sau: 18
  21. trong đĩ f(x) được xác định trong (4.1). Các tham số A và B được ước lượng phù hợp với hàm sigmoid, mã giả trong đề xuất của Platt được sử dụng. 4.3.3 Phân loại cảm xúc đa lớp dựa trên mạng Bayesian cổng Noisy- OR Mạng Bayes cổng OR kế thừa những ưu điểm của mạng Bayes. Phương pháp này hiển nhiên phù hợp với bài tốn phân loại nhiều lớp và hoạt động tốt trên dữ liệu cĩ độ mất cân bằng cao, nĩ cũng làm giảm độ phức tạp tính tốn so với mạng Bayes từ O(2n) xuống O(n). Hình 4.2 Bộ phân lớp mạng Bayes Noisy OR-gate Mơ hình dự đốn điểm đánh giá cảm xúc của một bài đánh giá được cấu trúc như sau: tập các đặc trưng {fq}, mỗi {fq} là một nút Tq nút nguyên nhân; Cĩ Cclass nút kết quả tương ứng với Cclass các lớp. Cấu trúc mạng là cố định. Cung đi từ nút Tq đến nút kết quả Cj nếu đặc trưng {fq} xuất hiện trong dữ liệu huấn luyện của lớp cj. Xác suất hậu nghiệm của mỗi lớp cj khi biết văn bản di được xác định như sau: Xác suất này cĩ thể được ước lượng trực tiếp ̂( 푗| 푞) sử dụng xấp xỉ Laplace: trong đĩ Njq là số lần mà đặc trưng fq xuất hiện trong các văn bản của lớp cj; N•q là số lần mà đặc trưng fq xuất hiện trong tất cả các văn bản của kho dữ ∑ liệu, tức là N•q = 푗 푗푞. Hàm phân lớp của văn bản di: 4.3.4 Mơ hình kết hợp sử dụng lý thuyết Dempster-Shafer Một siêu tập hợp P(C) là tập của tất cả các tập con cĩ thể cĩ của các lớp P(C) = {∅, {c1}, , {cn}, {c1, c2}, , {c1, , cn}}. Ví dụ với n = 5 thì siêu tập hợp P(C) sẽ cĩ 25 = 32 tập hợp con. Lý thuyết DS gán hàm giá trị (mass value) m trong khoảng từ 0 đến 1 cho mỗi tập con A ∈ P(C) của siêu tập hợp và thỏa mãn những điều kiện sau: 19
  22. Đưa ra hai bằng chứng xác suất cơ bản m1 và m2, quy tắc kết hợp của Dempster (cịn được gọi là hàm tổng trực giao khối lượng (orthogonal sum mass function) và ký hiệu bởi m = m1 ⊕ m2) như sau: với A ∈ P(C) gọi là các giả thuyết. Cho Θ = P(C)/C, điều này nghĩa là Θ tính cho tất cá các tập con của P(C) cĩ lực lượng lớn hơn 1, với mỗi giả thuyết tương ứng với một lớp riêng biệt cj, chúng ta cĩ: (4.12) Theo cơng thức (4.10), m(Θ) được xác định bởi: Lưu ý rằng m(Θ) trong cơng thức (4.13) vẫn chiếm các tập con của P(C) mà chúng khơng phải là siêu tập con của cj, như vậy luận án sử dụng xấp xỉ ̃ như sau: Để cấu trúc hàm khối lượng cho mỗi lớp cj từ một mẫu văn bản đánh giá di, luận án dựa vào ma trận nhầm lẫn (CMφ) và giá trị xác suất của mỗi lớp cj (p(cj|di)) được xác định bởi bộ phân lớp φ với hàm khối lượng cho lớp cj được cung cấp bởi trình phân loại φ như sau: 4.4 Kết quả thực nghiệm 4.4.1 Bộ dữ liệu thực nghiệm Phân bố đánh giá của 5 lớp trong ba bộ dữ liệu được thể hiện trong Bảng 4.5, các ký hiệu: lớp tiêu cực cảm xúc c1; lớp tiêu cực lý trí c2; lớp trung lập c3; lớp tích cực lý trí c4; lớp tích cực cảm xúc c5. 20
  23. Bảng 4.5 Phân bố của các lớp cảm xúc trong bộ dữ liệu 4.4.2 Tiền xử lý và lựa chọn đặc trưng Luận án xây dựng hai bộ đặc trưng: bộ đặc trưng cơ sở (uni-gram, bi- gram); bộ đặc trưng rút gọn dựa trên bộ đặc trưng cơ sở thơng qua các phép lọc đặc trưng (IG kết hợp MI). Ba thí nghiệm được thực hiện để đánh giá hiệu suất của phương pháp đề xuất. Bảng 4.6 Số chiều của hai tập đặc trưng trong ba bộ dữ liệu 4.4.3 Kết quả và thảo luận Thí nghiệm đầu tiên so sánh hiệu suất của bộ phân loại đa lớp dựa trên SVM, dựa trên mạng Bayes Noisy OR-gate bằng cách sử dụng hai bộ đặc trưng đầu vào khác nhau. Bảng 4.7 cho thấy hiệu suất của phương pháp dựa trên SVM và OGBN trên ba bộ dữ liệu. Bộ phân loại dựa trên OGBN hoạt động tốt hơn bộ phân loại dựa trên SVM với OVA trong tất cả các bộ dữ liệu. Kết quả này xác nhận phân tích trước đây của chúng tơi rằng SVM hoạt động tốt với phân loại văn bản nhị phân, nhưng gặp khĩ khăn khi xử lý với đa phân loại văn bản. Bộ phân lớp dựa trên OGBN hoạt động tốt hơn với tập đặc trưng cĩ số chiều lớn ("Uni+Bi"), trong khi phương pháp dựa trên SVM hoạt động tốt với tập đặc trưng được thu gọn ("”Uni+Bi+IG+MI”"). Thử nghiệm thứ hai để đánh giá hiệu quả của việc kết hợp hai bộ phân loại cơ sở bằng cách sử dụng lý thuyết DS. Chúng tơi sẽ đánh giá sự cải thiện tổng thể của mơ hình kết hợp, đánh giá vấn đề dữ liệu mất cân bằng và vấn đề phân loại sai giữa các lớp lân cận. Bảng 4.8 chỉ ra phương pháp kết hợp dựa trên DS hoạt động tốt hơn cả hai phương pháp dựa trên SVM và dựa trên OGBN đối với cả ba bộ dữ liệu. Kết quả cho thấy phương pháp kết hợp vượt trội hơn một chút so với bộ phân 21
  24. loại dựa trên SVM (ACC từ 3.27% đến 5.75% ) và so với bộ phân loại dựa trên OGBN (ACC từ 1.82% đến 2.54%) kết quả đã được bao phủ bới các lớp chiếm đa số. Bảng 4.7 So sánh hai bộ phân lớp cơ sở trên ba bộ dữ liệu Bảng 4.8 So sánh phương pháp kết hợp với hai bộ phân loại cơ sở Bảng 4.9, 4.10, 4.11 trình bày số lượng mẫu bị phân loại sai giữa hai lớp liền kề theo ba phương pháp, các lớp tiêu cực cảm xúc, tiêu cực lý trí, trung lập, tích cực lý trí, tích cực cảm xúc được ký hiệu lần lượt là c1, c2, c3, c4, c5. Bảng 4.9 Các mẫu bị phân loại sai của các lớp kề của ba phương pháp trên tập dữ liệu Bia 22
  25. Bảng 4.10 Các mẫu bị phân loại sai của các lớp kề của ba phương pháp trên tập dữ liệu Khách sạn Bảng 4.11 Các mẫu bị phân loại sai của các lớp kề của ba phương pháp trên tập dữ liệu Cà phê 4.5 Kết luận chương 4 Trong chương này luận án xem xét giải quyết nhiệm vụ phân loại quan điểm/cảm xúc khía cạnh đa lớp. Nghiên cứu sinh đã đề xuất một mơ hình kết hợp mạnh mẽ để giải quyết vấn đề trên bằng cách sử dụng phương pháp dựa trên lý thuyết Dempster-Shafer với sự lựa chọn cẩn thận các bộ phân loại cơ sở cĩ thể bổ sung tốt nhất cho nhau. Bằng cách áp dụng phân tích điểm mạnh và điểm yếu của các phương pháp hiện cĩ, nghiên cứu sinh đã đưa ra hai ứng cử viên của phương pháp phân loại kết hợp, đĩ là các phương pháp đa phân loại dựa trên SVM và đa phân loại dựa trên mạng Bayesian cổng OR. Kết quả cho thấy tính hiệu quả vượt trội của phương pháp kết hợp so với hai phương pháp cơ sở. Trong kết quả dĩ cũng thể hiện khả năng khắc phục những vấn đề dữ liệu khơng cân bằng, tính mơ hồ của dữ liệu và tính liền kề của các lớp lân cận. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Những kết quả đạt được của luận án Phân tích quan điểm dựa trên khía cạnh các bài đánh giá sản phẩm trực tuyến được coi là một cơng cụ hữu ích để khám phá tính cá nhân hĩa người dùng, dự đốn xu hướng tiêu dùng, định hướng thị trường sản phẩm. Nghiên 23
  26. cứu trong luận án này phát triển một số thuật tốn học máy để nâng cao chất lượng khai phá, phân tích quan điểm mức khía cạnh. Một số kết luận như sau: Đề xuất hệ thống thực hiện ba nhiệm vụ trích rút khía cạnh, dự đốn điểm cảm xúc khía cạnh, ước lượng trọng số khía cạnh của bài tốn phân tích quan điểm dựa trên khía cạnh. Với nhiệm vụ trích rút khía cạnh, luận án đề xuất một kỹ thuật học bán giám sát dựa trên xác suất cĩ điều kiện kết hợp thuật tốn bootstrapping để thực hiện bài tốn. Phương pháp đề xuất cĩ thể giải quyết các vấn đề về dữ liệu cĩ gán nhãn, vấn đề phát hiện khía cạnh ẩn và các khía cạnh cĩ tần suất thấp. Với nhiệm vụ dự đốn điểm cảm xúc khía cạnh, phương pháp học giám sát Naive Bayes được thực hiện. Cách tiếp cận này cĩ khả năng giải quyết bài tốn đa lớp và dữ liệu mất cân bằng. Với nhiệm vụ ước lượng trọng số khía cạnh, một cách tiếp cận khơng giám sát dựa trên nội dung bài viết của người dùng và tính phổ quát trong tồn bộ kho ngữ liệu được nghiên cứu. Phương pháp đề xuất giúp giải quyết được tính cá nhân hĩa trên từng người dùng nhưng lại khơng yêu cầu phải biết điểm đánh giá cảm xúc từng khía cạnh cũng như điểm đánh giá tổng thể của bài viết. Luận án đề xuất một phương pháp bán giám sát để cải thiện hiệu suất trích rút khía cạnh dựa trên biểu diễn W2V kết hợp mơ hình ngơn ngữ. Phương pháp đề xuất cĩ thể giải quyết tốt đối vớitrích rút khía cạnh ẩn và đặc biệt giải quyết được vấn đề phụ thuộc ngữ cảnh của từ trong nhiệm vụ này. Luận án đề xuất một phương pháp kết hợp hai bộ phân loại mạnh mẽ là Support Vector Machine và OR Gate Bayesian Network dựa trên lý thuyết Dempster để giải quyết nhiệm vụ phân lớp cảm xúc khía cạnh. Phương pháp đề xuất cĩ hiệu quả vượt trội so với hai phương pháp cơ sở. Đặc biệt phương pháp kết hợp cĩ thể giải quyết vấn đề phân tách các lớp gần nhau, vấn đề dữ liệu mất cân bằng trong bài tốn phân loại đa lớp. 2. Định hướng phát triển Từ những kết quả nghiên cứu đã được thực hiện và các hạn chế đã được chỉ ra, nghiên cứu sinh đề xuất một số nghiên cứu mở rộng như sau: Thứ nhất, thực hiện các nghiên cứu tổng hợp quan điểm từ các kết quả đã cơng bố của luận án. Thứ hai, mở rộng phạm vi nghiên cứu trên các dạng bài viết quan điểm khác ngồi dạng bài viết đánh giá sản phẩm trên phương tiện trực tuyến. Thứ ba, nghiên cứu sâu hơn các phương pháp học máy để cĩ thể kết hợp các phương pháp học khác nhau nhằm cải thiện hiệu suất tổng thể của hệ thống trong nhiệm vụ đặt ra. 24
  27. DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN ĐỀ TÀI LUẬN ÁN 1. Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Nguyễn Long Giang, Nguyễn Việt Anh, Nguyễn Trần Quốc Vinh. “Một phương pháp phân loại đa lớp hiệu quả trong phân tích quan điểm”. Hội nghị quốc gia lần thứ XV "Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin, Hà Nội, 11/2022, ISBN: 978-604-357-119-6 p517-526 2. Tu Nguyen Thi Ngoc, Ha Nguyen Thi Thu, Viet Anh Nguyen. “Language model combined with word2vec for product’s aspect based extraction”. ICIC Express Letters, Volume 14, Number 11, 2020, ISSN 1881-803X P1033-1040 (SCOPUS). 3. Tu Nguyen Thi Ngoc, Ha Nguyen Thi Thu, Viet Anh Nguyen. “Mining Aspects of Customer’s Review on the Social Network ”. Journal of Big Data, Volume6, Issue 1, 12/2019, ISSN: 2196-1115 (SCOPUS - Q1). 4. Nguyễn Thị Ngọc Tú, Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Việt Anh, Nguyễn Ngọc Cương. “Trích rút khía cạnh sản phẩm dựa trên mơ hình ngơn ngữ kết hợp với Word2Vec”. Hội thảo quốc gia lần thứ XXI: Một số vấn đề chọn lọc của Cơng nghệ thơng tin và truyền thơng, Thanh Hĩa, 27-28/7/2018, ISBN: 978-604-67- 1104-9 P343 - 349. 5. Nguyễn Thị Ngọc Tú, Nguyễn Đức Long, Nguyễn Khắc Giáo, Nguyễn Thị Thu Hà, Nguyễn Việt Anh. “Một phương pháp phân tích quan điểm đánh giá của người dùng đối với chất lượng sản phẩm dựa trên các nhận xét cá nhân”. Hội nghị quốc gia lần thứ X "Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin”, Đà Nẵng, 8/2017, ISBN: 978-604–913-614- 6 p585-594. 25