A syntax‒aware deep‒learning model for biomedical semantic role labelling

Hoai Duc Tuan Nguyen; Truong Duong Luu; Quoc Duy Huynh

doi:10.32508/stdjns.v7i4.1279

Downloads

Download data is not yet available.

Abstract

A deep learning model for biomedical semantic role labeling was build. Semantic role labeling is a useful task that enables the computer to comprehend the key facts expressed in each sentence, and is a necessary first step in the resolution of several other semantic-related tasks, such as event extraction, entity extraction, and Q-A systems... Semantic role labeling is a domain-dependent task. In the biomedical field, semantics are transmitted via more intricate grammatical structures and dependencies in addition to being built on a predicate argument frameset that differs greatly from that of the general domain. To effectively account for these unique characteristics, three types of information were integrated into this deep learning model: Context knowledge obtained from a pre-trained language model trained on a substantial corpus of biomedical texts, dependencies derived from the dependency parse trees and sentence structure obtained from constituency parse trees. To handle grammatical information that is naturally represented as graphs, the Graph Attention Network which is well-known for its remarkable graph learning capabilities, was used. To further boost the model effectiveness, predicate indicator embedding was additionally included in the proposed model. According to experimental findings, the two above-indicated forms of syntactic information along with the predicate indicator embedding, could boost F1 by up to 20%.

Giới thiệu

Ngành Y Sinh (Biomedicine) đã xác định được thế mạnh là chăm sóc sức khỏe con người 1 , 2 . Vai trò của Y Sinh càng thể hiện rõ hơn trong đại dịch Covid-19, khi mà những nghiên cứu về Sinh học Phân tử, nhất là về vật chất di truyền, đóng vai trò quan trọng. Vì vậy, ngành khoa học này đã thu hút nhiều nghiên cứu, và vì thế kho tri thức Y Sinh càng được tích lũy nhiều đến mức đã vượt quá khả năng khai thác thủ công của con người 3 . Việc khai thác kho văn bản to lớn này, thí dụ như kho văn bản của cơ sở dữ liệu MEDLINE, bằng sức mạnh điện toán mở ra nhiều triển vọng khai phá hiệu quả tri thức trong ấy để giúp ích trong chẩn đoán và điều trị bệnh 4 , 5 .

Để làm được điều này, trước tiên máy tính phải hiểu được từng sự kiện được nói đến trong mỗi câu. Các sự kiện này được chuyển tải thông qua một cấu trúc bao gồm động từ chính trong câu, gọi là vị ngữ (predicate) và tất cả các đối tượng xoay quanh động từ này trong câu, gọi là các đối số (argument). Toàn bộ cấu trúc này gọi là cấu trúc đối số vị ngữ (Predicate Argument Structure – PAS). Do đó, tác vụ gán nhãn PAS cho văn bản là một tác vụ thiết thực. Tác vụ này còn được gọi là tác vụ gán nhãn ngữ nghĩa (Semantic Role Labelling – SRL) vì mỗi đối số trong PAS đều có một vai trò ngữ nghĩa kèm theo.

Tác vụ SRL không phải một bài toán mới mẻ trên văn bản tổng quát. Tuy nhiên, đây vẫn là một tác vụ nhiều thách thức đối với văn bản Y Sinh vì ngữ liệu gán nhãn sẵn ít ỏi và PAS trong Y Sinh có nhiều đặc thù khác xa trong văn bản tổng quát khiến cho việc thiết kế đặc trưng khó khăn hơn. Vì thế, một mô hình học sâu dựa trên mô hình ngôn ngữ tiền huấn luyện cần phải có để khắc phục tất cả những khó khăn này 6 . Quan trọng hơn, tri thức về cú pháp đóng vai trò rất tích cực trong tác vụ SRL 7 , 8 , 9 . Vì vậy, một giải pháp nhúng toàn diện tri thức cú pháp được đề nghị để nâng cao hiệu quả của mô hình. Kết quả thử nghiệm của chúng tôi trên bộ ngữ liệu PASBio+ cho thấy hiệu ứng khác nhau mà các loại tri thức ngữ pháp khác nhau tác động lên dự đoán của mô hình SRL trên văn bản Y Sinh. Các giải pháp đã đóng góp gồm có: (i) Đề xuất một mô hình học sâu cho tác vụ SRL trên văn bản Y Sinh dựa trên việc tinh chỉnh (fine tuning) một kiến trúc transformer mạnh mẽ được tiền huấn luyện trên ngữ liệu lớn của ngành Y Sinh; (ii) Thông tin cú pháp đóng vai trò rất quan trọng trong SRL 10 , vì vậy, đề xuất giải pháp nhúng hai loại cây cú pháp là cây quan hệ phụ thuộc (dependency parse tree) và cây ngữ pháp thành phần (constituency-based parse tree) vào mô hình học sâu để nâng cao hiệu quả gán nhãn ngữ nghĩa của mô hình; (iii) Thông qua thực nghiệm, đã phân tích tầm ảnh hưởng của hai loại cây cú pháp này lên tác vụ SRL khi sử dụng riêng lẻ và khi sử dụng kết hợp.

Bài báo này được trình bày như sau: Phần Cơ sở lý thuyết về cấu trúc đối số vị ngữ cung cấp những khái niệm nền tảng về cấu trúc đối số vị ngữ và sự khác biệt giữa lĩnh vực tổng quát với lĩnh vực Y Sinh, đồng thời phân tích một số bộ ngữ liệu hiện có. Phần Những nghiên cứu về SRL khái quát hiện trạng nghiên cứu của tác vụ gán nhãn ngữ nghĩa và nhấn mạnh vai trò của tri thức ngữ pháp trong tác vụ này. Phần Phương pháp thực hiện mô tả chi tiết mô hình đãi đề xuất. Kết quả thử nghiệm và những thảo luận liên quan được trình bày trong phần Kết quả thực nghiệm và thảo luận . Sau cùng, phần Kết luận khái quát lại những kết quả đạt được và đề xuất hướng phát triển.

Cơ sở lý thuyết về cấu trúc đối số vị ngữ

Trong Xử lý ngôn ngữ tự nhiên, cấu trúc đối số vị ngữ (PAS) là cách biểu diễn mối quan hệ giữa vị ngữ (thành phần cốt lõi của câu diễn tả một hành động hoặc trạng thái) và một khung đối số (frameset) chứa các đối số đi kèm (các thành phần trong câu biểu thị các thực thể liên quan đến vị ngữ). Mỗi đối số được gán nhãn với vai trò ngữ nghĩa (semantic role) của nó để mô tả vai trò của đối số ấy trong hành động hoặc trạng thái mà vị ngữ chuyển tải.

Thí dụ: Xét câu “Dennis borrowed this book from Janes”, câu này có PAS gồm vị ngữ là động từ “borrow” và ba đối số xoay quanh vị ngữ là:

Đối số 0: “Dennis” (Vai trò ngữ nghĩa: Người mượn).

Đối số 1: “this book” (Vai trò ngữ nghĩa: Vật được mượn).

Đối số 2: “Janes” (Vai trò ngữ nghĩa: Người cho mượn).

Thí dụ trên cho thấy chỉ cần nhận biết được PAS là máy tính đã nắm hết nội dung chính của câu. Trong lĩnh vực tổng quát, có một số bộ ngữ liệu gán nhãn PAS đã được xây dựng như FrameNet, VerbNet và PropBank 11 , 12 , 13 . Trong đó, PropBank định nghĩa bộ đối số chi tiết nhất cho từng vị ngữ.

Trong lĩnh vực Y Sinh, PAS có nhiều khác biệt so với PAS trong lĩnh vực tổng quát, và thường thấy nhất là khác biệt về vai trò ngữ nghĩa của các đối số. Xét động từ “mutate” làm thí dụ, đối số của động từ này trong lĩnh vực tổng quát và lĩnh vực Y Sinh có vai trò ngữ nghĩa hoàn toàn khác nhau. Trong lĩnh vực tổng quát, các đối số liên quan động từ “mutate” có ngữ nghĩa là: Tác nhân gây thay đổi, vật bị thay đổi, trạng thái trước thay đổi, trạng thái sau thay đổi 13 . Trong khi đó, với lĩnh vực Y sinh, các đối số liên quan động từ “mutate” lại có ngữ nghĩa là: Vị trí xảy ra đột biến (mô hoặc tạng), gene bị đột biến, hậu quả về kiểu gene, hậu quả về kiểu hình 5 .

Nhận thấy những khác biệt đó, một số bộ ngữ liệu PAS chuyên biệt cho lĩnh vực Y Sinh đã được xây dựng. Nếu như PAS tổng quát định nghĩa khung đối số cho tất cả động từ trong từ điển thì PAS trong Y Sinh chỉ chú ý những vị ngữ quan trọng trong văn bản Y Sinh, là những động từ truyền tải các sự kiện Y Sinh quan trọng (như đột biến, mã hóa, giải mã, biểu hiện…). Tuy nhiên, chưa có một sự thống nhất chung giữa các công trình về danh sách các động từ này. Các công trình xây dựng những bộ ngữ liệu PAS cho Y Sinh được biết đến nhiều nhất là BioProp, GREC, BioVerbNet và PASBio+.

BioProp là bộ ngữ liệu gồm 1.635 câu, được trích từ đoạn tóm tắt của 500 công bố khoa học về Y Sinh 1 . Điểm hạn chế của Bioprop là chỉ có bối cảnh ngữ liệu là Y Sinh, còn bộ khung đối số cho từng động từ thì vay mượn hoàn toàn từ PropBank. Do đó, các bộ khung đối số của BioProp thực chất là khung đối số tổng quát chứ không phải khung đối số Y Sinh.

GREC là bộ ngữ liệu bao gồm 1.489 câu, được trích từ đoạn tóm tắt của 677 công bố khoa học về Y Sinh 14 . So với BioProp, GREC vượt trội ở chỗ vị ngữ không chỉ bao gồm động từ mà còn có cả các danh động, với bộ đối số được định nghĩa chuyên biệt cho lĩnh vực Y Sinh. Ngoài ra, bộ ngữ liệu GREC còn được gán nhãn thực thể Y Sinh (Bio Named Entity). Tuy nhiên, hạn chế của GREC là không định nghĩa mối quan hệ giữa đối số và vị ngữ. Nói cách khác, GREC định nghĩa tập hợp vị ngữ và tập hợp đối số Y Sinh là hai tập hợp độc lập được phân bố ngẫu nhiên trong văn bản mà không có bất kỳ quan hệ nào với nhau.

BioVerNet là thành phần bổ sung của VerbNet, trong đó thêm vào những động từ Y Sinh mà VerbNet còn thiếu 15 . Tuy nhiên, BioVerbNet có hai hạn chế lớn là số câu gán nhãn sẵn quá ít (chỉ gồm 521 câu) và giữ nguyên khung đối số tổng quát kế thừa từ VerbNet.

PASBio+ là bộ ngữ liệu gán nhãn PAS được xây dựng bằng phương pháp bán tự động gồm 2.617 câu 16 . PASBio+ khắc phục được hạn chế của BioProp và BioVerbNet vì nó dựa trên PASBio, một công trình đặc tả chi tiết từng khung đối số chuyên biệt cho lĩnh vực Y Sinh, không vay mượn đối số của lĩnh vực tổng quát 5 . PASBio+ cũng khắc phục được hạn chế của GREC do đã đặc tả được rõ ràng mối liên hệ của từng đối số với vị ngữ của nó. Cuối cùng, PASBio+ vượt trội về mặt kích thước ngữ liệu so với BioProp và GREC với số lượng câu gần như gấp đôi.

Đối với tác vụ SRL, việc lựa chọn khung đối số có thể quyết định toàn bộ quá trình xử lý của mô hình. Sau khi phân tích các ưu và khuyết điểm của các bộ ngữ liệu cùng với khung đối số như trên, PASBio+ với bộ khung đối số PASBio được chọn cho đề ghị này.

Những nghiên cứu về SRL

Thời gian đầu, bài toán SRL được giải bằng hai hướng tiếp cận phổ biến là hướng dựa luật (rule-based) và hướng khớp mẫu (pattern matching). Hướng dựa luật đòi hỏi một bộ luật được viết thủ công bởi chuyên gia nên tốn kém và khó bao phủ hết mọi lối hành văn phong phú của ngôn ngữ tự nhiên. Tuy nhiên, nó phù hợp với các ngôn ngữ và lĩnh vực ít ngữ liệu như tiếng Hà Lan, tiếng Nhật, lĩnh vực Y Sinh… 17 , 18 , 19 , 20 , 21 . Hướng khớp mẫu so khớp các mẫu có sẵn vào văn bản để gán nhãn PAS. Hầu hết các mẫu này có được từ khai khoáng dữ liệu 22 . Dù vậy, với lĩnh vực Y Sinh vốn dĩ rất ít ngữ liệu để khai khoáng, các bộ mẫu thường có được từ sự biên soạn thủ công bởi chuyên gia, dẫn đến sự tốn kém và tính bao phủ thấp 23 , 24 .

Từ khi học máy (nhất là kỹ thuật học sâu với độ chính xác ấn tượng) ra đời thì các hướng tiếp cận cũ chỉ còn giữ vai trò bổ trợ. Bên cạnh các công trình học sâu nỗ lực tích hợp tri thức cú pháp vào mô hình thì cũng có nhiều công trình học sâu cố gắng tìm hướng đi khác để tránh những xử lý phức tạp liên quan đến cây cú pháp, từ đó hình thành hai hướng đi chính:

Những nghiên cứu về SRL

Thời gian đầu, bài toán SRL được giải bằng hai hướng tiếp cận phổ biến là hướng dựa luật (rule-based) và hướng khớp mẫu (pattern matching). Hướng dựa luật đòi hỏi một bộ luật được viết thủ công bởi chuyên gia nên tốn kém và khó bao phủ hết mọi lối hành văn phong phú của ngôn ngữ tự nhiên. Tuy nhiên, nó phù hợp với các ngôn ngữ và lĩnh vực ít ngữ liệu như tiếng Hà Lan, tiếng Nhật, lĩnh vực Y Sinh… 17 , 18 , 19 , 20 , 21 . Hướng khớp mẫu so khớp các mẫu có sẵn vào văn bản để gán nhãn PAS. Hầu hết các mẫu này có được từ khai khoáng dữ liệu 22 . Dù vậy, với lĩnh vực Y Sinh vốn dĩ rất ít ngữ liệu để khai khoáng, các bộ mẫu thường có được từ sự biên soạn thủ công bởi chuyên gia, dẫn đến sự tốn kém và tính bao phủ thấp 23 , 24 .

Từ khi học máy (nhất là kỹ thuật học sâu với độ chính xác ấn tượng) ra đời thì các hướng tiếp cận cũ chỉ còn giữ vai trò bổ trợ. Bên cạnh các công trình học sâu nỗ lực tích hợp tri thức cú pháp vào mô hình thì cũng có nhiều công trình học sâu cố gắng tìm hướng đi khác để tránh những xử lý phức tạp liên quan đến cây cú pháp, từ đó hình thành hai hướng đi chính:

Những nghiên cứu về SRL

Thời gian đầu, bài toán SRL được giải bằng hai hướng tiếp cận phổ biến là hướng dựa luật (rule-based) và hướng khớp mẫu (pattern matching). Hướng dựa luật đòi hỏi một bộ luật được viết thủ công bởi chuyên gia nên tốn kém và khó bao phủ hết mọi lối hành văn phong phú của ngôn ngữ tự nhiên. Tuy nhiên, nó phù hợp với các ngôn ngữ và lĩnh vực ít ngữ liệu như tiếng Hà Lan, tiếng Nhật, lĩnh vực Y Sinh… 17 , 18 , 19 , 20 , 21 . Hướng khớp mẫu so khớp các mẫu có sẵn vào văn bản để gán nhãn PAS. Hầu hết các mẫu này có được từ khai khoáng dữ liệu 22 . Dù vậy, với lĩnh vực Y Sinh vốn dĩ rất ít ngữ liệu để khai khoáng, các bộ mẫu thường có được từ sự biên soạn thủ công bởi chuyên gia, dẫn đến sự tốn kém và tính bao phủ thấp 23 , 24 .

Từ khi học máy (nhất là kỹ thuật học sâu với độ chính xác ấn tượng) ra đời thì các hướng tiếp cận cũ chỉ còn giữ vai trò bổ trợ. Bên cạnh các công trình học sâu nỗ lực tích hợp tri thức cú pháp vào mô hình thì cũng có nhiều công trình học sâu cố gắng tìm hướng đi khác để tránh những xử lý phức tạp liên quan đến cây cú pháp, từ đó hình thành hai hướng đi chính:

phương pháp thực hiện

Tri thức cú pháp được sử dụng

Hai loại cây cú pháp phổ biến nhất trong xử lý ngôn ngữ tự nhiên để nhúng vào mô hình SRL đã được lựa chọn trong đề xuất này: Cây quan hệ phụ thuộc (dependency parse tree) và cây ngữ pháp thành phần (constituency-based parse tree).

Cây ngữ pháp thành phần trong xử lý ngôn ngữ tự nhiên phản ánh cấu trúc ngữ pháp của một câu dựa trên các bộ phận cấu thành câu ấy. Trong cây ngữ pháp thành phần, câu được chia lại được quy thành các đơn vị hoặc thành phần nhỏ hơn. Các thành phần này bao gồm các cụm từ, mệnh đề và các đơn vị ngữ pháp khác được tạo nên bởi các từ trong câu. Xét câu sau trong bộ ngữ liệu PASBio+ làm thí dụ: “Patient 1 has a G-to-A transition at the first nucleotide of intron 2”. Câu này có cây ngữ pháp thành phần như minh họa trong Figure 1 dưới đây.

Figure 1 . Cây ngữ pháp thành phần của một thí dụ từ PASBio+

[Download figure]

Cây quan hệ phụ thuộc là một dạng đồ thị được sử dụng trong xử lý ngôn ngữ tự nhiên để phân tích mối quan hệ giữa các từ trong câu. Trong đồ thị này, mỗi từ trong câu được biểu diễn dưới dạng một nút và mối quan hệ giữa chúng được biểu diễn thành các cạnh. Các cạnh này biểu thị các mối quan hệ ngữ pháp khác nhau giữa các từ, chẳng hạn như chủ ngữ/tân ngữ, từ bổ nghĩa/đầu tố. Cũng với câu thí dụ trên, cây quan hệ phụ thuộc được minh họa trong Hình 2.

Figure 2 . Cây quan hệ phụ thuộc của một thí dụ từ PASBio+

[Download figure]

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .