Science & Technology Development Journal: NATURAL SCIENCES

An official journal of University of Science, Viet Nam National University Ho Chi Minh City, Viet Nam

Skip to main content Skip to main navigation menu Skip to site footer

 Original Research

HTML

1140

Total

434

Share

A syntax‒aware deep‒learning model for biomedical semantic role labelling






 Open Access

Downloads

Download data is not yet available.

Abstract

A deep learning model for biomedical semantic role labeling was build. Semantic role labeling is a useful task that enables the computer to comprehend the key facts expressed in each sentence, and is a necessary first step in the resolution of several other semantic-related tasks, such as event extraction, entity extraction, and Q-A systems... Semantic role labeling is a domain-dependent task. In the biomedical field, semantics are transmitted via more intricate grammatical structures and dependencies in addition to being built on a predicate argument frameset that differs greatly from that of the general domain. To effectively account for these unique characteristics, three types of information were integrated into this deep learning model: Context knowledge obtained from a pre-trained language model trained on a substantial corpus of biomedical texts, dependencies derived from the dependency parse trees and sentence structure obtained from constituency parse trees. To handle grammatical information that is naturally represented as graphs, the Graph Attention Network which is well-known for its remarkable graph learning capabilities, was used. To further boost the model effectiveness, predicate indicator embedding was additionally included in the proposed model. According to experimental findings, the two above-indicated forms of syntactic information along with the predicate indicator embedding, could boost F1 by up to 20%.

Giới thiệu

Ngành Y Sinh (Biomedicine) đã xác định được thế mạnh là chăm sóc sức khỏe con người 1 , 2 . Vai trò của Y Sinh càng thể hiện rõ hơn trong đại dịch Covid-19, khi mà những nghiên cứu về Sinh học Phân tử, nhất là về vật chất di truyền, đóng vai trò quan trọng. Vì vậy, ngành khoa học này đã thu hút nhiều nghiên cứu, và vì thế kho tri thức Y Sinh càng được tích lũy nhiều đến mức đã vượt quá khả năng khai thác thủ công của con người 3 . Việc khai thác kho văn bản to lớn này, thí dụ như kho văn bản của cơ sở dữ liệu MEDLINE, bằng sức mạnh điện toán mở ra nhiều triển vọng khai phá hiệu quả tri thức trong ấy để giúp ích trong chẩn đoán và điều trị bệnh 4 , 5 .

Để làm được điều này, trước tiên máy tính phải hiểu được từng sự kiện được nói đến trong mỗi câu. Các sự kiện này được chuyển tải thông qua một cấu trúc bao gồm động từ chính trong câu, gọi là vị ngữ (predicate) và tất cả các đối tượng xoay quanh động từ này trong câu, gọi là các đối số (argument). Toàn bộ cấu trúc này gọi là cấu trúc đối số vị ngữ (Predicate Argument Structure – PAS). Do đó, tác vụ gán nhãn PAS cho văn bản là một tác vụ thiết thực. Tác vụ này còn được gọi là tác vụ gán nhãn ngữ nghĩa (Semantic Role Labelling – SRL) vì mỗi đối số trong PAS đều có một vai trò ngữ nghĩa kèm theo.

Tác vụ SRL không phải một bài toán mới mẻ trên văn bản tổng quát. Tuy nhiên, đây vẫn là một tác vụ nhiều thách thức đối với văn bản Y Sinh vì ngữ liệu gán nhãn sẵn ít ỏi và PAS trong Y Sinh có nhiều đặc thù khác xa trong văn bản tổng quát khiến cho việc thiết kế đặc trưng khó khăn hơn. Vì thế, một mô hình học sâu dựa trên mô hình ngôn ngữ tiền huấn luyện cần phải có để khắc phục tất cả những khó khăn này 6 . Quan trọng hơn, tri thức về cú pháp đóng vai trò rất tích cực trong tác vụ SRL 7 , 8 , 9 . Vì vậy, một giải pháp nhúng toàn diện tri thức cú pháp được đề nghị để nâng cao hiệu quả của mô hình. Kết quả thử nghiệm của chúng tôi trên bộ ngữ liệu PASBio+ cho thấy hiệu ứng khác nhau mà các loại tri thức ngữ pháp khác nhau tác động lên dự đoán của mô hình SRL trên văn bản Y Sinh. Các giải pháp đã đóng góp gồm có: (i) Đề xuất một mô hình học sâu cho tác vụ SRL trên văn bản Y Sinh dựa trên việc tinh chỉnh (fine tuning) một kiến trúc transformer mạnh mẽ được tiền huấn luyện trên ngữ liệu lớn của ngành Y Sinh; (ii) Thông tin cú pháp đóng vai trò rất quan trọng trong SRL 10 , vì vậy, đề xuất giải pháp nhúng hai loại cây cú pháp là cây quan hệ phụ thuộc (dependency parse tree) và cây ngữ pháp thành phần (constituency-based parse tree) vào mô hình học sâu để nâng cao hiệu quả gán nhãn ngữ nghĩa của mô hình; (iii) Thông qua thực nghiệm, đã phân tích tầm ảnh hưởng của hai loại cây cú pháp này lên tác vụ SRL khi sử dụng riêng lẻ và khi sử dụng kết hợp.

Bài báo này được trình bày như sau: Phần Cơ sở lý thuyết về cấu trúc đối số vị ngữ cung cấp những khái niệm nền tảng về cấu trúc đối số vị ngữ và sự khác biệt giữa lĩnh vực tổng quát với lĩnh vực Y Sinh, đồng thời phân tích một số bộ ngữ liệu hiện có. Phần Những nghiên cứu về SRL khái quát hiện trạng nghiên cứu của tác vụ gán nhãn ngữ nghĩa và nhấn mạnh vai trò của tri thức ngữ pháp trong tác vụ này. Phần Phương pháp thực hiện mô tả chi tiết mô hình đãi đề xuất. Kết quả thử nghiệm và những thảo luận liên quan được trình bày trong phần Kết quả thực nghiệm và thảo luận . Sau cùng, phần Kết luận khái quát lại những kết quả đạt được và đề xuất hướng phát triển.

Cơ sở lý thuyết về cấu trúc đối số vị ngữ

Trong Xử lý ngôn ngữ tự nhiên, cấu trúc đối số vị ngữ (PAS) là cách biểu diễn mối quan hệ giữa vị ngữ (thành phần cốt lõi của câu diễn tả một hành động hoặc trạng thái) và một khung đối số (frameset) chứa các đối số đi kèm (các thành phần trong câu biểu thị các thực thể liên quan đến vị ngữ). Mỗi đối số được gán nhãn với vai trò ngữ nghĩa (semantic role) của nó để mô tả vai trò của đối số ấy trong hành động hoặc trạng thái mà vị ngữ chuyển tải.

Thí dụ: Xét câu “Dennis borrowed this book from Janes”, câu này có PAS gồm vị ngữ là động từ “borrow” và ba đối số xoay quanh vị ngữ là:

Đối số 0: “Dennis” (Vai trò ngữ nghĩa: Người mượn).

Đối số 1: “this book” (Vai trò ngữ nghĩa: Vật được mượn).

Đối số 2: “Janes” (Vai trò ngữ nghĩa: Người cho mượn).

Thí dụ trên cho thấy chỉ cần nhận biết được PAS là máy tính đã nắm hết nội dung chính của câu. Trong lĩnh vực tổng quát, có một số bộ ngữ liệu gán nhãn PAS đã được xây dựng như FrameNet, VerbNet và PropBank 11 , 12 , 13 . Trong đó, PropBank định nghĩa bộ đối số chi tiết nhất cho từng vị ngữ.

Trong lĩnh vực Y Sinh, PAS có nhiều khác biệt so với PAS trong lĩnh vực tổng quát, và thường thấy nhất là khác biệt về vai trò ngữ nghĩa của các đối số. Xét động từ “mutate” làm thí dụ, đối số của động từ này trong lĩnh vực tổng quát và lĩnh vực Y Sinh có vai trò ngữ nghĩa hoàn toàn khác nhau. Trong lĩnh vực tổng quát, các đối số liên quan động từ “mutate” có ngữ nghĩa là: Tác nhân gây thay đổi, vật bị thay đổi, trạng thái trước thay đổi, trạng thái sau thay đổi 13 . Trong khi đó, với lĩnh vực Y sinh, các đối số liên quan động từ “mutate” lại có ngữ nghĩa là: Vị trí xảy ra đột biến (mô hoặc tạng), gene bị đột biến, hậu quả về kiểu gene, hậu quả về kiểu hình 5 .

Nhận thấy những khác biệt đó, một số bộ ngữ liệu PAS chuyên biệt cho lĩnh vực Y Sinh đã được xây dựng. Nếu như PAS tổng quát định nghĩa khung đối số cho tất cả động từ trong từ điển thì PAS trong Y Sinh chỉ chú ý những vị ngữ quan trọng trong văn bản Y Sinh, là những động từ truyền tải các sự kiện Y Sinh quan trọng (như đột biến, mã hóa, giải mã, biểu hiện…). Tuy nhiên, chưa có một sự thống nhất chung giữa các công trình về danh sách các động từ này. Các công trình xây dựng những bộ ngữ liệu PAS cho Y Sinh được biết đến nhiều nhất là BioProp, GREC, BioVerbNet và PASBio+.

BioProp là bộ ngữ liệu gồm 1.635 câu, được trích từ đoạn tóm tắt của 500 công bố khoa học về Y Sinh 1 . Điểm hạn chế của Bioprop là chỉ có bối cảnh ngữ liệu là Y Sinh, còn bộ khung đối số cho từng động từ thì vay mượn hoàn toàn từ PropBank. Do đó, các bộ khung đối số của BioProp thực chất là khung đối số tổng quát chứ không phải khung đối số Y Sinh.

GREC là bộ ngữ liệu bao gồm 1.489 câu, được trích từ đoạn tóm tắt của 677 công bố khoa học về Y Sinh 14 . So với BioProp, GREC vượt trội ở chỗ vị ngữ không chỉ bao gồm động từ mà còn có cả các danh động, với bộ đối số được định nghĩa chuyên biệt cho lĩnh vực Y Sinh. Ngoài ra, bộ ngữ liệu GREC còn được gán nhãn thực thể Y Sinh (Bio Named Entity). Tuy nhiên, hạn chế của GREC là không định nghĩa mối quan hệ giữa đối số và vị ngữ. Nói cách khác, GREC định nghĩa tập hợp vị ngữ và tập hợp đối số Y Sinh là hai tập hợp độc lập được phân bố ngẫu nhiên trong văn bản mà không có bất kỳ quan hệ nào với nhau.

BioVerNet là thành phần bổ sung của VerbNet, trong đó thêm vào những động từ Y Sinh mà VerbNet còn thiếu 15 . Tuy nhiên, BioVerbNet có hai hạn chế lớn là số câu gán nhãn sẵn quá ít (chỉ gồm 521 câu) và giữ nguyên khung đối số tổng quát kế thừa từ VerbNet.

PASBio+ là bộ ngữ liệu gán nhãn PAS được xây dựng bằng phương pháp bán tự động gồm 2.617 câu 16 . PASBio+ khắc phục được hạn chế của BioProp và BioVerbNet vì nó dựa trên PASBio, một công trình đặc tả chi tiết từng khung đối số chuyên biệt cho lĩnh vực Y Sinh, không vay mượn đối số của lĩnh vực tổng quát 5 . PASBio+ cũng khắc phục được hạn chế của GREC do đã đặc tả được rõ ràng mối liên hệ của từng đối số với vị ngữ của nó. Cuối cùng, PASBio+ vượt trội về mặt kích thước ngữ liệu so với BioProp và GREC với số lượng câu gần như gấp đôi.

Đối với tác vụ SRL, việc lựa chọn khung đối số có thể quyết định toàn bộ quá trình xử lý của mô hình. Sau khi phân tích các ưu và khuyết điểm của các bộ ngữ liệu cùng với khung đối số như trên, PASBio+ với bộ khung đối số PASBio được chọn cho đề ghị này.

Những nghiên cứu về SRL

Thời gian đầu, bài toán SRL được giải bằng hai hướng tiếp cận phổ biến là hướng dựa luật (rule-based) và hướng khớp mẫu (pattern matching). Hướng dựa luật đòi hỏi một bộ luật được viết thủ công bởi chuyên gia nên tốn kém và khó bao phủ hết mọi lối hành văn phong phú của ngôn ngữ tự nhiên. Tuy nhiên, nó phù hợp với các ngôn ngữ và lĩnh vực ít ngữ liệu như tiếng Hà Lan, tiếng Nhật, lĩnh vực Y Sinh… 17 , 18 , 19 , 20 , 21 . Hướng khớp mẫu so khớp các mẫu có sẵn vào văn bản để gán nhãn PAS. Hầu hết các mẫu này có được từ khai khoáng dữ liệu 22 . Dù vậy, với lĩnh vực Y Sinh vốn dĩ rất ít ngữ liệu để khai khoáng, các bộ mẫu thường có được từ sự biên soạn thủ công bởi chuyên gia, dẫn đến sự tốn kém và tính bao phủ thấp 23 , 24 .

Từ khi học máy (nhất là kỹ thuật học sâu với độ chính xác ấn tượng) ra đời thì các hướng tiếp cận cũ chỉ còn giữ vai trò bổ trợ. Bên cạnh các công trình học sâu nỗ lực tích hợp tri thức cú pháp vào mô hình thì cũng có nhiều công trình học sâu cố gắng tìm hướng đi khác để tránh những xử lý phức tạp liên quan đến cây cú pháp, từ đó hình thành hai hướng đi chính:

Những nghiên cứu về SRL

Thời gian đầu, bài toán SRL được giải bằng hai hướng tiếp cận phổ biến là hướng dựa luật (rule-based) và hướng khớp mẫu (pattern matching). Hướng dựa luật đòi hỏi một bộ luật được viết thủ công bởi chuyên gia nên tốn kém và khó bao phủ hết mọi lối hành văn phong phú của ngôn ngữ tự nhiên. Tuy nhiên, nó phù hợp với các ngôn ngữ và lĩnh vực ít ngữ liệu như tiếng Hà Lan, tiếng Nhật, lĩnh vực Y Sinh… 17 , 18 , 19 , 20 , 21 . Hướng khớp mẫu so khớp các mẫu có sẵn vào văn bản để gán nhãn PAS. Hầu hết các mẫu này có được từ khai khoáng dữ liệu 22 . Dù vậy, với lĩnh vực Y Sinh vốn dĩ rất ít ngữ liệu để khai khoáng, các bộ mẫu thường có được từ sự biên soạn thủ công bởi chuyên gia, dẫn đến sự tốn kém và tính bao phủ thấp 23 , 24 .

Từ khi học máy (nhất là kỹ thuật học sâu với độ chính xác ấn tượng) ra đời thì các hướng tiếp cận cũ chỉ còn giữ vai trò bổ trợ. Bên cạnh các công trình học sâu nỗ lực tích hợp tri thức cú pháp vào mô hình thì cũng có nhiều công trình học sâu cố gắng tìm hướng đi khác để tránh những xử lý phức tạp liên quan đến cây cú pháp, từ đó hình thành hai hướng đi chính:

Những nghiên cứu về SRL

Thời gian đầu, bài toán SRL được giải bằng hai hướng tiếp cận phổ biến là hướng dựa luật (rule-based) và hướng khớp mẫu (pattern matching). Hướng dựa luật đòi hỏi một bộ luật được viết thủ công bởi chuyên gia nên tốn kém và khó bao phủ hết mọi lối hành văn phong phú của ngôn ngữ tự nhiên. Tuy nhiên, nó phù hợp với các ngôn ngữ và lĩnh vực ít ngữ liệu như tiếng Hà Lan, tiếng Nhật, lĩnh vực Y Sinh… 17 , 18 , 19 , 20 , 21 . Hướng khớp mẫu so khớp các mẫu có sẵn vào văn bản để gán nhãn PAS. Hầu hết các mẫu này có được từ khai khoáng dữ liệu 22 . Dù vậy, với lĩnh vực Y Sinh vốn dĩ rất ít ngữ liệu để khai khoáng, các bộ mẫu thường có được từ sự biên soạn thủ công bởi chuyên gia, dẫn đến sự tốn kém và tính bao phủ thấp 23 , 24 .

Từ khi học máy (nhất là kỹ thuật học sâu với độ chính xác ấn tượng) ra đời thì các hướng tiếp cận cũ chỉ còn giữ vai trò bổ trợ. Bên cạnh các công trình học sâu nỗ lực tích hợp tri thức cú pháp vào mô hình thì cũng có nhiều công trình học sâu cố gắng tìm hướng đi khác để tránh những xử lý phức tạp liên quan đến cây cú pháp, từ đó hình thành hai hướng đi chính:

phương pháp thực hiện

Tri thức cú pháp được sử dụng

Hai loại cây cú pháp phổ biến nhất trong xử lý ngôn ngữ tự nhiên để nhúng vào mô hình SRL đã được lựa chọn trong đề xuất này: Cây quan hệ phụ thuộc (dependency parse tree) và cây ngữ pháp thành phần (constituency-based parse tree).

Cây ngữ pháp thành phần trong xử lý ngôn ngữ tự nhiên phản ánh cấu trúc ngữ pháp của một câu dựa trên các bộ phận cấu thành câu ấy. Trong cây ngữ pháp thành phần, câu được chia lại được quy thành các đơn vị hoặc thành phần nhỏ hơn. Các thành phần này bao gồm các cụm từ, mệnh đề và các đơn vị ngữ pháp khác được tạo nên bởi các từ trong câu. Xét câu sau trong bộ ngữ liệu PASBio+ làm thí dụ: “Patient 1 has a G-to-A transition at the first nucleotide of intron 2”. Câu này có cây ngữ pháp thành phần như minh họa trong Figure 1 dưới đây.

Figure 1 . Cây ngữ pháp thành phần của một thí dụ từ PASBio+

Cây quan hệ phụ thuộc là một dạng đồ thị được sử dụng trong xử lý ngôn ngữ tự nhiên để phân tích mối quan hệ giữa các từ trong câu. Trong đồ thị này, mỗi từ trong câu được biểu diễn dưới dạng một nút và mối quan hệ giữa chúng được biểu diễn thành các cạnh. Các cạnh này biểu thị các mối quan hệ ngữ pháp khác nhau giữa các từ, chẳng hạn như chủ ngữ/tân ngữ, từ bổ nghĩa/đầu tố. Cũng với câu thí dụ trên, cây quan hệ phụ thuộc được minh họa trong Hình 2.

Figure 2 . Cây quan hệ phụ thuộc của một thí dụ từ PASBio+

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .

Figure 3 . Kiến trúc tổng thể của mô hình

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .

Figure 3 . Kiến trúc tổng thể của mô hình

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .

Figure 3 . Kiến trúc tổng thể của mô hình

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .

Figure 3 . Kiến trúc tổng thể của mô hình

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .

Figure 3 . Kiến trúc tổng thể của mô hình

Mô hình được đề xuất

Dữ liệu đầu vào của mô hình SRL gồm hai loại tri thức: Tri thức ngữ cảnh của từ trong câu và tri thức cú pháp (bao gồm hai loại cây cú pháp nêu trên). Hai loại tri thức này được mã hóa thành bộ nhúng ngữ cảnh và bộ nhúng cú pháp (tất cả đều ở mức từ). Hai loại vector này được nối (concatenating) lại với nhau thành một vector duy nhất đưa vào mô hình xử lý trung tâm trước khi đi qua lớp softmax để tính toán phân bố xác suất cuối cùng cho các nhãn. Ngoài ra, ma trận liền kề cũng được sử dụng giúp cho mô hình xử lý trung tâm nắm bắt được vị trí các từ có liên quan với nhau trong câu. Kiến trúc tổng thể của mô hình được minh họa trong Figure 3 .

Figure 3 . Kiến trúc tổng thể của mô hình

Kết quả và thảo luận

Dữ liệu thử nghiệm của đề xuất này là PASBio+, một bộ ngữ liệu gán nhãn PAS được xây dựng bằng phương pháp bán tự động gồm 2617 câu 16 . PASBio+ được gán nhãn dựa trên bộ khung đối số PASBio, công trình đặc tả chi tiết cho mỗi động từ một khung đối số chuyên biệt cho lĩnh vực Y Sinh 5 . Bộ ngữ liệu PASBio+ được chia ra thành 3 tập dữ liệu để huấn luyện, đánh giá và kiểm thử tương ứng theo tỉ lệ 60/20/20. Tất cả mô hình của đề xuất được kiểm thử theo phương pháp kiểm chéo 5 pha (5-fold cross validation) và lấy điểm số trung bình.

Các mô hình thử nghiệm: lần lượt huấn luyện và so sánh năm mô hình: (i) Mô hình 1: Chỉ có mã hóa ngữ cảnh và mã hóa vị trí vị ngữ; (ii) Mô hình 2: Mô hình 1 + thêm mã hóa cây quan hệ phụ thuộc; (iii) Mô hình 3: Mô hình 1 + mã hóa cây ngữ pháp thành phần; (iv) Mô hình 4: Mô hình 1 + mã hóa cây quan hệ phụ thuộc và cây ngữ pháp thành phần; (v) Mô hình 5: Mô hình 1 nhưng không có mã hóa vị trí vị ngữ. Các mô hình trên được chạy trên máy có CPU 16 nhân. Tổng thời gian huấn luyện và kiểm thử được chia đều cho 16 nhân CPU nên thời gian thực chạy nhờ đó mà giảm đi 16 lần.

Kết quả thử nghiệm được trình bày trong Table 1Table 2 .

Table 1 Kết quả thực nghiệm thống kê trên toàn bộ ngữ liệu

Ngoài việc lấy kết quả cho toàn bộ ngữ liệu, điểm F1 cho từng vị ngữ trong danh sách 29 vị ngữ của PASBio cũng được thống kê. Bộ ngữ liệu PASBio+ được tạo ra bằng phương pháp bán tự động, trong đó có những câu tuy khác nhau về nội dung nhưng có cấu trúc ngữ pháp tương tự nhau. Vì vậy, cũng thống kê tỷ lệ cấu trúc ngữ pháp phân biệt trên tổng số câu của từng vị ngữ trong ngữ liệu để làm cơ sở cho phần thảo luận.

Table 2 Điểm F1 trung bình thống kê cho từng vị ngữ

Kết quả thực nghiệm tổng quát ( Table 1 ) cho thấy việc nhúng tri thức cú pháp giúp tăng F1 đáng kể. Trong đó, cây ngữ pháp thành phần cải thiện mô hình tốt nhất, giúp F1 tăng 6%, trội hơn cây quan hệ phụ thuộc 1,96%. Điều này cho thấy tuy cả hai loại cây cú pháp đều hữu ích nhưng tri thức từ cây ngữ pháp thành phần thực sự hữu ích hơn tri thức từ cây quan hệ phụ thuộc. Tuy nhiên, ngữ pháp thành phần đòi hỏi thời gian xử lý cao hơn quan hệ phụ thuộc, đây là sự đánh đổi cần cân nhắc khi triển khai vào ứng dụng thực tế. Ngoài ra, sự kết hợp 2 loại cú pháp (Mô hình 4) tuy đòi hỏi thời gian xử lý dài nhất nhưng hiệu quả thấp hơn các mô hình chỉ nhúng một loại cú pháp. Điều này có thể là do việc nhúng cả hai loại ngữ pháp gây ra phần nhiễu trội hơn phần tri thức hữu ích, dẫn tới hiệu quả mô hình giảm xuống. Đáng chú ý nhất là đóng góp vượt trội của Nhúng chỉ định vị ngữ (Predicate Indicator Embedding), thể hiện ở chỗ Mô hình 5 bị giảm F1 đến hơn 13% so với Mô hình 1 chỉ vì bị vắng mặt Nhúng chỉ định vị ngữ. Công trình của này có thể là công trình đầu tiên đưa Nhúng chỉ định vị ngữ vào SRL. Điều này có được nhờ thuận lợi của lĩnh vực Y Sinh chỉ tập trung vào một bộ vị ngữ hữu hạn do PASBio chỉ định.

Khi xét hiệu quả mô hình trên từng vị ngữ ( Table 2 ), nhận thấy có sự phân hóa khá rõ rệt. Một số vị ngữ cải thiện F1 vượt bậc sau khi được nhúng cú pháp, như các vị ngữ express (tăng từ 72,8 lên 98,5), transform (tăng từ 76,9 lên 92,2) hay eliminate (tăng từ 78,5 lên 87,8). Khi xem xét ngữ liệu huấn luyện của các vị từ này, nhận thấy chúng hầu như luôn là động từ chính trong câu, nghĩa là làm trung tâm của các cây cú pháp. Vì vậy, các cây cú pháp này dễ dàng hỗ trợ mô hình xác định các đối số xung quanh tốt hơn.

Vị ngữ mutate có F1 trung bình thấp nhất, nguyên nhân chủ yếu do mutate trong văn bản Y sinh có 3 dạng khác nhau: mutate , mutation , và mutated . Do đó, trong câu nó vừa có thể là danh từ, hoặc động từ, hoặc tính từ, gây khó khăn cho mô hình xử lý trung tâm. Ngược lại, vị ngữ proliferate có F1 trung bình cao nhất bởi vì trong dữ liệu huấn luyện, đối số của nó vừa ít nhất, vừa ngắn nhất. Tác vụ SRL cho proliferate nhờ vậy mà đơn giản hơn các vị ngữ khác.

Ngoài ra, hai vị ngữ là splice và catalyst có F1 ở mô hình 2 thấp hơn mô hình 1, cho thấy quan hệ phụ thuộc bị phản tác dụng. Khi phân tích ngữ liệu, chúng tôi nhận thấy quan hệ phụ thuộc của hai vị ngữ này khá phức tạp. Figure 4Figure 5 dưới đây đơn cử thí dụ về cây quan hệ phụ thuộc của splice và catalyst, qua đó cho thấy chúng có đồng thời khoảng một chục quan hệ phụ thuộc, phần lớn trong số đó không liên quan đến đối số, dẫn tới gây nhiễu đáng kể cho mô hình.

Figure 4 . Một cây quan hệ phụ thuộc của vị ngữ splice

Figure 5 . Một cây quan hệ phụ thuộc của vị ngữ catalyst

Một điều đáng chú ý là ảnh hưởng của tỷ lệ biến thể ngữ pháp phân biệt trong ngữ liệu. Trái ngược với phần lớn các vị ngữ, một ít vị ngữ có tỷ lệ biến thể ngữ pháp trong ngữ liệu thấp nhất, dưới 15% (vùng tô xám ở đầu ảng 2) lại cho F1 ở Mô hình 2 cao hơn Mô hình 3. Điều này cho thấy số biến thể ngữ pháp nghèo nàn đã dẫn đến việc trích xuất các đặc trưng về ngữ pháp thành phần không đem lại nhiều ý nghĩa bằng quan hệ phụ thuộc, và cũng cho thấy chất lượng của quan hệ phụ thuộc không nhạy cảm với tỷ lệ biến thể ngữ pháp trong ngữ liệu.

Cuối cùng, đối với các vị ngữ có tỷ lệ biến thể ngữ pháp cao nhất, trên 75% (vùng tô xám ở cuối ảng 2), kết quả của Mô hình 4 lại là kết quả cao nhất. Điều này cho thấy rằng một lượng biến thể ngữ pháp phong phú sẽ hỗ trợ mô hình trung tâm học được cách phối hợp hiệu quả giữa quan hệ phụ thuộc với ngữ pháp thành phần, từ đó giúp cho Mô hình 4 đạt F1 cao nhất.

Kết luận

Một mô hình học sâu cho tác vụ SRL trên văn bản Y Sinh đã được xây đựng, trong đó kết hợp ba loại tri thức là tri thức ngữ cảnh từ mô hình ngôn ngữ tiền huấn luyện, tri thức quan hệ phụ thuộc, và tri thức ngữ pháp thành phần. Kết quả thực nghiệm cho thấy trên tổng quát thì tri thức ngữ pháp thành phần cải thiện mô hình tốt nhất (F1 tăng 6%). Tuy nhiên, ở một số vị ngữ có tỷ lệ biến thể ngữ pháp phong phú trong ngữ liệu thì sự kết hợp cả hai loại tri thức cú pháp phát huy hiệu quả cao nhất và có thể tăng F1 lên tối đa gần 20% (trường hợp vị ngữ translate). Ngoài ra, Nhúng chỉ định vị ngữ cho SRL Y Sinh cũng được thử nghiệm và cho thấy vector này giúp F1 tăng đáng kể (hơn 13%).

Tuy nhiên, mô hình này cần đánh đổi bằng thời gian xử lý khi phải phân tích từng câu ra hai cây cú pháp trước khi có thể đưa vào mô hình. Vì vậy, hướng phát triển là sử dụng học chuyển giao (transfer learning) để tái sử dụng hai loại tri thức cú pháp từ mô hình khác. Điều này sẽ giúp tránh được việc phân tích cú pháp ở pha kiểm thử, từ đó hướng đến triển vọng triển khai vào ứng dụng trong nghiệp vụ thực tế được thuận lợi hơn.

LỜI CẢM ƠN

Nghiên cứu được tài trợ bởi Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM trong khuôn khổ Đề tài mã số CNTT 2023-01.

DANH MỤC TỪ VIẾT TẮT

PAS: Predicate Argument Structure

SRL: Semantic Role Labelling

GAT: Graph ATtention network

XUNG ĐỘT LỢI ÍCH TÁC GIẢ

Các tác giả tuyên bố rằng họ không có xung đột lợi ích.

ĐÓNG GÓP CỦA TÁC GIẢ

Tuấn Nguyên Hoài Đức chủ trì đề tài, tiến hành khảo sát hiện trạng, thu thập dữ liệu, phân tích đánh giá giải pháp và viết bài.

Lưu Trường Dương và Huỳnh Quốc Duy tham gia khảo sát hiện trạng, đề xuất giải pháp và lập trình thử nghiệm.

PHỤ LỤC A

Về các nhãn cú pháp liên quan đến cây quan hệ phụ thuộc được phân tích bởi thư viện SpaCy, sau khi sử dụng ngưỡng tần số 1% để lọc, chúng tôi chọn được 10 từ loại thường gặp nhất và 18 quan hệ phụ thuộc phổ biến nhất trong ngữ liệu PASBio+, được trình bày trong Table 3Table 4 .

Table 3 10 nhãn từ loại phổ biến trong PASBio+

Table 4 18 nhãn quan hệ phụ thuộc phổ biến trong PASBio+

PHỤ LỤC B

? liệt kê 10 nhãn ngữ, hay còn gọi là nhãn ngữ pháp thành phần, đại diện cho 10 loại ngữ khác nhau có thể hiện diện trên cây ngữ pháp thành phần.

Table 5 Các nhãn ngữ (phrase) trong PASBio+

PHỤ LỤC C

Các thông số cấu hình Mô hình xử lý trung tâm khi huấn luyện trên tập ngữ liệu PASBio+:

Table 6 Các thông số cấu hình khi chạy mô hình

Các mô hình trên được chạy trên máy có cấu hình: Intel(R) Xeon(R) CPU E5-2609 v4 @ 1.70GHz, CPU 16 core, Ram 32 GB.

References

  1. Wen-Chi Chou, "A Semi-Automatic Method for Annotating a Biomedical Proposition Bank," in Workshop on Frontiers in Linguistically Annotated Corpora; 2006. . ;:. Google Scholar
  2. Kirschner MW, Marincola E, Teisberg EO. The role of biomedical research in health care reform. Science;266(5182). doi: 10.1126/science.7939643, PMID 7939643 in . Science. 1994;266(5182):49-51. . ;:. PubMed Google Scholar
  3. Shatkay H, Feldman R. Mining the biomedical literature in the genomic era: an overview. J Comput Biol. 2003;10(6):821-55. . ;:. PubMed Google Scholar
  4. Kim J-D, Ohta T, Tsujii J. Corpus annotation for mining biomedical events from literature. BMC Bioinformatics. 2008;9:10. . ;:. PubMed Google Scholar
  5. Wattarujeekrit T, Shah PK, Collier N. PASBio: predicate-argument structures for event extraction in molecular biology. BMC Bioinformatics. 2004;5:155. . ;:. PubMed Google Scholar
  6. Schmidhuber J. Deep learning in neural networks: an overview. Neural Netw. 2015;61:85-117. . ;:. PubMed Google Scholar
  7. Roth M, Lapata M. Neural semantic role labeling with dependency path embeddings. Available from: https://aclanthology.org/P16-1113/. In: the 54th Annual Meeting of the Association for Computational Linguistics; 2016. . ;:. Google Scholar
  8. Strubell E, Verga P, Andor D, Weiss D, McCallum A. Linguistically informed self-attention for semantic role labeling. Available from: https://arxiv.org/abs/1804.08199. In: the 2018 Conference on Empirical Methods in Natural Language Processing; 2018. . ;:. Google Scholar
  9. He Luheng, Lee K, Lewis M, Zettlemoyer L. Deep semantic role labeling: what works and What's Next. Available from: https://aclanthology.org/P17-1044/. In: the 55th Annual Meeting of the Association for Computational Linguistics; 2017. . ;:. Google Scholar
  10. Punyakanok Vasin, Roth D, Yih W. The Importance of Syntactic Parsing and Inference in Semantic Role Labeling. Comp Linguist. 2008;34(2):257-87. . ;:. Google Scholar
  11. Baker CF, Fillmore CJ, Lowe JB. The Berkeley FrameNet project. Available from: https://aclanthology.org/P98-1013. In: 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics; 1998. . ;:. Google Scholar
  12. Kipper K. Hoa Trang Dang và Martha Palmer, [Class-based construction of a verb lexicon]. In: the Seventeenth National Conference on Artificial Intelligence; 2000. . ;:. Google Scholar
  13. Kingsbury P, Palmer M. From TreeBank to PropBank. Available from: https://aclanthology.org/L02-1283/. In: the Third International Conference on Language Resources and Evaluation; 2002. . ;:. Google Scholar
  14. Thompson P, Cotter P, McNaught J, Ananiadou S, Montemagni S, Trabucco A et al. Building a bio-event annotated corpus for the acquisition of semantic frames from biomedical corpora. Available from: https://aclanthology.org/L08-1231/. In: the Sixth International Conference on Language Resources and Evaluation; 2008. . ;:. Google Scholar
  15. Majewska O, Collins C, Baker S, Björne Jari, Brown SW, Korhonen A et al. BioVerbNet: a large semantic-syntactic classification of verbs in biomedicine. J Biomed Semantics. 2021;12(1):12. . ;:. PubMed Google Scholar
  16. Đức TNH, Hoàng VT, Phạm HS. A semiautomatic approach to biomedical semantic role corpus construction. VNUHCM J Nat Sci. 2022;6(2):2083-94. . ;:. Google Scholar
  17. Stevens G. XARA: an XML- and rule-based semantic role labeler; 2007. In: The Linguistic Annotation workshop. . ;:. PubMed Google Scholar
  18. Iida R, Komachi M, Inui K, Matsumoto Y. Annotating a Japanese text corpus with predicate-argument and coreference relations; 2007. In: The Linguistic Annotation workshop. . ;:. Google Scholar
  19. Pollard C, Sag IA. Head-driven phrase structure grammar. In: the 57th Annual Meeting of the Association for Computational Linguistics; 1994. . ;:. Google Scholar
  20. Liakata M, Stephen G. Pulman. In: From trees to predicate-argument the 19th international conference on Computational linguistics; 2002. . ;:. Google Scholar
  21. Wattarujeekrit T, Collier N. Exploring predicate-argument relations for named entity recognition in the molecular biology domain. In: IFIP Working Conference on Database Semantics; 2005. . ;:. Google Scholar
  22. Riloff E. Automatically generating extraction patterns from untagged text. In: the thirteenth national conference Artificial intelligence; 1996. . ;:. Google Scholar
  23. Lin C-S (A), Smith TC. Semantic role labeling via consensus in pattern-matching. In: Conference on Computational Natural Language Learning; 2005. . ;:. Google Scholar
  24. Huang M, Zhu X, Hao Y, Payan DG, Qu K, Li M. Discovering patterns to extract protein-protein interactions from full texts. Bioinformatics. 2004;20(18):3604-12. . ;:. PubMed Google Scholar
  25. Zhou J, Xu W. End-to-end learning of semantic role labeling using recurrent neural. In: the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing; 2015. . ;:. Google Scholar
  26. FitzGerald N, Täckström O, Ganchev K, Das D. Semantic role labeling with neural network factors. Available from: https://aclanthology.org/D15-1112.pdf. In: the 2015 Conference on Empirical Methods in Natural Language Processing; 2015. . ;:. Google Scholar
  27. Lewis M, Steedman M. A* CCG parsing with a supertag-factored model. Available from: https://aclanthology.org/D14-1107. In: the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP); 2014. . ;:. Google Scholar
  28. Marcheggiani D, Frolov A, Titov I. A simple and accurate syntax-agnostic neural model for dependency-based semantic role labeling. Available from: https://aclanthology.org/K17-1041. In: the 21st Conference on Computational Natural Language Learning (CoNLL 2017); 2017. . ;:. Google Scholar
  29. Cai J, He Shexia, Li Zuchao, Zhao H. A full end-to-end semantic role labeler, syntactic-agnostic over syntactic-aware. In: the 27th International Conference on Computational Linguistics; 2018. . ;:. Google Scholar
  30. Li Zuchao, He Shexia, Zhao H, Zhang Y, Zhang Zhuosheng, Zhou X et al. Dependency or span, end-to-end uniform semantic role labeling. AAAI. 2018;33(1):6730-7. . ;:. Google Scholar
  31. Dozat T, Manning CD. Deep biaffine attention for neural dependency parsing. ICLR. 2017;2017. . ;:. Google Scholar
  32. Roth M, Lapata M. Neural semantic role labeling with dependency path embeddings. Available from: https://aclanthology.org/P16-1113. In: the 54th Annual Meeting of the Association for Computational Linguistics; 2016. . ;:. Google Scholar
  33. Qian F, Sha L, Chang B, Liu L-C, Zhang M. Syntax Aware LSTM model for Semantic Role Labeling. In: the 2nd Workshop on Structured Prediction for Natural Language Processing; 2017. . ;:. Google Scholar
  34. Tai KS, Socher R, Manning CD. Improved semantic representations from tree-structured long short-term memory networks. In: the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing; 2015. . ;:. Google Scholar
  35. Marcheggiani D, Titov I. Encoding sentences with graph convolutional networks. Available from: https://aclanthology.org/D17-1159. In: the 2017 Conference on Empirical Methods in Natural Language Processing; 2017. . ;:. Google Scholar
  36. Marcheggiani D, Titov I. Graph convolutions over constituent trees for syntax-aware semantic role labeling. Available from: https://aclanthology.org/2020.emnlp-main.322. In: the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP); 2020. . ;:. Google Scholar
  37. Cai R, Lapata M. Syntax-aware semantic role labeling without parsing. Trans Assoc Comp Linguist. 2019;7:343-56. . ;:. Google Scholar
  38. Swayamdipta S, Thomson S, Lee K, Zettlemoyer L, Dyer C, Smith NA. Syntactic scaffolds for semantic structures. In: the 2018 Conference on Empirical Methods in Natural Language Processing; 2018. . ;:. Google Scholar
  39. Lee Jinhyuk, Yoon Wonjin, Kim Sungdong, Kim Donghyeon, Kim Sunkyu, So CH et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020;36(4):1234-40. . ;:. PubMed Google Scholar
  40. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN et al. Attention is all you need.. In: Neural information processing systems (NIPS 2017). Long Beach, CA; 2017. . ;:. Google Scholar
  41. spaCy: industrial-strength NLP [online]. . ;:. Google Scholar
  42. "NLTK: Natural Language Toolkit," [online]. . ;:. Google Scholar
  43. Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations. In: Vol. 2018; 2018. NAACL. . ;:. Google Scholar
  44. Veličković P, Cucurull G, Casanova A, Romero A, Liò P, Bengio Y. Graph attention networks. ICLR. 2018;2018. . ;:. Google Scholar


Author's Affiliation
Article Details

Issue: Vol 7 No 4 (2023)
Page No.: 2750-2762
Published: Dec 31, 2023
Section: Original Research
DOI: https://doi.org/10.32508/stdjns.v7i4.1279

 Copyright Info

Creative Commons License

Copyright: The Authors. This is an open access article distributed under the terms of the Creative Commons Attribution License CC-BY 4.0., which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

 How to Cite
Tuan Nguyen, H. D., Luu, T. D., & Huynh, Q. D. (2023). A syntax‒aware deep‒learning model for biomedical semantic role labelling. Science & Technology Development Journal: Natural Sciences, 7(4), 2750-2762. https://doi.org/https://doi.org/10.32508/stdjns.v7i4.1279

 Cited by



Article level Metrics by Paperbuzz/Impactstory
Article level Metrics by Altmetrics

 Article Statistics
HTML = 1140 times
PDF   = 434 times
XML   = 0 times
Total   = 434 times