LINK DOWNLOAD MIỄN PHÍ TÀI LIỆU "nhận dạng thực thể trong văn bản tiếng việt": http://123doc.vn/document/1044822-nhan-dang-thuc-the-trong-van-ban-tieng-viet.htm
iii
Mục lục
Lời mở đầu i
Lời cảm ơn ii
Mục lục iii
Danh sách hình vẽ v
Danh sách bảng vi
Chương 1 Giới thiệu 1
Chương 2 Các hướng tiếp cận cho bài toán nhận dạng thực thể 4
2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực thể 5
2.2 Hướng tiếp cận sử dụng các phương pháp học máy cho bài toán nhận dạng thực thể 7
2.3 Hướng tiếp cận lai 10
Chương 3 Giới thiệu GATE 11
3.1 Tổng quan về GATE 11
3.2 Những khái niệm trong khung làm việc GATE 13
3.3 Bộ từ điển (Gazetteers) 14
3.4 Bộ luật JAPE 15
3.4.1 Mệnh đề trái (LHS) 16
3.4.2 Thành phần thay thế (Macros) 17
3.4.3 Mệnh đề phải (RHS) 18
3.4.4 Sử dụng đoạn mã Java trong JAPE 19
3.4.5 Một vài lựa chọn khi viết luật 20
3.5 Tạo thêm thành phần tích hợp trên khung làm việc GATE 22
3.6 Tạo ứng dụng trên GATE 25
3.7 Các công cụ quản lý chất lượng 25
3.7.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) 26
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
iv
3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) 26
Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt 28
4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các loại thực thể 29
4.1.1 Các khái niệm cơ bản 29
4.1.1.1 Định nghĩa thực thể và tên thực thể 29
4.1.1.2 Các loại thực thể được nhận dạng 29
4.1.2 Quy tắc nhận dạng thực thể 30
4.2 Chuẩn bị tập dữ liệu 30
4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt 32
4.3.1 Bộ tách từ và bộ gán nhãn từ loại 33
4.3.2 Bộ từ điển 35
4.3.3 Bộ luật 37
4.3.3.1 Chuẩn hóa tập nhãn Lookup 38
4.3.3.2 Tạo nhãn “NamePhrase” 38
4.3.3.3 Nhận dạng thực thể chỉ công trình <Facility> 39
4.3.3.4 Nhận dạng thực thể chỉ địa điểm <Location> và thực thể thuộc về quốc gia <Nationality> . 39
4.3.3.5 Nhận dạng thực thể chỉ tổ chức <Organization> 41
4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo <Religion> 41
4.3.3.7 Nhận dạng các thực thể chỉ người <Person > 42
4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh 42
Chương 5 Kết quả thực nghiệm và phân tích lỗi 48
5.1 Các bước tiến hành thực nghiệm 48
5.2 Kết quả thực nghiệm 48
5.3 Phân tích lỗi 51
Chương 6 Tổng kết và hướng phát triển 54
Tài liệu tham khảo 55
Phụ lục A. Annotation Guideline. 58
Phụ lục B. Bảng nhãn từ loại tiếng Việt 63
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
v
Danh sách hình vẽ
Hình 2.1 - Kết quả cho 10 lần thực nghiệm của Nguyễn Cẩm Tú (Nguyễn 2005) 9
Hình 3.1 - Kiến trúc tổng quát của GATE 12
Hình 3.2 - Giao diện thêm một thành phần tích hợp vào GATE. 24
Hình 3.3 - Chọn các thành phần cho ứng dụng GATE 25
Hình 3.4 - Giao diện của Annotation Diff 27
Hình 3.5 - Giao diện của Corpus Benchmark tool 27
Hình 4.1 - Mô hình các bước phát triển của hệ thống 31
Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt 32
Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality 43
Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh 45
Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau 46
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
vi
Danh sách bảng
Bảng 3.1 – Minh họa về nhãn (annotation) 14
Bảng 5.1 – Kết quả nhận dạng trên tập huấn luyện 49
Bảng 5.2 – Bảng kết quả nhận dạng trên tập kiểm tra 49
Bảng 5.3 – Kết quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation) 50
Bảng 5.4 – Kết quả thực nghiệm của một số hệ thống nhận dạng thực thể trong văn bản tiếng Việt 51
Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt
1
Chương 1
Giới thiệu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như:
trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu tất yếu.
Bài toán nhận dạng thực thể là một bài toán khá cơ bản trong nhóm các bài toán trích
chọn thông tin. Nó có nhiệm vụ tìm kiếm và rút ra những thông tin liên quan đến thực
thể (một đối tượng hoặc một tập hợp đối tượng của thế giới tự nhiên) trong văn bản,
thông thường là loại thực thể. Có thể tùy theo từng bài toán, từng lĩnh vực cụ thể,
người ta đưa ra danh sách những loại thực thể được nhận dạng khác nhau. Các hệ
thống nhận dạng thực thể trong văn bản (Cao 2007, Mansouri 2008) thường nhận một
số loại thực thể:
Thực thể chỉ người (Person).
Thực thể chỉ tổ chức (Organization).
Thực thể chỉ địa điểm (Location).
Thực thể chỉ ngày (Date).
Thực thể chỉ thời gian (Time).
Thực thể chỉ các đơn vị tiền tệ (Money).
Thực thể chỉ phần trăm (Percent).
Trong đó, loại thực thể chỉ ngày (Date), thực thể chỉ thời gian (Time), thực thể chỉ các
đơn vị tiền tệ (Money), thực thể chỉ phần trăm (Percent) thường ít mang tính nhập
nhằng, không khó để nhận dạng. Ngoài ra tùy từng lĩnh vực, người ta có thể chú ý
Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt
2
thêm vào những loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong
văn bản với lĩnh vực y tế (Phạm 2007) sẽ nhận những thực thể chỉ tên thuốc, hoặc các
loại bệnh v.v… như những loại thực thể chính.
Có ba hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản:
hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia (Maynard 2001, Cao
2007), hướng tiếp cận sử dụng các phương pháp học máy (Mansouri 2008) và hướng
tiếp cận lai (Fang 2002). Tuy mang tính tự động cao, nhưng các hướng tiếp cận sử
dụng các phương pháp học máy và hướng tiếp cận lai đòi hỏi cần phải có một tập dữ
liệu đã được gán nhãn (annotated corpus) đủ lớn cho quá trình huấn luyện. Trong khi
đó, hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia lại không yêu cầu
điều này, hệ thống có thể hoạt động ngay khi hệ luật được hình thành.
Là một bài toán khá quan trọng và cơ bản nhưng hiện nay vẫn chưa có nhiều
nghiên cứu về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa
những hệ thống hiện thời không phải là nguồn mở nên rất khó để tiếp cận sử dụng và
phát triển (Nguyễn 2005, Cao 2007). Chính vì vậy chúng tôi quyết định xây dựng một
hệ thống nhận dạng thực thể sử dụng hệ luật cho văn bản tiếng Việt trên nguồn mở của
khung làm việc GATE (General Architecture for Text Engineering)
1
. Toàn bộ hệ
thống sẽ được mở cho cộng đồng sử dụng và phát triển. Song song với việc phát triển
hệ thống, chúng tôi cũng xây dựng một bộ tài liệu bao gồm: định nghĩa các thực thể,
các loại thực thể, cùng với một tập dữ liệu được gán nhãn chuẩn (corpus) cho bài toán
nhận dạng thực thể trong văn bản tiếng Việt.
1
Website chính thức của GATE: http://gate.ac.uk/download/index.html
Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt
3
Phần còn lại của khóa luận được chia thành 5 chương:
Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán nhận
dạng thực thể trên thế giới, cũng như những công trình nghiên cứu đối với tiếng
Việt.
Chương 3: Chúng tôi giới thiệu một cách tổng quan về khung làm việc GATE,
và cách xây dựng một hệ thống tích hợp (Plugin) trong GATE.
Chương 4: Chúng tôi mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản
tiếng Việt được xây dựng trên khung làm việc GATE.
Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi
vẫn còn tồn tại.
Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ
thống trong tương lai.
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
4
Chương 2
Các hướng tiếp cận cho
bài toán nhận dạng thực thể
Cũng như các bài toán khác trong lĩnh vực xử lý ngôn ngữ tự nhiên như: bài toán phân
loại văn bản, bài toán dịch máy v.v… Bài toán nhận dạng thực thể trong văn bản cũng
được phát triển theo các hướng truyền thống đó là:
Hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia (rule based) (để
thuận tiện, chúng tôi sẽ sử dụng cụm từ viết tắt “hướng tiếp cận sử dụng hệ
luật”).
Hướng tiếp cận sử dụng các phương pháp học máy (machine learning).
Hướng tiếp cận lai (hybrid system) giữa hai hướng tiếp cận trên.
Trong chương này, chúng tôi giới thiệu tổng quan về các hướng nghiên cứu cùng
những kết quả đã đạt được cho bài toán nhận dạng thực thể trong văn bản. Để thống
nhất, các hệ thống trong khuôn khổ của khóa luận được đánh giá sử dụng độ đo:
Precision, Recall và F-measure.
Precision = (N1 / N2) x 100%
Recall = (N1 / N3) x 100%
F-measure = 2 x (Precision x Recall ) / (Precision + Recall) x 100%
Trong đó:
N1: Số thực thể được nhận dạng chính xác.
N2: Tổng số thực thể được nhận ra.
N3: Số thực thể thực tế.
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
5
2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực
thể
Sử dụng chuyên gia xây dựng hệ luật là phương pháp truyền thống, có thể nói là được
áp dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán
nhận dạng thực thể trong văn bản nói riêng. Hệ luật là một tập hợp các luật do con
người đặt ra nhằm những mục đích nhất định, ở đây là việc nhận dạng các thực thể
trong văn bản. Một hệ thống nhận dạng thực thể sử dụng hệ luật thông thường sẽ có
các các thành phần chính như: từ loại (danh từ, động từ v.v…), ngữ cảnh (từ đứng
trước, từ đứng sau v.v…) và một số thuộc tính (viết hoa, viết thường v.v…) kết hợp
với một bộ từ điển để viết thành các luật (Budi 2003). Ví dụ với câu sau đây:
“President Bush said Monday‟s talks will include discussion on security, a
timetable for U.S forces to leave Iraq.”
Trong ví dụ này từ “Bush” đứng sau từ “President” sẽ được nhận là một tên người
(Person), “Iraq” đứng sau động từ “leave” sẽ được nhận là tên chỉ địa điểm (Location).
Với ý tưởng tương tự, Iwanska sử dụng các kiểu từ điển chuyên biệt (gazetteers)
(Iwanska 1995), Morgan sử dụng một bộ phân tích ngôn ngữ ở mức độ cao (kết hợp
giữa sự phân tích cú pháp, phân tích từ loại và ngữ cảnh) nhằm tăng hiệu quả cho hệ
thống nhận dạng thực thể (Morgan 1995).
Có lẽ một trong những ưu điểm lớn nhất của hướng tiếp cận sử dụng hệ luật so
với hướng tiếp cận sử dụng các phương pháp học máy là hướng tiếp cận sử dụng hệ
luật không cần một tập dữ liệu đã được gán nhãn. Tức là hệ thống có thể hoạt động và
thu được kết quả ngay khi hình thành các luật. Với một luật đơn giản:
Mr + <Person> - trong tiếng anh
hay: “ông” + tên người (Person) – trong tiếng Việt
cũng có thể nhận ra một số lượng lớn các thực thể trong văn bản. Bởi vậy ngay từ giai
đoạn đầu xây dựng tập dữ liệu được gán nhãn cho bài toán nhận dạng thực thể trong
văn bản tiếng Việt, chúng tôi đã tiến hành song song việc phát triển hệ thống luật và
gán nhãn cho tập dữ liệu. Hệ thống sử dụng hệ luật chạy và nhận dạng thực thể tự
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
6
động, sau đó được kiểm tra và chuẩn hóa bằng tay. Quá trình kiểm tra mang lại những
kinh nghiệm để chúng tôi có thể cải tiến bộ luật hoàn thiện hơn.
Tuy nhiên việc xây dựng một hệ thống luật đạt kết quả cao thường rất khó
khăn, mất nhiều thời gian và công sức, đặc biệt khi xây dựng hệ thống từ đầu. Trên thế
giới đã có khá nhiều hệ thống nhận dạng thực thể đạt hiệu quả cao, nhưng hầu hết
chúng không được xây dựng trên nền nguồn mở, và rất khó khăn để tiếp cận được với
những hệ thống này. Chính vì vậy, phải mãi đến khi GATE – một hệ thống được xây
dựng trên nguồn mở với bộ luật JAPE ra đời như một khung nền, các nghiên cứu về
hướng tiếp cận sử dụng hệ luật với bài toán nhận dạng thực thể trong văn bản mới thực
sự phát triển và thu được những kết quả khá khả quan. Maynard giới thiệu hệ thống
MUSE (Multi source entity finder) được phát triển trên GATE có độ thích ứng cao, dễ
dàng thay đổi khi chuyển sang một lĩnh vực mới. Người dùng có thể chọn bộ luật
(grammar) cũng như bộ từ điển (gazetter) cho những lĩnh vực khác nhau (Maynard
2001). Kết quả thu được khá khả quan – F-measure khoảng 93 ~ 94 % với các loại tên:
“Entity (organization, person, location), Time(date, time), Number (money, percent),
Address (email, url, telephone, ip) và Identifier”. Tạm thời việc chọn hay chuyển đổi
các phần của hệ thống được thực hiện bằng tay, tuy nhiên bài báo cũng đưa ra ý tưởng
phát triển hệ thống để có thể tự động chọn các bộ luật và bộ từ điển tương ứng với
từng lĩnh vực.
Một số nghiên cứu khác tái sử dụng các luật Jape, thay đổi và chỉnh sửa để tạo
ra những mô hình khác nhau cho bài toán nhận dạng thực thể trong văn bản với nhiều
ngôn ngữ và lĩnh vực (Pastra 2002, Maynard 2003) đã chứng minh tính hiệu dụng của
GATE và hệ thống luật JAPE.
Đối với tiếng Việt, có thể nói hệ thống VN-KIM IE là hệ thống đầu tiên có sử
dụng bộ luật JAPE trong khung làm việc GATE(Cao 2007). Chức năng chính của bộ
VN-KIM IE là nhận biết và chú thích tự động cho các thực thể có tên trong trang web
tiếng Việt. Quá trình rút trích thông tin của VN-KIM IE được thực hiện qua các bước:
Quy chuẩn các văn bản trên web về một loại mã tiếng Việt.
Trích ra các khối văn bản mang thông tin chính.
Gán nhãn từ loại cho văn bản.
Không có nhận xét nào:
Đăng nhận xét