10 bộ dữ liệu hỏi - đáp giúp xây dựng hệ thống chatbot mạnh mẽ

Để xây dựng một chatbot thông minh và mạnh mẽ, cần cung cấp bộ dữ liệu hỏi đáp trong quá trình đào tạo mô hình. Hệ thống tự động hỏi đáp sẽ cho câu trả lời trong thời gian thực và đây là một khả năng quan trọng giúp chatbot có thể hiểu và suy luận. Nếu bạn đang bắt tay vào phát triển một chatbot của riêng mình, thì đừng vội lướt qua bài viết này. Ngay dưới đây là gợi ý 10 bộ dữ liệu hỏi – đáp hữu ích dành cho lập trình viên.

1 | SQuAD

Bộ dữ liệu hỏi đáp Stanford (SQuAD) là tập dữ liệu đọc hiểu bao gồm các câu hỏi được đặt dựa trên các bài viết ở Wikipedia, và câu trả lời có thể dưới dạng đoạn văn bản lấy từ bài tương ứng. Một số câu hỏi có thể không có câu trả lời. Bộ dữ liệu được trình bày bởi các nhà nghiên cứu tại Đại học Stanford và SQuAD 2.0 chứa hơn 100.000 câu hỏi.

2 | Natural Questions (NQ)

NQ là một kho ngữ liệu mới, quy mô lớn để đào tạo và đánh giá các hệ thống trả lời câu hỏi miền mở. Được cung cấp bởi Google, đây là bộ dữ liệu đầu tiên tái tạo quy trình đầu cuối, trong đó mọi người tìm câu trả lời cho các câu hỏi. NQ chứa 300.000 câu hỏi xuất hiện tự nhiên, cùng với các câu trả lời do con người chú thích từ các trang Wikipedia, sẽ được sử dụng trong đào tạo hệ thống QA. Hơn nữa, các nhà nghiên cứu đã thêm 16.000 ví dụ trong đó câu trả lời (cho cùng một câu hỏi) được cung cấp bởi 5 chú giải khác nhau, nhằm giúp ích cho việc đánh giá hiệu suất của các hệ thống QA đã đào tạo.

3 | QuAC

Question Answering in Context (QuAC) là một bộ dữ liệu để lập mô hình, hiểu và tham gia vào hộp thoại tìm kiếm thông tin. Bộ dữ liệu này mô phỏng trường hợp đối thoại giữa sinh viên (người đặt ra một chuỗi các câu hỏi chủ đề tự do để tìm hiểu về một văn bản Wikipedia) và giáo viên (người trả lời các câu hỏi bằng cách cung cấp các đoạn trích ngắn từ văn bản. QuAC chứa 14.000 hội thoại hỏi đáp tìm kiếm thông tin, với tổng cộng 100 000 cặp QA.

4 | CoQA

Conversational Question Answering (CoQA) là một bộ dữ liệu quy mô lớn để xây dựng hệ thống trả lời câu hỏi hội thoại. Mục tiêu của bài toán từ CoQA là đo khả năng của máy móc trong việc hiểu một đoạn văn bản và trả lời một loạt các câu hỏi liên kết với nhau xuất hiện trong một cuộc hội thoại. Bộ dữ liệu chứa hơn 127.000 câu hỏi với câu trả lời được thu thập từ hơn 8000 cuộc hội thoại.

5 | HOTPOTQA

HOTPOTQA là bộ dữ liệu chứa 113.000 cặp hỏi đáp dựa trên Wikipedia với bốn tính năng chính. Đây là những câu hỏi yêu cầu tìm kiếm và suy luận qua nhiều tài liệu hỗ trợ để trả lời, các câu hỏi đa dạng và không bị ràng buộc bởi bất kỳ cơ sở hoặc biểu đồ kiến thức nào đã có từ trước. Nhờ các dữ kiện hỗ trợ, hệ thống QA có thể lập luận và giải thích các dự đoán. Đồng thời HOTPOTQA cũng cung cấp một loại câu hỏi so sánh để kiểm tra khả năng của hệ thống QA trong việc trích xuất các dữ kiện có liên quan và thực hiện so sánh cần thiết.

6 | ELI5

ELI5 (Explain Like I’m Five) là một bộ dữ liệu trả lời câu hỏi dạng dài. Đây là bộ dữ liệu quy mô lớn, chất lượng cao, cùng với các tài liệu web, cũng như hai mô hình được đào tạo trước. Bộ dữ liệu do Facebook tạo ra, chứa 270.000 chủ đề gồm các câu hỏi mở, đa dạng và yêu cầu trả lời bằng nhiều câu.

7 | ShARC

Shaping Answers with Rules through Conversations (ShARC) là một bộ dữ liệu QA yêu cầu suy luận logic, NLI (Natural Language Inference – suy luận ngôn ngữ tự nhiên) và NLG (natural language generation – tạo ngôn ngữ tự nhiên). Bộ dữ liệu bao gồm 32.000 bài toán dựa trên các quy tắc trong thế giới thực, các câu hỏi và kịch bản do cộng đồng tạo ra.

8 | MS MARCO

Human Generated MAchine Reading COmprehension Dataset (MS MARCO) là một bộ dữ liệu quy mô lớn được tạo bởi Microsoft AI & Research. Bộ dữ liệu bao gồm 1.010.916 câu hỏi ẩn danh được lấy mẫu từ lịch sử truy vấn tìm kiếm của Bing, mỗi câu hỏi đi kèm với câu trả lời do con người thực hiện. Bộ dữ liệu này chủ yếu dành cho mục đích nghiên cứu phi thương mại chỉ nhằm thúc đẩy sự tiến bộ trong lĩnh vực trí tuệ nhân tạo và các lĩnh vực liên quan.

9 | TWEETQA

TWEETQA là một bộ dữ liệu hỏi đáp tập trung vào mạng xã hội. Bộ dữ liệu này được tạo ra bởi các nhà nghiên cứu tại IBM và Đại học California và có thể được xem là bộ dữ liệu quy mô lớn đầu tiên cho QA trên dữ liệu truyền thông xã hội. Bộ dữ liệu hiện bao gồm 10.898 bài báo, 17.794 tweet và 13.757 cặp câu hỏi-trả lời dựa trên nguồn lực cộng đồng.

10 | NEWSQA

NewsQA là một bộ dữ liệu đầy thách thức đối với khả năng hiểu của máy, gồm hơn 100.000 cặp câu hỏi-câu trả lời do con người tạo ra. NewsQA được thu thập từ các câu hỏi và câu trả lời của cộng đồng dựa trên tập hợp hơn 10.000 tin bài từ CNN, với các câu trả lời bao gồm các đoạn văn bản từ các bài báo tương ứng. Bộ dữ liệu chứa 119.633 câu hỏi ngôn ngữ tự nhiên, được đặt dựa trên 12.744 bài báo của CNN.

Tổng hợp

10 bộ dữ liệu hỏi – đáp giúp xây dựng hệ thống chatbot mạnh mẽ