Phân tích dữ liệu văn bản là gì? Hướng dẫn cho người mới bắt đầu

Để phân tích một lượng lớn dữ liệu phi cấu trúc dưới dạng văn bản (email, cuộc trò chuyện trên mạng xã hội,…) thực sự là một bài toán lớn. Việc phân tích thủ công thường tốn thời gian, nguồn lực và dễ sai sót. Bài viết dưới đây sẽ hướng dẫn chi tiết cách thực hiện phân tích dữ liệu văn bản bằng các công cụ AI, trong thời gian thực và đảm bảo tính chính xác cao.

Phân tích văn bản (Text Analysis) là gì?

Phân tích văn bản (TA) là một kỹ thuật học máy được sử dụng để tự động trích xuất thông tin chi tiết có giá trị từ dữ liệu văn bản phi cấu trúc. Nhiều doanh nghiệp sử dụng các công cụ phân tích văn bản để phân tích dữ liệu và tài liệu trực tuyến một cách nhanh chóng, đồng thời chuyển đổi chúng thành thông tin chi tiết hữu ích.

Phân tích văn bản có thể trích xuất thông tin cụ thể, như từ khóa, tên hoặc thông tin công ty từ hàng nghìn email hoặc phân loại các câu trả lời khảo sát theo ý định, cảm xúc và chủ đề.

Text Analysis khác gì so với Text Mining và Text Analytics?

Đầu tiên, hãy bỏ đi lầm tưởng rằng khai thác văn bản và phân tích văn bản là hai quá trình khác nhau. Các thuật ngữ thường được sử dụng thay thế cho nhau để giải thích cùng một quá trình thu thập dữ liệu thông qua học mẫu thống kê. Để tránh bất kỳ sự nhầm lẫn nào ở đây, chúng ta hãy đi vào phân tích văn bản.

Vậy Text Analysis và Text Analytics: sự khác biệt là gì?

Text analysis mang lại kết quả định tính và text analytics trả ra kết quả định lượng. Đối với text analysis, máy sẽ xác định thông tin quan trọng trong chính văn bản, nhưng với text analytics, nó sẽ hiển thị các mẫu trên hàng nghìn văn bản, dẫn đến biểu đồ, báo cáo, bảng, v.v.

Giả sử muốn biết có bao nhiêu yêu cầu hỗ trợ đã được nhóm chăm sóc khách hàng giải quyết, text analytics sẽ được sử dụng để tạo biểu đồ trực quan hóa tỷ lệ giải quyết nhiệm vụ của từng cá nhân

Tuy nhiên, nếu muốn biết cụ thể hơn kết quả tích cực hay tiêu cực và đánh giá sự hài lòng của khách hàng thì text analysis lại là công cụ phù hợp hơn cả.

Về cơ bản, thách thức trong text analysis là hiểu ngôn ngữ con người, trong khi text analytics tìm cách phát hiện ra các mẫu và xu hướng từ các kết quả định lượng.

Tại sao phân tích văn bản lại quan trọng?

Dưới đây là những lợi thế ưu việt mà công cụ AI phân tích văn bản có thể mang lại:

Khả năng mở rộng linh hoạt

Các công cụ phân tích văn bản cho phép các doanh nghiệp cấu trúc lượng lớn thông tin, như email, cuộc trò chuyện, mạng xã hội, yêu cầu hỗ trợ, tài liệu, v.v., chỉ trong vài giây thay vì vài ngày, vì vậy bạn có thể phân bổ nguồn lực cho các nhiệm vụ kinh doanh quan trọng hơn.

Trả kết quả trong thời gian thực

Ngày nay, các doanh nghiệp phải đối diện và xử lý với ngập tràn các thông tin và nhận xét của khách hàng, xuất hiện ở nhiều kênh, nhiều nền tảng khác nhau. Phân tích văn bản là một công cụ hứa hẹn sẽ thay đổi cuộc chơi bởi nó có thể phát hiện các vấn đề khẩn cấp, bất cứ nơi nào chúng xuất hiện, 24/7 và trong thời gian thực. Bằng cách đào tạo các mô hình phân tích văn bản để phát hiện các vấn đề, khiếu nại, nhận xét tiêu cực,…, doanh nghiệp có thể tự động gắn cờ các tweet, bài đánh giá, video, v.v. và thực hiện hành động can thiệp sớm hơn.

Phân tích văn bản bằng AI mang lại bộ dữ liệu nhất quán

Bằng cách đào tạo các mô hình phân tích văn bản theo nhu cầu và tiêu chí của riêng từng doanh nghiệp, các thuật toán có thể phân tích, hiểu và sắp xếp dữ liệu chính xác hơn nhiều so với con người.

Phân tích văn bản: phương pháp và kỹ thuật

Có các kỹ thuật phân tích văn bản cơ bản và nâng cao, mỗi kỹ thuật được sử dụng cho các mục đích khác nhau. Trước tiên, hãy tìm hiểu về các kỹ thuật phân tích văn bản đơn giản và một số ví dụ về trường hợp bạn có thể sử dụng từng kỹ thuật này.

1. Phân loại văn bản

Phân loại văn bản là quá trình gán các thẻ hoặc danh mục được xác định trước cho văn bản không có cấu trúc. Nó được coi là một trong những kỹ thuật xử lý ngôn ngữ tự nhiên hữu ích nhất vì tính linh hoạt: có thể tổ chức, cấu trúc và phân loại khá nhiều dạng văn bản để cung cấp dữ liệu có ý nghĩa giúp giải quyết vấn đề. Xử lý ngôn ngữ tự nhiên (NLP) là một kỹ thuật học máy cho phép máy tính chia nhỏ và hiểu văn bản giống như con người.

Dưới đây là một số nhiệm vụ phân loại văn bản phổ biến nhất, bao gồm phân tích cảm xúc, lập mô hình chủ đề, phát hiện ngôn ngữ và phát hiện ý định.

a. Phân tích cảm xúc

Khách hàng thường để lại ý kiến đóng góp về doanh nghiệp và sản phẩm thông qua các tương tác với hệ thống dịch vụ, trên các cuộc khảo sát và trên internet. Phân tích cảm xúc sử dụng các thuật toán học máy để tự động đọc và phân loại ý kiến (tích cực, tiêu cực, trung tính) và xa hơn nữa, dựa trên thái độ và cảm xúc của người viết, thậm chí cả ngữ cảnh cụ thể của hội thoại.

Ví dụ: bằng cách sử dụng phân tích cảm xúc, các công ty có thể gắn cờ các khiếu nại hoặc yêu cầu khẩn cấp, vì vậy chúng có thể được giải quyết ngay lập tức – từ đó ngăn chặn một cuộc khủng hoảng truyền thông trên mạng xã hội. Bộ phân loại cảm xúc có thể đánh giá danh tiếng thương hiệu, thực hiện nghiên cứu thị trường và giúp cải thiện sản phẩm dựa trên phản hồi của khách hàng.

b. Phân tích chủ đề

Một ví dụ phổ biến khác về phân loại văn bản là phân tích chủ đề (hoặc mô hình hóa chủ đề), có nghĩa là tự động sắp xếp văn bản theo chủ đề.

c. Phát hiện ý định

Bộ phân loại văn bản cũng có thể được sử dụng để phát hiện ý định ẩn chứa trong văn bản. Phát hiện ý định hoặc phân loại ý định thường được sử dụng để giúp máy tự động hiểu lý do đằng sau phản hồi của khách hàng. Liệu đó có phải là một lời phàn nàn? Hay khách hàng đang hỏi thông tin với mục đích mua một sản phẩm? Học máy có thể đọc các cuộc trò chuyện hoặc email của chatbot và tự động định tuyến chúng đến bộ phận hoặc nhân viên thích hợp.

2. Trích xuất văn bản

Trích xuất văn bản là một kỹ thuật phân tích văn bản được sử dụng rộng rãi, nhằm trích xuất các phần dữ liệu tồn tại trong bất kỳ văn bản nhất định nào. Bạn có thể trích xuất từ khóa, giá cả, tên công ty và thông số sản phẩm từ các báo cáo tin tức, đánh giá sản phẩm, v.v.

Bạn có thể tự động điền vào bảng tính với dữ liệu có được này hoặc thực hiện trích xuất kết hợp với các kỹ thuật phân tích văn bản khác để phân loại và trích xuất dữ liệu cùng một lúc.

a. Trích xuất từ khóa

Từ khóa là những thuật ngữ được sử dụng nhiều nhất nhằm chỉ các từ và cụm từ tóm tắt nội dung của văn bản. Trích xuất từ khóa có thể được sử dụng để lập chỉ mục dữ liệu phục vụ việc tìm kiếm và tạo các đám mây từ (biểu thị trực quan của dữ liệu văn bản).

b. Nhận dạng thực thể

Trình trích xuất nhận dạng thực thể (NER) thực hiện việc tìm kiếm các thực thể, có thể là người, công ty hoặc vị trí… và xuất hiện trong dữ liệu văn bản. Kết quả được hiển thị với nhãn thực thể tương ứng.

3. Tần suất từ

Tần suất từ là một kỹ thuật phân tích văn bản, có mục tiêu đo lường các từ hoặc khái niệm xuất hiện thường xuyên nhất trong một văn bản nhất định bằng cách sử dụng thống kê số TF-IDF (term frequency-inverse document frequency).

Bạn có thể áp dụng kỹ thuật này để phân tích các từ hoặc cách diễn đạt mà khách hàng sử dụng thường xuyên nhất trong các cuộc trò chuyện. Ví dụ: nếu từ ‘giao hàng’ xuất hiện thường xuyên nhất trong một tập hợp các khiếu nại, điều này có thể cho thấy khách hàng không hài lòng với dịch vụ giao hàng của bạn.

4. Kết hợp từ

Kết hợp từ giúp xác định các từ thường xuất hiện cùng nhau. Ví dụ: trong các đánh giá của khách hàng trên một trang web đặt phòng khách sạn, các từ ‘không khí’ và ‘điều hòa’ có nhiều khả năng xuất hiện cùng lúc hơn là xuất hiện riêng lẻ. Bigrams (hai từ liền kề) và Trigrams (ba từ liền kề) là những loại cụm từ phổ biến nhất mà bạn cần chú ý .

Kết hợp từ có thể hữu ích trong việc xác định các cấu trúc ngữ nghĩa ẩn và cải thiện mức độ chi tiết của thông tin bằng cách đếm bigrams và trigrams như một từ.

5. Phân định nghĩa từ

Đôi khi một từ có nhiều hơn một nghĩa, đó là lý do tại sao việc phân định nghĩa của từ là một thách thức lớn trong quá trình xử lý ngôn ngữ tự nhiên. Lấy ví dụ từ ‘light’. Văn bản có đề cập đến trọng lượng, màu sắc hoặc một thiết bị điện không? Phân tích văn bản thông minh với phân loại nghĩa của từ có thể phân biệt các từ có nhiều hơn một nghĩa.

6. Phân cụm

Phân cụm văn bản giúp hiểu và nhóm được một lượng lớn dữ liệu phi cấu trúc. Mặc dù kém chính xác hơn các thuật toán phân loại, các thuật toán phân cụm triển khai nhanh hơn, không cần gán nhãn cho các ví dụ để đào tạo mô hình. Điều đó có nghĩa là các thuật toán thông minh này khai thác thông tin và đưa ra dự đoán mà không cần sử dụng dữ liệu đào tạo, hay còn được gọi là học máy không giám sát.

Google là một ví dụ tuyệt vời về cách hoạt động của phân cụm. Khi bạn tìm kiếm một cụm từ trên Google, bạn đã bao giờ tự hỏi làm thế nào chỉ mất vài giây để đưa ra các kết quả có liên quan? Thuật toán của Google chia nhỏ dữ liệu không có cấu trúc từ các trang web và nhóm các trang thành các cụm xung quanh một tập hợp các từ tương tự hoặc n-gram (tất cả các kết hợp có thể có của các từ hoặc chữ cái liền kề trong một văn bản). Vì vậy, các trang có số lượng cụm từ cao hơn hoặc n-gam có liên quan đến truy vấn tìm kiếm sẽ xuất hiện đầu tiên trong kết quả.

Tổng hợp