Công nghệ giọng nói: Tiềm năng ứng dụng đa ngành

Được đánh giá là xu hướng của tương lai, công nghệ giọng nói hứa hẹn mang lại tiềm năng ứng dụng trong nhiều lĩnh vực, hỗ trợ thực hiện các tác vụ nhanh chóng và hiệu quả nhằm nâng cao trải nghiệm người dùng, từ đó giúp doanh nghiệp tối ưu hóa chu trình, giảm thiểu chi phí và gia tăng lợi nhuận. 

Ở Việt Nam, công nghệ này đang bắt đầu làm thay đổi thói quen tiêu dùng, mở ra một cuộc cách mạng trong cách thức khách hàng tương tác và sử dụng dịch vụ của doanh nghiệp. Công nghệ giọng nói, những kỹ thuật liên quan và ứng dụng trợ lý ảo đã, đang và sẽ tác động sâu rộng đến địa hạt chuyển đổi số trong các doanh nghiệp ở những lĩnh vực nào? Bài viết sau đây là một gợi mở. 

Tài chính – Ngân hàng – Bảo hiểm

Được dự đoán là lĩnh vực tiên phong trong chuyển đổi số, ngành Tài chính – Ngân hàng – Bảo hiểm đang có những đột phá trong việc ứng dụng công nghệ giọng nói. Theo báo cáo năm 2022 của Cornerstone Advisors, hiện nay, ¾ các ngân hàng và tổ chức tín dụng trên thế giới đã triển khai kế hoạch chuyển đổi số, với kế hoạch này được định giá 52,44 tỷ USD năm 2019 và dự kiến sẽ chạm mốc 164,08 tỷ USD năm 2027 cùng tốc độ tăng trưởng kép hàng năm là 15,4%.

Trợ lý ảo góp phần cách mạng hóa lĩnh vực Tài chính – Ngân hàng – Bảo hiểm nhờ khả năng tra cứu thông tin sản phẩm, dịch vụ ngân hàng và bảo hiểm; giúp khách hàng thực hiện liền mạch một số tác vụ phổ biến liên quan đến ngân hàng/bảo hiểm như thanh toán và giao dịch, kiểm tra tình trạng tài khoản, ngày đến hạn thẻ, hay cập nhật tình trạng sản phẩm/dịch vụ, giải quyết truy vấn và vấn đề phát sinh, nâng cấp hoặc mua mới sản phẩm/dịch vụ của cùng một ngân hàng/đơn vị bảo hiểm. 

Đặc biệt, trợ lý ảo sử dụng công nghệ giọng nói hiện nay được tích hợp giải pháp Sinh trắc học giọng nói (Voice Biometrics) để nhận dạng các mẫu giọng nói, tăng tính bảo mật cho người dùng.

Cách hoạt động của Voice Biometrics. Nguồn: ID R&D.

Để xác nhận danh tính của người dùng, Voice Biometrics yêu cầu người dùng tạo một “mẫu đăng ký”, tức giọng nói mẫu ban đầu. Giọng nói này sẽ được hệ thống trí tuệ nhân tạo AI phân tích các đặc điểm và lưu trữ những đặc điểm này trong dữ liệu của hệ thống. Khi cần xác thực danh tính của người dùng, hệ thống AI sẽ thực hiện so sánh các đặc điểm của “mẫu đăng ký” với mẫu mới được tạo ra trong cuộc nói chuyện. Hệ thống sẽ chấm “điểm” (score) để xác định tỷ lệ mẫu mới tạo với “mẫu đăng ký”.

Sức mạnh mà Voice Biometrics mang lại cho các tổ chức tài chính – ngân hàng là khả năng nhận dạng và phân biệt cá nhân thông qua giọng nói với độ chính xác rất cao. Các ngân hàng có thể sử dụng Voice Biometrics như một “tấm khiên” mới bên cạnh các giải pháp bảo mật truyền thống như mật khẩu, SMS OTP hay câu hỏi bí mật.

Ưu việt về công nghệ, khả năng tích hợp đa kênh của hệ thống số, cùng tính tự nhiên và cá thể hóa trong khi tương tác với người dùng, công nghệ giọng nói sẽ dần trở thành xu hướng mới được ưa chuộng ở mọi điểm chạm trên hành trình trải nghiệm của khách hàng trong lĩnh vực Tài chính – Ngân hàng – Bảo hiểm.

Tiêu dùng – Bán lẻ

Lĩnh vực Tiêu dùng – Bán lẻ và thương mại điện tử tích hợp công nghệ giọng nói mang đến cho khách hàng trải nghiệm rảnh tay, nhanh chóng, tiện lợi và hiệu quả trên đa thiết bị và đa kênh bán hàng. Hiện nay, một số kênh được doanh nghiệp ngành này lựa chọn để tích hợp công nghệ giọng nói bao gồm: Ứng dụng di động, loa thông minh, thiết bị gia dụng và thiết bị nhà thông minh, quầy bán hàng, và tổng đài tự động.

Thay vì trực tiếp đi bộ quanh các lối đi trong cửa hàng và trung tâm thương mại, hoặc tự mình chọn lọc qua vô số trang sản phẩm trên các gian hàng thương mại điện tử để tìm ra sản phẩm ưng ý, trợ lý ảo giúp khách hàng tra cứu về sản phẩm, dịch vụ; xây dựng danh sách mua hàng và thực hiện mua sắm sản phẩm đời sống như tạp hóa, chăm sóc gia đình, thời trang,… một cách chính xác, nhanh chóng chỉ với câu lệnh đơn giản và hội thoại tự nhiên.

Trong tương lai không xa, ngành Tiêu dùng – Bán lẻ còn có thể ứng dụng trợ lý ảo trong trải nghiệm khách hàng với các tác vụ đặc thù như cá nhân hóa các đề xuất sản phẩm, thanh toán sản phẩm/dịch vụ, kiểm tra tình trạng đơn hàng và đăng ký sử dụng các dịch vụ hậu mãi.

Công nghệ giọng nói mở ra tương lai của các thao tác mua sắm “rảnh tay”

Để hỗ trợ khách hàng mua sắm như vậy, các trợ lý ảo hiện nay được lập trình để thu âm câu lệnh của người dùng và sử dụng công nghệ nhận dạng tiếng nói (ASR) nhằm xử lý các câu lệnh này. ASR là một nhánh của Học máy (Machine Learning – ML). Về cơ bản, thay vì lập trình các quy tắc để chuyển đổi dữ liệu đầu vào (giọng nói) thành đầu ra (văn bản), thì mô hình Học máy được đào tạo bằng cách đưa các tập dữ liệu lớn vào một thuật toán, chẳng hạn như mạng nơ-ron tích chập (CNN). Trải qua quá trình đào tạo, mô hình ngày càng suy luận tốt hơn, và có khả năng nhận dạng tiếng nói của con người.

Theo cách truyền thống, hầu hết ASR bắt đầu với một mô hình âm thanh, thể hiện mối quan hệ giữa tín hiệu âm thanh với các đơn vị cơ bản cấu thành nên từ. Mô hình âm thanh này thực hiện chuyển đổi sóng âm thanh thành các bit mà máy tính có thể sử dụng. Sau đó, các mô hình ngôn ngữ và phát âm lấy dữ liệu này áp dụng ngôn ngữ học tính toán (computational linguistics) và đặt từng âm thanh theo trình tự và ngữ cảnh để tạo thành từ và câu. Nhờ vậy, trợ lý ảo có thể hiểu những gì người dùng nói, và trả về kết quả phù hợp cũng như đưa ra các gợi ý mua sắm theo nhu cầu, giúp tối ưu hóa việc mua sắm cũng như tiếp thị bán hàng.

Công nghệ giọng nói, từ đó, làm xuất hiện nhiều thuật ngữ mới trong ngành Tiêu dùng – Bán lẻ, như “voice ads” (quảng cáo bằng giọng nói) hay “voice shopping” (mua sắm bằng giọng nói), hứa hẹn một tương lai nơi hoạt động mua sắm có thể được thực hiện mọi lúc, mọi nơi và hoàn toàn rảnh tay.

Bất động sản

Công nghệ giọng nói mang đến những trải nghiệm tiện ích và thông minh cho người dùng từ những bước đầu tiên như tìm kiếm thông tin bất động sản, kết nối khách hàng và chủ đầu tư, đặt lịch trải nghiệm,… đến chấm điểm tín dụng, trải nghiệm nhà thông minh, và sử dụng chính sách hậu mãi.

Nổi bật trong đó, công nghệ giọng nói được tích hợp trên các thiết bị IoT giúp kiến tạo hệ thống nhà thông minh. Bằng cách kết nối với trợ lý ảo trên ứng dụng điện thoại di động hoặc trong ô tô, người dùng có thể dễ dàng điều khiển một cách rảnh tay các thiết bị gia đình qua giọng nói mọi lúc, mọi nơi, ngay cả khi đang làm việc hoặc di chuyển.

Để có thể “trò chuyện” cùng người gia chủ, trợ lý ảo trong các ngôi nhà thông minh này được tích hợp kĩ thuật chuyển văn bản thành tiếng nói (Text-to-speech – TTS). TTS lấy văn bản từ kết quả của máy chủ trả về dựa trên yêu cầu của người dùng làm đầu vào, và tạo ra giọng nói nghe được làm đầu ra. Nói cách khác, TTS chuyển thông tin từ văn bản thành lời nói.

Hệ thống TTS bao gồm phần mềm dự đoán cách phát âm tốt nhất có thể của bất kỳ văn bản nhất định nào. Nó cũng đóng gói trong chương trình tạo ra sóng âm thanh giọng nói; đó được gọi là bộ mã hóa giọng nói. Chuyển văn bản thành giọng nói là một lĩnh vực đặc biệt đa ngành, đòi hỏi kiến ​​thức chi tiết về nhiều ngành khoa học như Ngôn ngữ học; Xử lý tín hiệu âm thanh; Trí tuệ nhân tạo, đặc biệt là học sâu – một loại học máy sử dụng mạng nơ-ron sâu (Deep Neural Network – DNN).

Trợ lý ảo Vinhomes được phát triển bởi VinBigData sở hữu nhiều tính năng vượt trội, hỗ trợ cộng đồng cư dân và khách hàng của Vinhomes trải nghiệm lối sống thông minh, đẳng cấp thông qua ứng dụng Vinhomes Resident và thực hiện giao dịch trên website Vinhomes onlines thông qua giọng nói. Khởi nguồn từ mục tiêu xây dựng khu đô thị đông minh và đáng sống, Trợ lý ảo được kỳ vọng sẽ mang đến cho cư dân những trải nghiệm dịch vụ tiện ích đặc quyền và đẳng cấp, nâng cao chất lượng cuộc sống.

Tìm hiểu thêm về Trợ lý ảo Vinhomes cho nhà thông minh.

Du lịch – khách sạn

Trợ lý ảo hỗ trợ người dùng tương tác thông qua các ứng dụng, website đặt phòng hoặc các thiết bị thông minh tại nơi lưu trú. Công nghệ này cung cấp nhiều dịch vụ ưu việt cho khách hàng trong ngành Du lịch – khách sạn, hỗ trợ tìm kiếm thông tin, tiếp cận và đánh giá trực tuyến, cũng như làm thủ tục đặt/nhận phòng và trả phòng, và chăm sóc khách hàng sau lưu trú.

Trợ lý ảo thông minh trong khách sạn hỗ trợ du khách làm thủ tục nhận/trả phòng nhanh chóng.

Một ví dụ cụ thể của công nghệ giọng nói trong ngành Du lịch – Khách sạn là Callbot. Thông thường, nếu khách muốn hỗ trợ bất cứ điều gì, họ sẽ phải gọi cho quầy lễ tân. Đây có thể là một nhiệm vụ khó khăn và khá lúng túng đối với khách hàng nếu họ muốn được hỗ trợ nhiều lần. 53% khách du lịch toàn cầu muốn có các lựa chọn công nghệ tiện lợi để đặt chỗ nhà hàng thay vì phải gọi điện cho nhân viên là người thật.

Một Callbot ứng dụng công nghệ giọng nói có thể đưa ra hướng dẫn hoặc thực hiện nhiệm vụ cho khách hàng theo những gì mà họ yêu cầu. Khách hàng có thể sử dụng Callbot thông minh để yêu cầu đồ vệ sinh cá nhân và khăn tắm, lên lịch gọi điện đánh thức, đặt đồ ăn trong phòng, đặt bàn, giúp tìm các dịch vụ (chẳng hạn như quán ăn địa phương, cho thuê xe hơi,…), hoạt động như một người phiên dịch và chia sẻ thông tin cập nhật theo thời gian thực, tình trạng giao thông hoặc thời tiết xung quanh khu du lịch.

Có thể thấy từ những tính năng hỗ trợ chi tiết và đa dạng như vậy, trợ lý ảo góp phần cải thiện chất lượng dịch vụ chăm sóc khách hàng, giảm thiểu thời gian chờ đợi sử dụng dịch vụ, đảm bảo an toàn vệ sinh và sức khỏe cho khách hàng cũng như nhân viên, đặc biệt là bối cảnh như COVID-19, và nâng cao hiệu suất hoạt động cho doanh nghiệp.

Công nghiệp ô tô

Thông thường, người lái xe không thể tương tác và thực hiện nhiều thao tác trong khi lái xe, nhằm đảm bảo an toàn trên chặng lái. Giao diện trợ lý ảo tích hợp trên xe ô tô cho phép người lái sử dụng giọng nói để điều khiển nhiều tác vụ “rảnh tay” như dẫn đường, đặt lịch bảo trì và bảo dưỡng, gọi điện, nhắn tin, nghe nhạc, đọc tin tức, hay điều khiển các chức năng trên xe… khi đang di chuyển. Bên cạnh đó, trợ lý ảo còn có khả năng đối đáp với người lái trong nhiều ngữ cảnh khác nhau, trò chuyện ngẫu hứng, kể chuyện cười cũng như giải đáp các câu hỏi thường ngày, giúp người lái có những phút giây thư giãn và vui vẻ.

Bên cạnh đó, kĩ thuật Kiểm soát tiếng ồn (Noise control) trong công nghệ giọng nói cũng là một tính năng nổi bật của trợ lý ảo. Xuất phát từ vấn đề tiếng ồn của xe cộ, động cơ xe và âm thanh người xung quanh nói chuyện khi tham gia giao thông rất dễ ảnh hưởng đến thao tác nhận dạng giọng nói của trợ lý ảo, Noise control được ra đời giúp lọc và loại bỏ các tiếng ồn xung quanh, mang đến trải nghiệm tiện lợi, chính xác và nhanh chóng cho người dùng khi tương tác với trợ lý ảo trong lúc lái xe.

Không chỉ hỗ trợ các tiện ích trong xe, công nghệ giọng nói còn khiến hành trình mua sắm, sở hữu và hậu mãi trong lĩnh vực Công nghiệp ô tô trở nên thuận tiện và đơn giản hơn với khách hàng ở mọi điểm chạm như: mạng xã hội, website, live chat, điện thoại, showroom, trung tâm dịch vụ, thiết bị trong xe,… Theo SoundHound, dự kiến đến năm 2028, 90% xe ô tô được sản xuất mới trên toàn cầu đều được trang bị trợ lý ảo.

Trợ lý ảo VinFast trên ô tô điện VinFast VF e34.

Là sản phẩm phát triển từ Trợ lý ảo ViVi của VinBigData, Trợ lý ảo tích hợp trên dòng ô tô điện VinFast VF e34 là giải pháp giọng nói “thuần Việt”, có khả năng hỗ trợ tài xế hỏi đáp thông tin, thực hiện nhiều tác vụ khi đang di chuyển, không làm ảnh hưởng đến độ tập trung khi lái xe. Theo nhiều người sử dụng xe điện, trợ lý ảo VinFast đã giúp định nghĩa lại khái niệm ô tô, không chỉ đơn thuần là một phương tiện giao thông mà còn là môi trường nghỉ ngơi, giải trí, thu thập kiến thức và giải quyết công việc.

Tìm hiểu thêm về Trợ lý ảo VinFast: Tại đây

Kết luận

Có thể thấy, công nghệ giọng nói đã và đang được ứng dụng ở đa dạng các lĩnh vực với tiềm năng khai thác tuyệt vời cho doanh nghiệp. Bắt nhịp xu hướng đẩy mạnh việc triển khai công nghệ giọng nói, Trợ lý ảo ViVi được phát triển bởi VinBigData là sản phẩm trợ lý ảo dành riêng cho người Việt, kết hợp giữa Phân tích dữ liệu lớn và công nghệ Trí tuệ nhân tạo. ViVi có khả năng hiểu câu lệnh và đàm thoại tự nhiên với chất giọng đa vùng miền, nhận diện tiếng Việt chính xác lên tới 98% đối với nhóm từ phổ thông.

Đặc biệt, Trợ lý ảo Vivi sở hữu kiến thức đa lĩnh vực như giao thông, chứng khoán, du lịch,… và quy trình tích hợp đơn giản. Trên thực tế, xuất phát điểm từ ViVi đã được tích hợp thành công, trở thành trợ lý ảo VinFast trên xe ô tô điện VinFast VF e34, VF 8 và VF 9; quản gia Vinpearl thông minh – AI Butler, và mới đây nhất là trợ lý ảo Vinhomes – Quản gia ảo cho nhà thông minh, mang lại cho cư dân Vinhomes trải nghiệm sống tiện nghi và đẳng cấp với hàng loạt nhóm tính năng liên quan đến Dịch vụ tiện ích, Đặt/huỷ lịch sử dụng các tiện ích công cộng, Tra cứu hoá đơn, Đọc tin tức trên bản tin cư dân, Tìm hiểu thời tiết khu vực đang sống… Với lợi thế về dữ liệu lớn lên đến hàng nghìn Terabyte; cùng đội ngũ chuyên gia, cố vấn hàng đầu Việt Nam và thế giới; hệ sinh thái sản phẩm công nghệ giọng nói của VinBigData đang dần khẳng định được vị thế của mình trong lĩnh vực công nghệ và chuyển đổi số, hỗ trợ doanh nghiệp tối ưu hiệu quả vận hành, kinh doanh và nâng tầm trải nghiệm người dùng.

Bài viết liên quan

AI hội thoại: để Trợ lý ảo có thể giao tiếp như người thật

Ngày nay, việc ra lệnh cho trợ lý ảo để thực hiện một số tác vụ đang dần trở nên phổ biến. Giao tiếp bằng…

Trợ lý ảo ngân hàng và những ứng dụng nổi bật

Song song với xu hướng phát triển của ngân hàng trực tuyến (online banking) và ngân hàng di động (mobile banking), một số ngân hàng…

03 loại dữ liệu nhận dạng tiếng nói: Dùng khi nào, ưu – nhược điểm?

Để phát triển một sản phẩm công nghệ giọng nói như trợ lý ảo hay phần mềm nhận dạng giọng nói, cần bắt đầu từ…

Chuyển đổi số toàn diện với
VinBase.ai
Cảm ơn. Tin nhắn của bạn đã được gửi đi.
Đã xảy ra lỗi. Vui lòng kiểm tra và thử lại.