Áp dụng Google Cloud Speech AI một cách sáng tạo: Từ insights đến robots

Tháng Chín 18, 2022
Nga Pham

Google cho biết trong vòng 5 năm kể từ khi Google Cloud Speech-to-Text API ra đời, các khách hàng của họ đã áp dụng và nhận được lợi ích từ công nghệ này trong nhiều trường hợp sử dụng đa dạng, từ cung cấp nguồn cho các ứng dụng điều khiển bằng giọng nói cho đến tạo phụ đề tự động cho video. API này đã xử lý hơn 1 tỷ phút ngôn ngữ nói mỗi tháng – đủ để phiên âm toàn bộ Từ điển tiếng Anh Oxford hơn nửa triệu lần (bao gồm cả các từ đã lỗi thời) với tốc độ nói bình thường.

“Khi giọng nói đang có khả năng trở thành sự gián đoạn lớn tiếp theo trong việc tương tác giữa người và máy, các công nghệ như Speech API của Google đang ngày càng trở nên quan trọng đối với các doanh nghiệp muốn bắt kịp sự thay đổi trong hành vi và kỳ vọng của người dùng. Hợp tác với DeepMind và Google Brain, Google đang tiếp tục đầu tư vào lĩnh vực này và đưa ra những cải tiến mới, cho phép các tổ chức nhanh chóng và dễ dàng bổ sung các thành phần giọng nói vào ứng dụng dành cho người dùng của họ.” – Ritu Jyoti, Phó chủ tịch nhóm AI và Thực hành Nghiên cứu Tự động hoá tại IDC chia sẻ.

Các trường hợp sử dụng quen thuộc như đưa ra hướng dẫn cho trợ lý điện thoại thông minh hay xem phụ đề tự động khi ai đó nói chuyện trong một cuộc họp video chỉ là bước khởi đầu. Công nghệ AI này sẽ càng tiên tiến và sáng tạo hơn mỗi ngày khi càng có nhiều người sử dụng nó. Khi có thể phiên âm chính xác và hiểu được ngôn ngữ nói trên quy mô lớn, bạn có thể thêm các lớp (layer) trên nhiều dịch vụ và ứng dụng AI khác để tạo ra trải nghiệm hấp dẫn hơn hoặc có được hiểu biết sâu sắc hơn từ dữ liệu này.

Hãy khám phá các biên giới mới trong công nghệ này qua việc học hỏi cách các doanh nghiệp khác áp dụng Speech API để làm được nhiều việc hơn với giọng nói, từ xây dựng trải nghiệm mua bán tốt hơn đến tạo ra các robot thân thiện.

InteractiveTel: Chuyển từ lời nói sang thông tin chi tiết và doanh thu

Đối với các đại lý ô tô, dữ liệu từ các cuộc gọi điện thoại cung cấp một nguồn khách hàng tiềm năng và có thể mang lại doanh số đáng kể. Tuy nhiên trong quá khứ, các đại lý đã vô cùng vất vả khi thu thập và hành động dựa trên dữ liệu cuộc gọi, thậm chí trong một số trường hợp không gọi lại được cho phần lớn khách hàng tiềm năng. Các nhà lãnh đạo tại InteractiveTel – một nhà cung cấp các ứng dụng điện thoại dựa trên đám mây giúp cải thiện dịch vụ khách hàng và doanh số bán hàng – đã nhận thấy rằng AI có thể giúp họ vượt qua những thách thức này.

Họ cho rằng dữ liệu giọng nói là một đầu vào tốt, có thể cung cấp cho các đại lý thông tin chi tiết theo thời gian thực để có các cuộc trò chuyện hiệu quả hơn, giám sát một cách đáng tin cậy hơn và cuối cùng là bán hàng hiệu quả hơn. Tuy nhiên trong thời kỳ đầu, các công nghệ giọng nói mà InteractiveTel áp dụng đã trả về những kết quả không nhất quán.

Việc này đã đưa công ty trở thành một trong những khách hàng đầu tiên sử dụng Speech-to-text API ngay khi sản phẩm được phát hành vào năm 2017. Công ty gần như ngay lập tức cải thiện được 30% độ chính xác phiên âm và ngày càng trở nên tiên tiến, đáng tin cậy hơn kể từ đó.

“KPI lớn nhất cho thấy sức mạnh của nền tảng chính là khả năng giữ chân người dùng. Tỷ lệ của chúng tôi là 96%.” – Người đồng sáng lập Gary Graves chia sẻ.

Graves cũng cho biết rằng Speech API là trọng tâm của sự thành công này. “Chúng tôi sẽ không đạt được điều này nếu không có Speech API. Khi bắt đầu, chúng tôi đã đưa Speech API vào trọng tâm cốt lõi của mình. Mọi cuộc thảo luận đều phải được phiên âm bằng API và việc tạo ra dữ liệu gần như trong thời gian thực đã đặt nền tảng cho các dịch vụ phong phú hơn.”

Ví dụ, nếu một khách hàng gọi hỏi về một chiếc xe hiện không có sẵn, InteractiveTel sẽ hiển thị thông báo cho đại lý trong khi cuộc trò chuyện diễn ra, giúp khách hàng biết liệu chiếc xe tương tự sẽ sớm được nhập kho hay không. Nền tảng này cũng biết liệu khách hàng đã thực hiện các tương tác trong quá khứ, chẳng hạn như có các cuộc hẹn tại đại lý, hay chưa và thậm chí có khả năng phân tích cảm xúc để phát hiện các sự kiện, chẳng hạn như bất đồng giữa khách hàng và nhân viên bán hàng, để yêu cầu người quản lý tham gia kịp thời. 

“Chúng tôi không cần bảo trì API nhiều. Nó đã mở rộng quy mô để theo kịp tốc độ của công ty và không bao giờ bị tắc nghẽn.” – Graves chia sẻ thêm.

Embodied: Nuôi dưỡng trẻ em với một người bạn robot

Khác với việc thể hiện các xu hướng trong thế giới kinh doanh mà nền tảng của InteractiveTel thực hiện, robot Moxie của Embodied lại cho thấy cách Speech API có thể tác động đến quá trình học tập cảm xúc xã hội, từ bệnh viện cho đến mỗi gia đình. Moxie không chỉ được thiết kế để đưa ra những lời nhắc và phản hồi được xác định trước, mà còn có khả năng thực hiện cả các cuộc trò chuyện liên tục, nhờ đó khuyến khích trẻ em tương tác với nó như một người bạn. Ví dụ, nếu một đứa trẻ nói “Tớ thích vũ trụ”, Moxie có thể tự động chuyển sang một cuộc trò chuyện chứa đầy sự kiện thiên văn, hay khi một đứa trẻ đọc một cuốn sách từ Book Club của Moxie, robot có thể dẫn dắt một câu hỏi và cuộc thảo luận liên quan đến cuốn sách.

Robot Moxie

Mặc dù là một cách thú vị để tất cả trẻ em rèn luyện các kỹ năng xã hội, tư duy phản biện và nuôi dưỡng cảm xúc, Moxie hứa hẹn trở nên đặc biệt hữu ích đối với những trẻ em phải đối mặt với nghịch cảnh, từ sự cô lập xã hội đến việc khó kết bạn. Một số phụ huynh có con em mắc chứng rối loạn phát triển đã chia sẻ những phản hồi đầy hứa hẹn về sự phát triển về mặt tình cảm – xã hội của con họ sau khi dành thời gian với Moxie. Robot có thể phân biệt cần nói chuyện với ai và nên tiếp cận như thế nào, sử dụng các tín hiệu ánh mắt tinh tế, nét mặt và ngôn ngữ cơ thể trong khi tương tác với trẻ để trở thành một người bạn AI đáng tin cậy, giống như người thật và có thể xây dựng mối quan hệ tốt với trẻ.

“Chúng tôi muốn trao quyền cho các bậc cha mẹ giúp trẻ sử dụng công nghệ.” – Paolo Pirjanian, người sáng lập và Giám đốc Điều hành của Embodied, đồng thời từng là một nhà khoa học làm việc tại NASA, CTO của iRobot chia sẻ. Ông nhấn mạnh rằng mặc dù thị trường dành cho robot tương tác đang ở “những giai đoạn đầu”, họ đã được tiếp thêm động lực to lớn khi nhận thấy nhiều người đón nhận Moxie. Ông nói thêm: “Robot tạo ra một môi trường không phán xét, giúp trẻ chia sẻ những cảm xúc khó khăn và thúc đẩy sự tương tác với bạn bè, gia đình và thế giới xung quanh.”

Khả năng tương tác đa phương thức của Moxie và ứng dụng đi kèm dành cho cha mẹ được hỗ trợ bởi một số công nghệ AI, bao gồm công nghệ thị giác máy tính giúp giải mã ngôn ngữ cơ thể của trẻ. Tuy nhiên, cũng giống như InteractiveTel, Speech API là điểm bắt đầu của các tương tác, vì robot không thể khai tác các tài nguyên phù hợp với tình huống nếu ban đầu nó không thể hiểu chính xác đứa trẻ.

HubSpot: Speech & quản lý quan hệ khách hàng

HubSpot cũng đang sử dụng dữ liệu thu được từ giọng nói để lấy thông tin chi tiết qua các sản phẩm Conversation Intelligence (Trí thông minh Hội thoại). Ví dụ, khách hàng của HubSpot có thể sử dụng AI để tự động tạo ghi chú trong các cuộc họp và kết nối dữ liệu điện thoại với dữ liệu quản lý quan hệ khách hàng (Customer Relationship Management – CRM) để đo lường xu hướng, xác định các thay đổi trong động lực thị trường và thậm chí là mở khoá các cơ hội.

Để cung cấp Conversation Intelligence, HubSpot sử dụng một ngăn xếp độc quyền của một số mô hình được xây dựng trên Speech API. Ian Leaman, Quản lý sản phẩm cấp cao tại HubSpot cho biết họ tận dụng nhiều tính năng của API, từ dự kiến theo ngữ cảnh cho đến gắn thẻ người nói.

“Nó có tỷ lệ lỗi từ thấp nhất và cho phép chúng tôi tự do định ra cấu hình thích hợp nhất cho các phân khúc khách hàng khác nhau. Điều đó giúp chúng tôi hỗ trợ khách hàng thành công, rút ngắn thời gian phát triển và hỗ trợ nhiều ngôn ngữ hơn.” – Ian Leaman nói.

Các cuộc trò chuyện thúc đẩy trải nghiệm và dịch vụ AI phong phú hơn

Những câu chuyện thực tế trên đã chứng minh rằng bản thân công nghệ giọng nói rất mạnh mẽ, nhưng chúng cũng là điểm khởi đầu quan trọng cho nhiều trường hợp sử dụng tiên tiến và tham vọng hơn, kết hợp nhiều AI cho những trải nghiệm chưa từng có. 5 năm trước đây, rất nhiều những câu chuyện chúng ta thấy ngày nay chỉ là một tham vọng gần như không khả thi. Hy vọng trong nửa thập kỷ tới tính từ bây giờ, chúng ta sẽ tiếp tục bị khuất phục bởi những cách AI có thể thay đổi tương tác giữa con người và máy móc. 

Tìm hiểu thêm về Google Cloud’s Speech API tại đây.

Theo Google