Thành công của IBM là tín hiệu đầu tiên cho một màn thắng lớn về trí tuệ nhân tạo có thể sống trên smartphone hay những trợ lý ảo giọng nói như Siri, Alexa, Google Assistant.

Công nghệ nhận diện giọng nói của IBM đã ngang ngửa con người

Trong giới phần mềm nhận diện giọng nói, tỷ lệ nhận diện sai 5,1% đã là con số đáng mơ ước.

Về cơ bản, các phần mềm với tỷ lệ sai sót ở mức này đã có thể sánh ngang với tai người – cũng thường bỏ lỡ/nghe nhầm khoảng 5% lời thoại trong một cuộc trò chuyện bất kỳ.

Ngày 7/3 vừa qua, IBM đã ghi dấu ấn đầu tiên trong việc đạt được thành tựu này: Phần mềm của hãng có tỷ lệ lỗi chỉ 5,5%. Đây được coi là tín hiệu đầu tiên cho một màn thắng lớn về một trí tuệ nhân tạo có thể sống trên smartphone hay những trợ lý ảo giọng nói như Siri, Alexa, Google Assistant.

Giáo sư Khoa học máy tính Julia Hirschberg của ĐH Columbia New York nhận định: “Khả năng nhận diện giọng nói tốt ngang con người trước nay vẫn là một thách thức lớn, bởi lời thoại của con người, đặc biệt là trong các cuộc trò chuyện ngẫu hứng, luôn rất phức tạp khó đoán.”

Trong suốt năm qua, IBM đã nỗ lực phá bỏ kỷ lục 6,9% của chính mình. Để đạt được 1,4% này, công ty đã phải thay đổi nhiều khía cạnh âm vị học để phần mềm có thể bắt đúng nhiều dạng lời thoại khác nhau.

Tuy các chuyên gia như giáo sư Hirshberg luôn cho rằng máy tính vẫn sẽ không thể nhận diện được một số sắc thái trò chuyện đặc biệt như tông giọng, ẩn dụ,… nhưng phần mềm của IBM đã đạt được nhiều bước tiến đáng kể trong việc chép chính tả lại lời người nói.

Các thử nghiệm dành cho phần mềm nhận diện giọng nói của IBM cũng không hề đơn giản. Trong bài đánh giá gần đây nhất, phần mềm được yêu cầu nhận diện những câu thoại được nói trong ngữ cảnh hàng ngày, chẳng hạn như đi mua xe, với hàng loạt từ nói lắp, những tiếng lầm bầm hay “ờ, à,…” liên tục.

IBM cho biết tỷ lệ 5,5% thực sự là một cột mốc quan trọng trong lĩnh vực mà người ta vẫn chưa tin là có thể bắt kịp được khả năng con người.

Chuyên gia nghiên cứu George Saon của công ty cũng không quên nhắc lại rằng: “Các đối thủ trong ngành đang nỗ lực theo kịp thành tựu này của chúng tôi; một số gần đây đã khẳng định đạt tỷ lệ 5,9%.”

Để tiện so sánh, năm 2016, các nhà nghiên cứu của Microsoft từng khẳng định họ đã xây dựng được một máy tính có thể đánh bại cả con người về khả năng nghe hiểu. Tuy nhiên, tỷ lệ sai của phần mềm lại lên đến 6,3%, vẫn cao hơn rất nhiều so với kỷ lục mới thiết lập của máy tính “nhà” IBM.

Theo CafeBiz

Góc quảng cáo