Trở về Việt Nam sau bài thuyết trình trong Hội nghị khoa học thế giới Interspeech tại Hy Lạp từ ngày 1-5/9/2024, Lê Duy Khánh – kỹ sư AI trẻ tài năng của Zalo đã có những chia sẻ về trải nghiệm học tập đáng nhớ.

Lê Duy Khánh là kỹ sư trẻ sinh năm 2000 đến từ Zalo AI. Vượt qua hàng nghìn ứng viên, công trình nghiên cứu của Duy Khánh với đề tài “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking” (Tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động).

Khát vọng của kỹ sư genZ tại Zalo AI qua bài thuyết trình ở hội nghị khoa học hàng đầu thế giới
Lê Duy Khánh – Kỹ sư sinh năm 2000 tại Zalo AI, tác giả của đề tài Nghiên cứu “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking”

Dưới sự hướng dẫn của TS. Châu Thành Đức – Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên, ĐH Quốc gia TP.HCM, công trình được chọn để công bố tại Hội nghị khoa học Interspeech – Hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức.

Với chủ đề “Speech and beyond” (Tạm dịch: Tiếng nói và hơn thế nữa), hội nghị năm nay tập trung vào các phương thức tiếp cận đa dạng nhằm giải quyết các vấn đề liên quan đến khoa học, công nghệ về tiếng nói và ngôn ngữ của con người, từ lý thuyết đến ứng dụng thực tiễn.

Công trình Nghiên cứu của Duy Khánh và các đồng sự có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.

Khát vọng của kỹ sư genZ tại Zalo AI qua bài thuyết trình ở hội nghị khoa học hàng đầu thế giới
Nâng cấp các mô hình nhận dạng tiếng nói giúp tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và chuyển tin nhắn thoại thành văn bản trên Zalo

Chàng kỹ sư trẻ Lê Duy Khánh đã dành tổng cộng 9 tháng để nghiên cứu, viết bài báo khoa học và ứng dụng vào thực tiễn. Để hoàn thành đề tài, chàng kỹ sư trẻ đã phải đối mặt với nhiều thách thức, vì huấn luyện mô hình nhận dạng tiếng nói đòi hỏi cấu hình phần cứng mạnh, đồng thời tiếng nói là dạng dữ liệu khó xử lý vì có thể gặp các trường hợp không rõ chữ, nói nhanh và thường trong môi trường thực tế nhiều tiếng ồn.

Thông thường tỷ lệ thành công của các thí nghiệm chỉ khoảng 10% – nghĩa là trong 10 thí nghiệm chỉ có 1 thí nghiệm đạt được mục tiêu đề ra.

Những lần đầu đáng nhớ tại Hy Lạp

Cảm giác choáng ngợp nhưng thích thú là những từ Duy Khánh dùng để miêu tả về trải nghiệm của mình tại Hy Lạp trong 5 ngày. Choáng ngợp vì được chứng kiến hàng nghìn bài phát biểu cũng như diện kiến những tên tuổi lớn trong làng AI thế giới. Thích thú vì đây là cơ hội được học hỏi và trải nghiệm của chàng kỹ sư Zalo trẻ. Duy Khánh chia sẻ.

“Trước chuyến đi, tôi cũng khá là hồi hộp và lo lắng. Đây không chỉ là lần đầu tiên tôi có cơ hội được thuyết trình tại một hội nghị khoa học hàng đầu thế giới trong lĩnh vực công nghệ nói chung và xử lý giọng nói nói riêng, đây còn là lần đầu tiên tôi ra nước ngoài.”

Khát vọng của kỹ sư genZ tại Zalo AI qua bài thuyết trình ở hội nghị khoa học hàng đầu thế giới
Cảm giác choáng ngợp nhưng thích thú là những từ Duy Khánh dùng để miêu tả về trải nghiệm của mình tại Hy Lạp trong 5 ngày

Một mình nơi đất khách, vừa phải lo cho sinh hoạt cá nhân 5 ngày tại Hy Lạp, vừa phải chuẩn bị tinh thần và kiến thức vững vàng trước buổi thuyết trình, Duy Khánh thở phào nhẹ nhõm khi mọi thứ đều diễn ra hết sức suôn sẻ.

Nói về bài thuyết trình tại hội nghị Interspeech, Duy Khánh kể.

“Hội nghị diễn ra 5 ngày với khoảng 2.000 bài thuyết trình hội thảo của các kỹ sư, nhà nghiên cứu công nghệ và AI từ khắp nơi trên thế giới. Có 2 hình thức thuyết trình chính: thuyết trình miệng (oral presentation) và thuyết trình poster (poster presentation). Với việc thuyết trình miệng như tôi, mỗi người thuyết trình sẽ có khoảng 20 phút, bao gồm cả thời gian thuyết trình lẫn đặt câu hỏi, để giới thiệu công trình nghiên cứu của mình tới người xem. Với những người chọn thuyết trình poster, họ sẽ có khoảng 2 tiếng đứng cạnh poster của mình và giới thiệu nội dung trên poster tới người tham gia hội nghị.

Bài thuyết trình của tôi diễn ra suôn sẻ. Tôi nhớ có khoảng 100 người ngồi dưới khán phòng. Cuối bài có 2 người đặt câu hỏi, một người hỏi về thuật toán, một người hỏi về tốc độ xử lý. Tôi coi những câu hỏi của mọi người là cách mọi người quan tâm tới nội dung thuyết trình của mình, cũng như có thêm phản hồi để hoàn thiện sản phẩm tốt hơn.

Cá nhân tôi thích xem những bài thuyết trình poster khi bạn có dịp trò chuyện trực tiếp với người thuyết trình, quan sát và nghiền ngẫm bài thuyết trình lâu hơn để học thêm kiến thức mới.”

Khát vọng của chàng kỹ sư AI trẻ: Công nghệ AI do người Việt nghiên cứu để  phục vụ cho chính người Việt

Việc tham gia hội nghị Interspeech mang đến cho Duy Khánh nhiều trải nghiệm ý nghĩa. Một trong những điều Duy Khánh tâm đắc nhất sau chuyến đi là niềm tin được củng cố về tầm quan trọng của nghiên cứu AI.

Khát vọng của kỹ sư genZ tại Zalo AI qua bài thuyết trình ở hội nghị khoa học hàng đầu thế giới

“Tôi có dịp được nhìn thấy những sản phẩm của những công ty lớn như Microsoft hay Meta tại hội nghị Interspeech cũng như được nghe nhiều nghiên cứu mới về AI từ các trường đại học, viện nghiên cứu công nghệ hàng đầu thế giới như đại học Carnegie Mellon, đại học John Hopkins (Mỹ)…. Để các kỹ sư trẻ như chúng tôi nói riêng và ngành công nghệ AI Việt Nam nói chung phát triển, việc đầu tư vào nghiên cứu là điều cần thiết. Làm AI luôn cần có những nghiên cứu, còn nếu hoàn toàn dùng công nghệ có sẵn của những công ty khác thì khó có thể tiến xa.”

Từ những ý tưởng và các kiến thức mới học được từ hội nghị Interspeech, Duy Khánh mong muốn có thể tiếp tục phát triển các hoạt động nghiên cứu tại Zalo AI.

Kể từ khi bắt đầu hành trình tiên phong trong nghiên cứu AI vào năm 2017, Zalo luôn tin tưởng vào thế hệ những tài năng trẻ như Duy Khánh. Hiện tại, có đến 31% nhân sự Zalo thuộc thế hệ GenZ. Đội ngũ nhân sự trẻ đầy nhiệt huyết và không ngại thử thách này là lực lượng nòng cốt, đảm nhận các vai trò quan trọng làm nên sự thành công của các công nghệ và tính năng AI, với trên 10 triệu người dùng trong hệ sinh thái sản phẩm của Zalo.

Khát vọng của kỹ sư genZ tại Zalo AI qua bài thuyết trình ở hội nghị khoa học hàng đầu thế giới

5 ngày tại hội nghị Interspeech đã giúp Duy Khánh có thêm động lực để tiếp tục theo đuổi con đường phát triển AI, đóng góp vào các nghiên cứu của Zalo AI. Chia sẻ về kế hoạch tương lai tại Zalo AI, Duy Khánh chia sẻ.

Công việc của tôi và các đồng nghiệp thường được gói gọn trong câu nói vui: “GPU càng nhiều, trách nhiệm càng lớn”. Tại Zalo, chúng tôi hiểu rằng tài nguyên mà mình có là vô giá, và điều quan trọng là phải trân trọng và tận dụng tối đa khả năng của chúng. Mỗi ý tưởng, dù nhỏ nhất, đều mang trong mình giá trị và cơ hội xứng đáng được hiện thực hóa. Tham dự kỳ Interspeech lần này không chỉ là cột mốc cá nhân, mà còn là động lực để tôi phấn đấu đưa công nghệ AI đến gần hơn với mọi người dùng Việt Nam.

Việc các đề tài nghiên cứu của kỹ sư Việt Nam được quốc tế công nhận là một tín hiệu tích cực, phản ánh sự phát triển đáng ghi nhận, thu hẹp khoảng cách của cộng đồng AI Việt Nam và thế giới.

Khát vọng của kỹ sư genZ tại Zalo AI qua bài thuyết trình ở hội nghị khoa học hàng đầu thế giới

TS. Châu Thành Đức, Trưởng bộ phận Nghiên cứu và Phát triển tại Zalo AI và đồng tác giả của công trình nghiên cứu lần này, chia sẻ: “Việc tổng hợp các nghiên cứu có giá trị thực tiễn cao của Zalo AI thành bài báo khoa học và giới thiệu tại các hội nghị quốc tế uy tín là rất có ý nghĩa. Những bài báo khoa học không chỉ chứng minh năng lực của kỹ sư Việt Nam, mà còn thể hiện mong muốn chia sẻ kinh nghiệm và đóng góp vào sự phát triển của cộng đồng AI toàn cầu.”

Đây không phải là lần đầu tiên các kỹ sư Zalo AI có bài báo khoa học được công nhận cấp quốc tế. Vào năm 2021, hai đề tài nghiên cứu khác của nhóm kỹ sư Zalo AI liên quan đến công nghệ xử lý tiếng nói cũng đã được công nhận tại Hội nghị Châu Á – Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI 2021). Đáng chú ý, các tác giả của hai đề tài này đều là những nhà nghiên cứu trẻ, với độ tuổi chưa đến 30.

Góc quảng cáo