Xem nhanh
Bốn năm qua, thế giới đã và đang được chứng kiến những bước tiến khổng lồ về chất lượng cùng “độ thần thánh” của các sản phẩm công nghệ chúng ta vẫn sử dụng hàng ngày. Bạn đã bao giờ đặt ra câu hỏi về những tiện ích đó chưa?
Đầu tiên phải kể đến công nghệ nhận diện giọng nói được nâng cấp rất nhiều so với trước đây. Nhờ có nó mà người dùng hiện nay có thể sử dụng khẩu lệnh để tương tác nhiều hơn với các thiết bị thông minh.
Những trợ lý ảo giọng nói như Alexa của Amazon, Siri của Apple, Cortana của Microsoft cùng các hệ thống nhận diện giọng nói có mặt trên hầu như mọi sản phẩm của Google đang đồng loạt nở rộ trên nhiều nền tảng, giúp người dùng thực hiện nhiều tác vụ khác nhau. Ở phía bên kia địa cầu, gã khổng lồ tìm kiếm Baidu cũng tỏ ra không hề kém cạnh với thống kê cho thấy người dùng các sản phẩm của công ty đã sử dụng nhận diện giọng nói nhiều gấp ba lần chỉ trong vòng 18 tháng qua.
Ngoài nhận diện giọng nói, dịch tự động và các công nghệ xử lý ngôn ngữ tự nhiên khác cũng đang ngày càng ưu việt hơn với những ông lớn như Google, Microsoft, Facebook, Baidu,… liên tục tung ra những tính năng độc đáo. Google Translate hiện nay có khả năng xử lý câu văn nói từ một sang 32 ngôn ngữ khác, dịch văn viết qua lại giữa 103 ngôn ngữ, thậm chí có thể dịch (tức thời) real-time ngay khi bạn lia ống kính điện thoại qua một tấm biển quảng cáo tiếng nước ngoài, như hình ảnh dưới đây.
Và rồi chúng ta lại có công nghệ nhận diện hình ảnh – tính năng đã có mặt rộng rãi trên các sản phẩm của 4 gã khổng lồ nêu trên. Bạn có thể tìm kiếm và sắp xếp những bức ảnh của mình mà không cần phải gắn thẻ (tag) chúng, mà chỉ dựa cần trên những gì hiện diện trong hình, từ cụ thể như một chú chó, cảnh tuyết rơi cho đến trừu tượng như những cái ôm. Nhiều sản phẩm trong số này thậm chí còn có thể đọc mô tả lại các yếu tố trên bức ảnh cho người dùng khiếm thị.
Mỗi khi bạn yêu cầu sắp xếp một album ảnh chó từ kho ảnh của mình, ứng dụng lưu trữ ảnh phải xác định được mọi loại chó, từ giống Chihuahua cho đến giống chó chăn cừu Đức, trên bất cứ phông cảnh nào, đồng thời loại bỏ được những bức hình tương tự có sói hay mèo. Công nghệ này cũng không chỉ dừng lại ở chuyện sắp xếp ảnh hay gợi ý tag mặt bạn bè trên Facebook, mà còn lan sang cả các lĩnh vực như y tế, robot, drone và xe tự lái.
Trong khi nhiều startup về y sinh tung ra những sản phẩm điện toán có khả năng đọc X-quang, MRI và phim chụp CT nhanh chóng và xác định bệnh chuẩn xác hơn cả bác sỹ trị liệu, các công ty công nghệ lớn như Uber, Google, Baidu lại đang định nghĩa lại cách chúng ta di chuyển qua những chiếc xe không người lái vẫn đang ngày ngày lăn bánh thử nghiệm trên các cung đường Âu Mỹ. Những phần mềm, cỗ máy phi thường này đã làm được điều đó như thế nào?
Sự bùng nổ của Deep Learning
Điều mà nhiều người không nhận ra là tất cả các công nghệ này, về mặt bản chất đều xuất phát từ cùng một nguồn gốc. Chúng được phát triển từ “deep learning”, một nhánh đặc biệt trong trí tuệ nhân tạo (AI). Nhiều nhà khoa học vẫn thích gọi nó theo tên nguyên gốc là deep neural network (mạng neuron sâu).
Trên thực tế, chẳng kỹ sư nào có thể lập trình cho máy tính thực hiện được những tính năng đề cập ở trên. Thay vào đó, họ tạo ra một thuật toán giúp máy tính có khả năng tự học rồi cho nó tiếp xúc với hàng terabyte các dữ liệu liên quan – chẳng hạn như vài trăm ngàn bức ảnh các loại chó, hay những băng ghi giọng nói kéo dài hàng năm trời.
Sự tiếp xúc liên tục này sẽ dần dần “huấn luyện” máy tính và khiến nó tự nhận diện được những hình ảnh, giọng nói được yêu cầu. Cũng giống như cách một đứa trẻ học hỏi về thế giới xung quanh, sau một thời gian dài được xem những hình ảnh mặc định là chó hay nghe cách người ta phát âm từ gì đó, máy tính sẽ “nhìn” được đâu là chó và “nghe” được người ta đang nói gì.
Hình dưới đây mô tả cách các mạng Neuron hoạt động như thế nào
Mạng neuron sâu thực chất không phải một khái niệm mới, mà đã xuất hiện từ những năm 1950. Rất nhiều đột phá về các thuật toán trong đó diễn ra vào hai thập niên 1980 và 1990.
Lý do khiến chúng mãi đến giờ mới lại nổi lên, chính là vì các nhà khoa học cuối cùng cũng đã có thể tận dụng tất cả sức mạnh điện toán kết hợp với lượng dữ liệu khổng lồ các hình ảnh, video, âm thanh và file text trên Internet – những yếu tố quyết định giúp mạng neuron có thể hoạt động hiệu quả.
Frank Chen, đối tác điều phối của quỹ đầu tư công nghệ danh tiếng Andreesen Horowitz thậm chí còn so sánh những yếu tố trên với cuộc bùng nổ kỷ Cambria trong lĩnh vực deep learning.
Những bước tiến về phần cứng đã mở màn cho cơn địa chấn khổng lồ về deep learning. Sức mạnh điện toán leo thang vượt bậc trên các thiết bị không chỉ xuất phát từ định luật Moore, mà còn đến từ sự xuất hiện của vi xử lý đồ họa (GPU) của NVIDIA – thế hệ chip đầu tiên có khả năng mang lại những trải nghiệm thị giác tuyệt vời cho người dùng.
Ngày nay, ngoài việc cung cấp những trải nghiệm game 3D ấn tượng, GPU còn được sử dụng rộng rãi để tăng tốc độ tính toán trong các lĩnh vực như hình ảnh y khoa, điện từ, mô hình tài chính, nghiên cứu khoa học hiện đại, nhận diện hình ảnh,… Khi vận hành các thuật toán deep learning, so với việc chỉ sử dụng CPU truyền thống, GPU giúp máy tính hoạt động mượt mà hơn từ 20-50%.
Yếu tố thứ hai – lượng dữ liệu khổng lồ từ kho ảnh, video, âm thanh,… đồ sộ từ Internet và các thiết bị IoT hiện nay – đã nhen nhóm kể từ khi Internet mới ra đời, nhưng chỉ thực sự đạt độ chín trong 1-2 thập kỷ vừa qua – khi mà số cư dân mạng và tốc độ phủ sóng smartphone tăng nhanh đến chóng mặt.
Hai chất xúc tác nêu trên đã châm ngòi cho cuộc cách mạng mới về deep learning: Theo số liệu của CB Insights, các startup ứng dụng công nghệ AI được rót vốn quý vừa qua đã ở mức cao kỷ lục trong lịch sử, với con số tổng cộng lên đến hơn 1 tỷ USD. Chỉ tính riêng trong quý II năm 2016, những startup này đã tổ chức 121 vòng gọi vốn, một cú nhảy vọt so với mức 21 vòng cùng kỳ năm 2011.
Năm 2012, Google mới chỉ tiến hành 2 dự án deep learning, nhưng hiện nay con số này đã lên tới hơn 1000, trên hầu hết các sản phẩm như Tìm kiếm, Android, Gmail, Translate, Youtube và xe tự lái.
Năm 2011, siêu máy tính Watson của IBM mới chỉ sử dụng AI để đánh bại những người chơi giỏi nhất trong gameshow Jeopardy! nhưng nay cũng đã được tích hợp thêm deep learning vào hơn 30 nhóm dịch vụ mà hệ thống này cung cấp.
Giới đầu tư, những người chỉ cách đây 5 năm thôi, thậm chí còn chẳng biết deep learning là gì, cũng bắt đầu phải dè chừng những startup ứng dụng deep learning vào công nghệ của họ. Giáo sư Andrew Ng., giám đốc trung tâm nghiên cứu của Baidu thì cho rằng “AI và deep learning chính là một thứ điện năng mới có khả năng cách mạng hàng loạt ngành công nghiệp tương tự như cách mà các mạng lưới điện đã làm hơn 100 năm về trước.”
Deep Learning có quan hệ thế nào với AI?
Cho tiện hình dung, hãy nhìn vào lược đồ dưới đây để thấy rõ mối quan hệ giữa AI, machine learning và deep learning.
Hãy tưởng tượng những gì deep learning có thể làm dưới dạng ghép nối đầu vào (input) với đầu ra (output). Bạn có thể đưa vào hệ thống một đoạn file âm thanh và có được một file phụ đề ghi lại nội dung trong đó ở đầu ra.
Trong một trường hợp khác, bạn có thể đưa vào hệ thống thật nhiều email, rồi yêu cầu đầu ra phân loại xem đâu là email spam. Hoặc bạn cũng có thể đưa vào hệ thống các hồ sơ xin vay tín dụng, rồi yêu cầu bản phân tích về khả năng hoàn trả của đối tượng ở đầu ra.
Tất cả những gì bạn cần làm là đưa vào hệ thống deep learning một lượng lớn dữ liệu và “lấy” những thứ mình cần ở đầu ra. Theo cách này, miễn là bạn có đủ dữ liệu để nạp vào hệ thống, tiềm năng ứng dụng và cách mạng hóa các ngành công nghiệp của deep learning là vô biên.
Deep Learning có thể làm những gì?
Nếu bạn thấy các tính năng như nhận diện giọng nói khi dùng voice search Google hay nhận diện hình ảnh bạn bè để gợi ý tag họ trên Facebook chưa có gì quá đột phá, thì hãy nhớ rằng đây mới đang là thời kỳ bình minh của kỷ nguyên deep learning và AI mà thôi. Deep learning còn rất nhiều tiềm năng to lớn mà trong khuôn khổ bài viết, chúng ta chỉ có thể điểm qua một số ví dụ nổi bật dưới đây.
Đôi mắt cho người mù
Deep learning trong tương lai chắc chắn sẽ không dừng lại ở việc nhận diện được các hình ảnh trên máy thông thường. Những chiếc máy tính sẽ sớm có thể nhận biết từng sự vật có mặt trong khung cảnh và mô tả lại chúng.
Một khi máy tính có thể nhận diện được mọi thứ với mức độ chi tiết không kém gì con người thì chẳng có lý do gì nó không thể nghe/nhìn thay những người dùng khiếm thính/khiếm thị. Trên thực tế, Baidu đã phát triển Baidu Light, một thiết bị đeo có thể chụp ảnh mọi thứ xung quanh và trình bày caption mô tả chúng cho người dùng.
Thay đổi cách thiết kế các sản phẩm Robot và IoT
Các nhà nghiên cứu hiện nay đã có thể nâng cấp độ chính xác trong nhận diện giọng nói từ 89% lên 99%. 10% nghe có vẻ ít ỏi này thực chất sẽ thay đổi toàn bộ cuộc chơi.
Chưa cần kể đến một lượng lớn dân số mù chữ trên thế giới có thể tiếp cận sớm với các thiết bị thông minh như smartphone, khả năng nhận diện này rõ ràng đang mở đường cho những nền tảng giao thức qua giọng nói giữa con người với máy tính, cho phép chúng ta trò chuyện và ra khẩu lệnh cho những chiếc smartphone, xe hơi, các món đồ gia dụng thông minh hay thậm chí là cả chính ngôi nhà mà chúng ta sống mà không còn cần đến những chiếc màn hình cồng kềnh.
Xa hơn nữa, các robot giúp việc trong tương lai có thể hoàn toàn “nghe hiểu” con người và “nhìn” được vạn vật xung quanh để thực hiện các tác vụ ở mức chính xác cao.
Hệ thống gợi ý trên các nền tảng
Các nền tảng lớn hiện nay như Facebook, Amazon, Netflix, Youtube, Coursera,… đều có hệ thống gợi ý (recommend) rất mạnh, giúp gia tăng đáng kể độ tương tác của người dùng. Cụ thể, chúng dựa trên các dữ liệu người dùng phát sinh ra khi dùng để gợi ý thêm những sản phẩm họ sẽ thích (trên các nền tảng mua sắm), những thước phim họ sẽ muốn xem (trên Netflix, Youtube), các bài quảng cáo/được tài trợ phù hợp (trên Facebook) hay các khóa học người học quan tâm (trên các nền tảng học online như Coursera, edX,…).
“Oanh tạc” ngành tài chính
Tài chính là một trong những lĩnh vực chủ chốt sẽ chứng kiến nhiều tác động của AI và deep learning. Các công ty trong ngành hiện đã và đang sử dụng các thuật toán dự đoán các xu hướng trên thị trường chứng khoán, chuyển đổi dữ liệu an toàn hơn cho đến ngăn chặn kịp thời các hành vi lừa đảo qua giao dịch.
Trong tương lai, nhiều ngân hàng và các tập đoàn tài chính có thể sẽ đồng bộ chatbot vào dịch vụ của họ để cung cấp cho khách hàng những tư vấn cần thiết ở mọi nơi, mọi lúc. Bằng khả năng xử lý ngôn ngữ tự nhiên ưu việt, các chatbot tư vấn tài chính sẽ phân tích để xác định thói quen tiêu dùng, đầu tư của họ để đưa ra những lời chỉ dẫn phù hợp và cá nhân hóa nhất có thể.
Cách mạng ngành y tế
Deep learning có thể tạo ra rất nhiều đột phá trong rất nhiều phân mảng y tế khác nhau. Có thể điểm qua:
Enlitic là một startup y tế đang sử dụng deep learning để phân tích, xác định bệnh lý từ các phim chụp CT và MRI. Trong một số thử nghiệm trước đây, tuy chưa chính thức được cấp phép hoạt động, nhưng các thuật toán học sâu của Enlitic đã thể hiện tốt hơn cả 4 bác sỹ X-quang tham gia khi xác định được chính xác các khối u lành tính và ác tính qua ảnh phim.
Trong khi đó, startup Merck và Atomwise lại đang ứng dụng deep learning vào việc đẩy nhanh tốc độ nghiên cứu các loại thuốc điều trị hiện nay. Thay vì phải thử nghiệm từng loại chất như trước đây, các nhà khoa học có thể sử dụng mạng thần kinh nhân tạo kiểm tra hình ảnh 3D của hàng ngàn phân tử chất có tiềm năng được đưa vào thành phần điều chế thuốc và dự đoán mức độ phù hợp trong việc khống chế mầm bệnh của chúng.
Một tiềm năng khác của deep learning trong lĩnh vực này là phát triển robot phẫu thuật với độ chính xác cao và có thể nhận khẩu lệnh thời gian thực (real-time) từ bác sỹ điều khiển.
Tuy nhiên, trong khi các ứng dụng trên mới chỉ tập trung vào nâng cấp những gì con người đang làm thì startup non trẻ Freenome lại đang nghiên cứu những thứ con người chưa làm được: xác định ung thư qua mẫu máu của người bệnh. Với sức mạnh của deep learning, Freenome có thể yêu cầu máy tính tìm ra những điểm tương đồng giữa các DNA tự do trong mạch máu (cell-free DNA) và các tế bào ung thư. Công ty cho biết họ đã chứng kiến những dấu hiệu khả quan đầu tiên mà các nhà nghiên cứu ung thư hiện nay vẫn chưa nhìn ra.
Lý giải điều này, Vijay Pande, lãnh đạo mảng đầu tư công nghệ sinh học của Andreesen Horowitz, cho biết nếu như một bác sỹ X-quang có thể xem được hàng ngàn tấm phim chụp trong suốt sự nghiệp của mình, thì một chiếc máy tính có thể xem được hàng triệu tấm như vậy trong một thời gian ngắn.
Chúng vượt trội hơn đơn giản là vì được tiếp xúc với lượng dữ liệu lớn đến mức con người không thể “tiêu hóa” nổi. Kết quả cuối cùng là ngoài chất lượng tăng lên và giá thành giảm xuống, các dịch vụ y tế trong tương lai còn trở nên minh bạch và dễ tiếp cận hơn rất nhiều.
AI và Deep Learning có thực sự đáng sợ?
Trước những đột phá hàng loạt trong lĩnh vực deep learning nói riêng và AI nói chung, vấn đề gây tranh cãi muôn thuở vẫn là liệu máy tính và robot có khi nào sẽ xâm chiếm và kiểm soát loài người?
Dẫn đầu luồng quan điểm lạc quan về tương lai AI là hàng loạt nhân vật đầu ngành đến từ các tổ chức lớn như IBM, Google, ĐH Stanford, Baidu,… Theo Guru Banavar, giám đốc nghiên cứu của IBM thì về lâu dài, AI chủ yếu vẫn sẽ cùng con người giải quyết những vấn đề nhức nhối như dịch bệnh, đói nghèo… qua các đột phá về y sinh, giáo dục và ứng dụng trong nông nghiệp, tài chính, kinh doanh… Chúng ta cũng không cần phải quá lo lắng về khả năng xâm chiếm của AI vì có thông minh đến đâu thì các máy tính cũng sẽ không có tri giác như con người.
Geoffrey Hinton, một trong những nhà khoa học tiên phong trong lĩnh vực này cho biết: “Ngay cả những mạng neuron lớn nhất hiện nay cũng vẫn nhỏ hơn não người hàng trăm lần.”
Về cơ bản, những cỗ máy AI hơn con người ở khả năng thu nạp và khai phá một lượng lớn dữ liệu cũng như ghi nhận được các xu hướng và các kiểu mẫu (pattern) đặc trưng trong thời gian ngắn, chứ không hề có tư duy độc lập như con người. Điều này có nghĩa là chúng không thể tự đặt câu hỏi về những gì chúng làm hay hiểu được tại sao chúng lại làm những việc đó.
Giáo sư Andrew Ng. của Baidu cũng có cùng nhận định khi cho rằng: “Có một sự khác biệt rất lớn giữa sự thông minh và cảm quan tri giác. Các phần mềm có thể trở nên thông minh hơn, nhưng sau cùng thì chúng vẫn không hề có tri giác.” Hơn thế nữa, như bất cứ cỗ máy nào, các robot cũng sẽ có lúc hết sạch năng lượng chứ không thể hoạt động mãi mãi. Chủ tịch điều hành Eric Schmidt của Google thậm chí còn phát biểu điều này một cách hài hước rằng nếu một ngày robot có nổi dậy thì “chẳng lẽ con người không nhận ra mà tắt chúng đi sao?”
Trong khi đó, những người không trực tiếp nghiên cứu trong ngành lại mang góc nhìn bất an hơn về công nghệ này. Elon Musk và nhà vật lý Stephen Hawking đều từng chia sẻ về lo ngại con người có thể tạo ra những cỗ máy AI khủng khiếp đến mức không thể kiểm soát nổi.
Tác giả người Mỹ James Barrat cũng chỉ ra trong cuốn sách nổi tiếng Our Final Invention của ông rằng AI, cũng như công nghệ phân hạch hạt nhân, có thể trở thành một con dao hai lưỡi khi bị sử dụng sai hướng. Ở mức độ cao cấp, AI thậm chí có thể nguy hiểm hơn cả hạt nhân vì chúng đã và đang được đưa vào các vũ khí quân sự như drone tự lái và robot chiến đấu.
Tại biên giới Hàn Quốc, người ta hiện đang sử dụng SGR-1, một robot canh gác với các cảm biến nhiệt và chuyển động có thể nhận diện mục tiêu tình nghi từ khoảng cách hơn 2 dặm. Hiện tại, SGR-1 vẫn phải chờ hiệu lệnh từ con người mới bắt đầu kích hoạt ngắm bắn, nhưng vấn đề ở đây là điều gì sẽ xảy ra nếu các robot như vậy có thể tự động bắn mà không cần sự thiệp của con người?
Theo Noel Sharley, nhà hoạt động dẫn đầu chiến dịch Stop Killer Robots thì các lãnh đạo quân đội sẽ ngày càng gửi nhiều robot ra tiền tuyến để giảm thiểu tổn thất về binh lính và đây mới chính là mối nguy thực sự. Hầu hết các quốc gia, bao gồm cả Nga, Trung Quốc và Hàn Quốc, đều đang phát triển thứ công nghệ có khả năng phá vỡ an ninh toàn cầu này. “Tương lai sẽ ra sao nếu chúng ta cứ liên tục xây dựng những con robot chiến đấu và hủy diệt lẫn nhau?”, ông đặt câu hỏi.
Cuộc tranh luận gay gắt giữa hai quan điểm trên có lẽ sẽ còn rất lâu nữa mới đi đến hồi kết, nhưng dù thế nào thì ở thời điểm hiện tại, chúng ta cũng chỉ có thể căn cứ vào những gì đã biết để nhận định về lo ngại này. Những mối hoài nghi không phải là không có cơ sở và những người lạc quan về AI cũng không phải là hoàn toàn phớt lờ những phương án phòng trừ viễn cảnh đen tối đó.
Tiêu biểu trong số này là những dự án như OpenAI, startup phi lợi nhuận do Elon Musk và Sam Altman, chủ tịch vườn ươm khởi nghiệp Y Combinator, sáng lập với sứ mệnh nghiên cứu và cung cấp mã nguồn AI cho tất cả mọi người tiếp cận để “AI không rơi vào tay một nhóm độc quyền thiểu số nào”.
Thời gian gần đây, liên minh phát triển AI do Google, Facebook, Microsoft, IBM và Amazon đi đầu cũng đã chính thức được thành lập với mục tiêu cùng nhau hỗ trợ việc nghiên cứu các giải pháp về đạo đức, tính minh bạch và bảo mật cá nhân trong quá trình ứng dụng công nghệ này. Chúng ta cũng có quyền hy vọng vào những hiệp ước AI mà các nước trên thế giới có thể chung tay thiết lập trong một tương lai không xa.
Lo sợ về AI không có gì là vô lý, nhưng nếu nhìn nhận một cách công bằng thì hầu như chẳng công nghệ nào là không có hai mặt của nó. Việc một công nghệ trở nên ra sao, xét cho cùng, vẫn chủ yếu phụ thuộc vào cách con người kiểm soát cũng như sử dụng nó. Và AI hay deep learning – nguồn điện mới của nhân loại – chắc chắn cũng không phải là một ngoại lệ.
Dịch: GenK