Xem nhanh
Các nhà nghiên cứu năm 2020 đã rất bất bình vì Google buộc thôi việc một chuyên gia đạo đức về trí tuệ nhân tạo nổi tiếng. Việc xảy ra sau khi cô tỏ sự thất vọng với công ty vì đã buộc gỡ một bài nghiên cứu.
Nghiên cứu đã chỉ ra những rủi ro của trí tuệ nhân tạo trong xử lý ngôn ngữ, loại đang được Google Tìm kiếm sử dụng và các sản phẩm phân tích văn bản khác. Một trong số các rủi ro là lượng khí thải carbon lớn khi phát triển loại công nghệ AI này.
Theo ước tính, việc đào tạo một mô hình AI tạo ra lượng khí thải carbon tương đương chế tạo và lái năm chiếc ô tô trong suốt vòng đời của chúng. Tại sao các mô hình AI lại trở nên ngốn điện đến vậy, và chúng khác với cách tính toán của trung tâm dữ liệu truyền thống như thế nào?
Đào tạo AI hiện kém hiệu quả
Các công việc xử lý dữ liệu truyền thống được thực hiện trong trung tâm dữ liệu bao gồm phát video trực tuyến, email và phương tiện truyền thông xã hội. AI chuyên sâu hơn về mặt tính toán vì nó cần đọc qua rất nhiều dữ liệu cho đến khi học được cách hiểu nó – tức là đã được đào tạo.
Tuy vậy, việc đào tạo này rất kém hiệu quả so với cách một con người học thông thường. Trí tuệ nhân tạo sử dụng mạng nơ-ron nhân tạo, là những phép tính toán mô phỏng các tế bào thần kinh trong não người. Độ bền kết nối của mỗi nơ-ron với hàng xóm của nó là một tham số của mạng được gọi là trọng số. Để học cách hiểu ngôn ngữ, mạng bắt đầu với các trọng số ngẫu nhiên và điều chỉnh chúng cho đến khi kết quả đầu ra đồng ý với câu trả lời đúng.
Cách phổ biến để đào tạo một mạng ngôn ngữ là cung cấp cho nó thật nhiều văn bản từ các trang web như Wikipedia và các trang tin tức với một số từ bị che, tiếp đến là yêu cầu chương trình đoán những từ bị che. Một ví dụ là “con chó của tôi thật dễ thương” với từ “dễ thương” bị che đi. Ban đầu, tất cả các chương trình đều sai, nhưng sau nhiều vòng điều chỉnh, các trọng số kết nối bắt đầu thay đổi và chọn các mẫu trong dữ liệu. Từ đó mạng nơ-ron trở nên chính xác hơn.
Một mô hình gần đây có tên là Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer (BERT – Bidirectional Encoder Representations from Transformers), là một kỹ thuật học máy dựa trên các transformer được dùng cho việc huấn luyện xử lý ngôn ngữ tự nhiên (NLP) được phát triển bởi Google. BERT đã sử dụng 3,3 tỷ từ trong sách tiếng Anh và các bài báo trên Wikipedia. Trong quá trình học máy, BERT đọc tập dữ liệu này không phải 1 lần, mà đến 40 lần. Trong khi một đứa trẻ trung bình học nói có thể nghe 45 triệu từ ở thời điểm năm tuổi, ít hơn 3.000 lần so với BERT.
Cần có một cấu trúc phù hợp
Điều làm cho các mô hình ngôn ngữ thậm chí còn tốn kém hơn để xây dựng là việc học máy này diễn ra nhiều lần trong quá trình phát triển. Điều này là do các nhà nghiên cứu muốn tìm ra cấu trúc tốt nhất cho mạng – có bao nhiêu tế bào thần kinh, bao nhiêu kết nối giữa các tế bào thần kinh, tốc độ thay đổi của các tham số trong quá trình học… Càng thử nhiều cách kết hợp, mạng càng có cơ hội đạt được độ chính xác cao. Ngược lại, bộ não của con người không cần phải tìm ra một cấu trúc tối ưu – chúng đi kèm với một cấu trúc dựng sẵn đã được mài dũa bởi quá trình tiến hóa.
Khi các công ty và học viện cạnh tranh trong không gian AI, áp lực ngày càng lớn để cải thiện công nghệ. Ngay cả khi cải thiện được độ chính xác 1% đối với các tác vụ khó như dịch máy cũng được coi là đáng kể, dẫn đến việc tung ra sản phẩm tốt hơn. Nhưng để có được 1% cải tiến đó, một nhà nghiên cứu có thể đào tạo mô hình hàng ngàn lần, mỗi lần với một cấu trúc khác nhau cho đến khi tìm thấy mô hình tốt nhất.
Các nhà nghiên cứu tại Đại học Massachusetts Amherst đã ước tính chi phí năng lượng của việc phát triển các mô hình ngôn ngữ trí tuệ nhân tạo bằng cách đo mức tiêu thụ điện năng của phần cứng phổ biến được sử dụng trong quá trình đào tạo. Họ phát hiện ra rằng việc huấn luyện BERT sử dụng lượng carbon tương đương một hành khách bay khứ hồi giữa New York và San Francisco. Bằng cách sử dụng các cấu trúc tìm kiếm khác nhau, nghĩa là huấn luyện thuật toán nhiều lần trên dữ liệu với số lượng nơ-ron, kết nối và các tham số hơi khác nhau thì lượng carbon thải ra tương đương 315 hành khách hoặc toàn bộ một chiếc máy bay 747.
Lớn và nóng hơn
Các mô hình trí tuệ nhân tạo cũng lớn hơn nhiều so với mức cần thiết và ngày càng lớn hơn mỗi năm. Một mô hình ngôn ngữ gần đây hơn tương tự như BERT là GPT-2 có đến 1,5 tỷ tham số trong mạng của nó. GPT-3, tạo ra sự chấn động trong năm nay vì độ chính xác cao, có 175 tỷ tham số.
Các nhà nghiên cứu phát hiện ra việc có các mạng lớn hơn dẫn đến độ chính xác tốt hơn, ngay cả khi chỉ một phần nhỏ của mạng trở nên hữu ích. Điều tương tự cũng xảy ra trong não của trẻ, khi các kết nối tế bào thần kinh được thêm vào lần đầu tiên và sau đó bị giảm đi, nhưng não sinh học tiết kiệm năng lượng hơn nhiều so với máy tính.
Các mô hình AI được đào tạo trên phần cứng chuyên dụng như bộ xử lý đồ họa, tiêu thụ nhiều điện năng hơn so với các CPU truyền thống. Nếu bạn sở hữu một máy tính xách tay chơi game, nó có thể có một trong những bộ xử lý đồ họa này để tạo đồ họa nâng cao, chẳng hạn như chơi Minecraft RTX. Bạn cũng có thể nhận thấy rằng chúng tạo ra nhiều nhiệt hơn so với máy tính xách tay thông thường.
Điều này có nghĩa là việc phát triển các mô hình trí tuệ nhân tạo tiên tiến đang làm tăng thêm lượng lớn khí thải carbon. Trừ khi chúng ta chuyển sang các nguồn năng lượng tái tạo 100%, tiến bộ của trí tuệ nhân tạo có thể trái ngược với các mục tiêu cắt giảm khí thải nhà kính và làm chậm biến đổi khí hậu. Chi phí tài chính cho việc phát triển cũng đang trở nên cao đến mức chỉ một số phòng thí nghiệm được chọn có đủ khả năng thực hiện và họ sẽ là những người thiết lập chương trình nghị sự cho những loại mô hình AI được phát triển.
Làm nhiều hơn với chi phí cắt giảm
Tuy vậy mọi thứ có thể không ảm đạm như vẻ bề ngoài. Chi phí đào tạo có thể giảm xuống khi các phương pháp đào tạo hiệu quả hơn được phát minh. Việc sử dụng năng lượng của trung tâm dữ liệu được dự đoán sẽ bùng nổ trong những năm gần đây đã không xảy ra do những cải tiến về hiệu suất của trung tâm dữ liệu, phần cứng và làm mát hiệu quả hơn.
Ngoài ra còn có sự đánh đổi giữa chi phí đào tạo các mô hình và chi phí sử dụng chúng, vì vậy việc dành nhiều năng lượng hơn vào thời gian đào tạo để tạo ra một mô hình nhỏ hơn có thể thực sự khiến việc sử dụng chúng rẻ hơn. Bởi vì một mô hình sẽ được sử dụng nhiều lần trong vòng đời của nó, tức có thể tiết kiệm năng lượng rất lớn.
Các nhà nghiên cứu cũng xem xét các cách để làm cho các mô hình trí tuệ nhân tạo nhỏ hơn bằng cách chia sẻ tham số hoặc sử dụng cùng trọng số trong nhiều phần của mạng. Điều này được xem là những mạng đơn giản hơn vì một tập hợp các tham số nhỏ có thể được cấu hình lại thành một mạng lớn hơn với bất kỳ hình dạng hoặc cấu trúc nào. Các nghiên cứu đã chỉ ra rằng chia sẻ trọng số có hiệu suất tốt hơn trong cùng một khoảng thời gian tập luyện.
Trong tương lai, cộng đồng trí tuệ nhân tạo nên đầu tư nhiều hơn vào việc phát triển các chương trình đào tạo tiết kiệm năng lượng. Nếu không, nó có nguy cơ khiến trí tuệ nhân tạo bị chi phối bởi một số ít người có khả năng điều khiển theo ý mình, bao gồm loại mô hình nào được phát triển, loại dữ liệu nào được sử dụng để đào tạo chúng và mô hình được sử dụng để làm gì.