Xem nhanh
Gemini là kết quả của những nỗ lực hợp tác quy mô lớn giữa các đội ngũ trong Google, bao gồm cả các cộng sự của chúng tôi tại Google Research
AI luôn là trọng tâm trong sự nghiệp của tôi cũng như của nhiều cộng sự nghiên cứu khác. Ngay từ thuở niên thiếu khi lập trình AI cho các trò chơi trên máy tính, và trong những năm nghiên cứu về khoa học thần kinh để tìm hiểu về cơ chế hoạt động của não bộ, tôi luôn tin rằng nếu chúng ta có khả năng chế tạo những loại máy móc thông minh hơn, chúng ta có thể khai thác chúng để mang lại lợi ích cho nhân loại theo những cách đáng kinh ngạc.
Sự hứa hẹn về một thế giới được hỗ trợ bởi AI một cách có trách nhiệm tiếp tục thúc đẩy công việc của chúng tôi tại Google DeepMind. Từ lâu, chúng tôi luôn mong muốn xây dựng một thế hệ của những mô hình AI mới, lấy cảm hứng từ phương thức nhận biết và tương tác với thế giới của mọi người. Không chỉ dừng lại như một phần mềm thông minh, AI sẽ trở nên hữu ích và trực quan hơn – tương tự như một cộng sự chuyên nghiệp hay trợ thủ đắc lực cho người dùng.
Hôm nay, chúng tôi tiến thêm một bước gần hơn đến viễn cảnh này bằng việc giới thiệu Gemini, mô hình AI tiên tiến và tổng quát nhất từng được Google phát triển.
Gemini là kết quả của những nỗ lực hợp tác quy mô lớn giữa các đội ngũ trong Google, bao gồm cả các cộng sự của chúng tôi tại Google Research. Ngay từ ban đầu, nó được xây dựng trở nên đa phương thức, nghĩa là nó có thể khái quát và có khả năng hiểu liền mạch, vận hành và kết hợp trên nhiều loại thông tin khác nhau bao gồm văn bản, code, âm thanh, hình ảnh và video.
Gemini cũng là mô hình AI linh hoạt nhất của chúng tôi, nó có thể hoạt động hiệu quả trên mọi thứ từ trung tâm dữ liệu cho đến thiết bị di động. Việc xây dựng và mở rộng quy mô cùng AI của các doanh nghiệp và nhà phát triển sẽ được cải thiện đáng kể với những khả năng hiện đại nhất của Gemini.
Chúng tôi đã tối ưu hóa phiên bản đầu tiên là Gemini 1.0 với ba kích cỡ khác nhau như sau:
- Gemini Ultra – mô hình lớn nhất và năng lực nhất của chúng tôi dành cho các tác vụ có độ phức tạp cao.
- Gemini Pro – mô hình tốt nhất của chúng tôi để mở rộng quy mô trên nhiều loại tác vụ.
- Gemini Nano – mô hình hiệu quả nhất của chúng tôi dành cho các tác vụ thực hiện trên thiết bị.
Hiệu suất tân tiến
Chúng tôi đã thử nghiệm nghiêm ngặt các mô hình Gemini và đánh giá hiệu suất của chúng trên nhiều tác vụ khác nhau. Từ việc nhận biết hình ảnh tự nhiên, âm thanh và video cho đến khả năng tư duy toán học, hiệu suất của Gemini Ultra vượt qua các kết quả hiện đại nhất là 30 trong số 32 tiêu chuẩn học thuật được sử dụng rộng rãi để nghiên cứu và phát triển mô hình ngôn ngữ lớn (LLM).
Với số điểm 90%, Gemini Ultra là mô hình đầu tiên vượt trội hơn các chuyên gia con người về tiêu chuẩn MMLU (Massive Multitask Language Understanding; tạm dịch: Hiểu ngôn ngữ đa nhiệm lớn), bằng cách sử dụng tổ hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề.
Cách tiếp cận chuẩn mới của chúng tôi đối với MMLU cho phép Gemini sử dụng khả năng suy luận của nó để suy nghĩ kỹ hơn trước khi trả lời những câu hỏi khó, đưa đến những cải tiến đáng kể so với việc chỉ sử dụng ấn tượng đầu tiên.
Gemini Ultra cũng đạt được số điểm cao nhất là 59,4% trên tiêu chuẩn MMMU mới (Massive Multi-discipline Multimodal Understanding, tạm dịch: Hiểu biết lớn về đa phương thức trên đa ngành), bao gồm các tác vụ đa phương thức trải rộng trên các lĩnh vực khác nhau đòi hỏi suy luận có chủ ý.
Với tiêu chuẩn hình ảnh mà chúng tôi đã thử nghiệm, Gemini Ultra vượt trội hơn các mô hình hiện đại nhất trước đó mà không cần sự hỗ trợ từ hệ thống nhận dạng ký tự đối tượng (OCR) trích xuất văn bản từ hình ảnh để tiếp tục xử lý. Những tiêu chuẩn này làm nổi bật tính đa phương thức vốn có của Gemini và cho thấy những dấu hiệu ban đầu về khả năng suy luận phức tạp hơn của Gemini.
Những khả năng của thế hệ tiếp theo
Cho đến nay, cách tiếp cận tiêu chuẩn để tạo ra các mô hình đa phương thức bao gồm việc đào tạo các thành phần riêng biệt cho từng phương thức khác nhau trước và sau đó ghép chúng lại để mô phỏng gần đúng một số chức năng này. Những mô hình này đôi khi có thể thực hiện tốt một số nhiệm vụ nhất định như mô tả hình ảnh, nhưng lại gặp khó khăn trong việc lập luận phức tạp và mang tính khái niệm hơn.
Chúng tôi đã thiết kế Gemini để nó có khả năng đa phương thức một cách tự nhiên, được đào tạo bởi nhiều phương thức khác nhau ngay từ ban đầu. Sau đó, chúng tôi tinh chỉnh bằng dữ liệu đa phương thức bổ sung để cải tiến hơn nữa tính hiệu quả của nó. Điều này giúp Gemini hiểu và suy luận liền mạch về mọi loại đầu vào ngay từ đầu, tốt hơn rất nhiều so với các mô hình đa phương thức hiện có — và những khả năng của nó đều là tân tiến nhất trong hầu hết mọi lĩnh vực.
Suy luận nhạy bén
Khả năng suy luận đa phương thức nhạy bén của Gemini 1.0 có thể hiểu được thông tin dưới dạng văn bản và hình ảnh phức tạp. Điều này khiến nó có kỹ năng độc đáo trong việc khám phá những kiến thức khó có thể phân biệt được giữa lượng dữ liệu khổng lồ.
Khả năng vượt trội của Gemini trong việc trích xuất những insight từ hàng trăm nghìn tài liệu thông qua việc đọc, lọc và hiểu thông tin sẽ giúp tạo ra những đột phá mới ở tốc độ kỹ thuật số trên nhiều lĩnh vực từ khoa học đến tài chính.
Hiểu văn bản, hình ảnh, âm thanh và hơn thế nữa
Gemini 1.0 đã được đào tạo để nhận diện và hiểu văn bản, hình ảnh, âm thanh cùng nhiều loại hình khác ngay cùng một thời điểm, giúp nó hiểu rõ hơn hơn thông tin có sắc thái và trả lời các câu hỏi liên quan đến những chủ đề phức tạp. Điều này khiến Gemini đặc biệt hữu ích trong việc giải thích lập luận ở những môn học phức tạp toán học và vật lý.
Lập trình nâng cao
Phiên bản Gemini đầu tiên của chúng tôi có thể hiểu, giải thích, và tạo ra những dòng code chất lượng cao bằng những ngôn ngữ lập trình phổ biến nhất trên thế giới, ví dụ như Python, Java, C++ và Golang. Khả năng hoạt động trên nhiều ngôn ngữ khác nhau kết hợp cùng khả năng suy luận thông tin phức tạp khiến Gemini trở thành một trong những mô hình AI lập trình hàng đầu thế giới.
Gemini Ultra vượt trội trong nhiều tiêu chuẩn về code, bao gồm tiêu chuẩn HumanEval – một điểm chuẩn tiêu chuẩn quan trọng trong ngành về khả năng xử lý các tác vụ lập trình, và Natural2Code, tiêu chuẩn mã hóa tập dữ liệu do chúng tôi thiết lập, sử dụng các nguồn tạo bởi tác giả nghiên cứu thay vì thông tin dựa trên web.
Gemini cũng có thể được sử dụng làm công cụ cho các hệ thống mã hóa tiên tiến hơn. Hai năm trước, chúng tôi đã ra mắt AlphaCode, hệ thống mã hóa AI đầu tiên đạt được mức hiệu suất cạnh tranh trong các cuộc thi lập trình.
Bằng cách sử dụng phiên bản chuyên biệt của Gemini, chúng tôi đã tạo ra một hệ thống mã hóa tiên tiến hơn – AlphaCode 2. Hệ thống này vượt trội trong việc giải quyết các vấn đề trong những cuộc thi lập trình cạnh tranh, liên quan đến toán học phức tạp và khoa học máy tính lý thuyết, vượt ngoài phạm vi mã hóa.
Khi được đánh giá trên cùng nền tảng với AlphaCode ban đầu, AlphaCode 2 cho thấy những cải tiến vượt bậc, giải quyết gần gấp đôi số lượng vấn đề, và chúng tôi ước tính rằng nó hoạt động tốt hơn 85% số người tham gia cuộc thi — tăng từ mức gần 50% của AlphaCode. Nó thậm chí còn hoạt động tốt hơn khi các lập trình viên cộng tác với AlphaCode 2 bằng cách nhận dạng các thuộc tính nhất định cho các mẫu code tuân theo.
Chúng tôi rất vui khi các lập trình viên ngày càng sử dụng các mô hình AI được đánh giá cao như những công cụ cộng tác giúp họ lập luận vấn đề, đề xuất thiết kế mã và hỗ trợ triển khai – nhờ đó họ có thể phát hành các ứng dụng và thiết kế các dịch vụ tốt hơn, nhanh hơn.
Đáng tin cậy, có thể mở rộng và hiệu quả hơn
Chúng tôi đã đào tạo Gemini 1.0 trên quy mô cơ sở hạ tầng được tối ưu hoá cho AI bằng cách sử dụng bộ xử lý Tensor (TPU) phiên bản v4 và v5e được thiết kế bởi Google. Chúng tôi đã thiết kế nó trở thành mô hình đáng tin cậy và dễ mở rộng nhất để đào tạo, cũng như hiệu quả nhất để phục vụ.
Trên TPU, Gemini vận hành nhanh hơn đáng kể so với các mô hình trước đó, nhỏ hơn và kém hiệu năng hơn. Những bộ xử lý AI được thiết kế tùy chỉnh này là trọng tâm của các sản phẩm được hỗ trợ bởi AI của Google nhằm phục vụ hàng tỷ người dùng của các sản phẩm Google Search, YouTube, Gmail, Google Maps, Google Play và Android. Chúng cũng cho phép các công ty trên toàn thế giới đào tạo các mô hình AI quy mô lớn một cách hiệu quả về chi phí.
Hôm nay, chúng tôi công bố hệ thống TPU mạnh mẽ, hiệu quả và có khả năng mở rộng nhất từ trước đến nay – Cloud TPU v5p – được thiết kế để đào tạo các mô hình AI tiên tiến. Bộ xử lý TPU thế hệ mới này sẽ thúc đẩy việc phát triển Gemini cũng như giúp cho các nhà phát triển và các khách hàng doanh nghiệp đào tạo các mô hình AI tạo sinh quy mô lớn nhanh chóng hơn, cho phép các sản phẩm cũng như tính năng mới tiếp cận người dùng sớm hơn.
Xây dựng mô hình AI trên cốt lõi trách nhiệm và sự an toàn
Tại Google, chúng tôi cam kết thúc đẩy AI một cách nghiêm túc và có trách nhiệm trong mọi công việc mình làm. Dựa trên Bộ nguyên tắc AI của Google và các chính sách an toàn triệt để trong từng sản phẩm, chúng tôi đang bổ sung các biện pháp bảo vệ mới để đảm bảo cho khả năng đa phương thức của Gemini. Ở mỗi giai đoạn phát triển, chúng tôi luôn xem xét các rủi ro tiềm ẩn cũng như nỗ lực kiểm tra và giảm thiểu chúng.
Gemini được đánh giá có độ an toàn toàn diện nhất so với bất kỳ mô hình AI của Google tính đến hiện nay, bao gồm cả tính thành kiến và tính độc hại. Chúng tôi đã tiến hành nghiên cứu mới về các lĩnh vực rủi ro tiềm ẩn như tấn công mạng, tính thuyết phục và quyền tự chủ, đồng thời đã áp dụng các kỹ thuật thử nghiệm đối thủ tốt nhất của Google Research để giúp xác định các vấn đề an toàn quan trọng trước khi triển khai Gemini.
Để xác định các điểm mù trong phương pháp đánh giá nội bộ, chúng tôi đang làm việc với một nhóm đa dạng gồm các chuyên gia và đối tác bên ngoài để kiểm tra kỹ lưỡng mô hình của mình trên nhiều vấn đề khác nhau.
Để xác định các vấn đề về an toàn nội dung trong giai đoạn đào tạo cho Gemini và đảm bảo rằng dữ liệu đầu ra của nó luôn tuân thủ các chính sách của Google, chúng tôi đang sử dụng các tiêu chuẩn như Real Toxicity Prompts. Đây là tập hợp khoảng 100,000 lời nhắc (prompts) với các mức độ độc hại khác nhau được tổng hợp từ các trang web và được phát triển bởi các chuyên gia tại Viện Nghiên cứu Allen về AI. Thông tin chi tiết về hoạt động này sẽ sớm được thông báo.
Để hạn chế tác hại, chúng tôi đã xây dựng các bộ phân loại an toàn chuyên dụng để xác định, gắn nhãn và phân loại các nội dung như bạo lực hoặc định kiến tiêu cực. Kết hợp với các bộ lọc mạnh mẽ, phương pháp tiếp cận phân tầng này được thiết kế để giúp Gemini an toàn và hòa nhập hơn với mọi người. Ngoài ra, chúng tôi vẫn đang tiếp tục giải quyết những thách thức hiện có cho nhiều mô hình như tính xác thực, căn cứ, quy kết và chứng thực.
Trách nhiệm và sự an toàn sẽ luôn là trọng tâm trong việc phát triển và triển khai các mô hình AI của chúng tôi.
Đây là một lời cam kết lâu dài đòi hỏi hợp tác xây dựng, vì vậy chúng tôi đang bắt tay với cộng đồng thuộc lĩnh vực và hệ sinh thái AI lớn hơn để thiết lập các tiêu chuẩn về an toàn và bảo mật, cũng như cách thực hành AI tốt nhất thông qua các tổ chức như MLCommons, Frontier Model Forum và Quỹ an toàn AI, cũng như Bộ khung về bảo mật AI của chúng tôi – được thiết kế dành riêng cho các hệ thống AI trong khu vực công và tư nhằm giảm thiểu rủi ro bảo mật.
Chúng tôi sẽ tiếp tục hợp tác với các nhà nghiên cứu, chính phủ và các tổ chức xã hội và dân sự trên khắp thế giới trong quá trình phát triển Gemini.
Để Gemini được triển khai trên toàn cầu
Gemini 1.0 hiện đang được triển khai trên một số lượng lớn các sản phẩm và nền tảng khác nhau:
Gemini Pro trong các sản phẩm của Google
Chúng tôi đang mang Gemini đến hàng tỉ người dùng qua các sản phẩm của Google.
Bắt đầu từ hôm nay, Bard sẽ sử dụng phiên bản tinh chỉnh của Gemini Pro để lý luận, lập kế hoạch, hiểu biết nâng cao và hơn thế nữa. Đây là bản nâng cấp lớn nhất đối với Bard kể từ khi ra mắt.
Phiên bản Bard này sẽ có trong tiếng Anh ở hơn 180 quốc gia và vùng lãnh thổ, đồng thời chúng tôi có kế hoạch mở rộng các phương thức khác nhau, cũng như hỗ trợ các ngôn ngữ và địa điểm mới trong tương lai gần.
Chúng tôi cũng sẽ triển khai Gemini trên điện thoại Pixel. Pixel 8 Pro là chiếc điện thoại đầu tiên được thiết kế để vận hành Gemini Nano, hỗ trợ các tính năng mới như Tóm tắt trong ứng dụng Ghi âm, cũng như triển khai tính năng Trả lời thông minh trên bàn phím Gboard, bắt đầu với ứng dụng WhatsApp và trên các ứng dụng nhắn tin khác vào năm tới.
Trong các tháng sắp tới, Gemini sẽ có mặt trên nhiều sản phẩm và dịch vụ của chúng tôi như Google Search, Google Ads, Chrome và Duet AI.
Chúng tôi cũng đã bắt đầu thử nghiệm Gemini trong Google Search, nơi mà Gemini giúp Search Generative Experience (SGE) vận hành nhanh hơn cho người dùng, giảm 40% độ trễ bằng tiếng Anh tại Mỹ, cùng với những cải tiến về chất lượng.
Xây dựng ứng dụng với Gemini
Từ ngày 13/12, các nhà phát triển và khách hàng doanh nghiệp có thể truy cập vào Gemini Pro thông qua Gemini API trong Google AI Studio hoặc Google Cloud Vertex AI.
Google AI Studio là một công cụ miễn phí được xây dựng trên web dành cho nhà phát triển, nó giúp các nhà phát triển và khách hàng doanh nghiệp tạo ra các phiên bản nguyên mẫu và khởi chạy ứng dụng nhanh chóng với một mã khoá API. Khi bạn cần một nền tảng AI với toàn quyền quản lý, Vertex AI cho phép bạn tùy chỉnh Gemini với quyền kiểm soát toàn bộ dữ liệu và hưởng lợi từ các tính năng bổ sung của Google Cloud dành cho doanh nghiệp về tính bảo mật, sự an toàn, quyền riêng tư cũng như tính quản trị và tuân thủ dữ liệu.
Các nhà phát triển ứng dụng Android cũng sẽ có thể xây dựng ứng dụng với Gemini Nano, mô hình hiệu quả nhất của chúng tôi cho các tác vụ trên thiết bị, thông qua AICore. Đây là một tính năng hệ thống mới có sẵn trong Android 14, được thiết lập ban đầu trên các thiết bị Pixel 8 Pro. Đăng ký để sử dụng bản dùng thử.
Gemini Ultra sắp ra mắt
Đối với Gemini Ultra, chúng tôi hiện đang hoàn tất các cuộc thử nghiệm độ tin cậy và an toàn trên diện rộng, bao gồm cả việc hợp tác với các bên đáng tin cậy, đồng thời cải tiến mô hình bằng cách tinh chỉnh và học hỏi tăng cường từ các phản hồi của con người (RLHF) trước khi được ra mắt rộng rãi.
Là một phần của quá trình trên, chúng tôi sẽ cung cấp Gemini Ultra cho một số khách hàng, nhà phát triển, đối tác cũng như các chuyên gia về an toàn và trách nhiệm để thử nghiệm và đưa ra phản hồi, trước khi ra mắt các nhà phát triển và khách hàng doanh nghiệp trong năm tới.
Đầu năm sau, chúng tôi cũng sẽ ra mắt Bard Advanced, một trải nghiệm AI mới và tiên tiến, cho phép bạn tiếp cận những mô hình và tính năng tốt nhất của chúng tôi, bắt đầu với Gemini Ultra.
Kỷ nguyên Gemini: Tạo điều kiện cho một tương lai của sự đổi mới
Đây là một cột mốc quan trọng trong sự phát triển của AI, và là sự khởi đầu cho một kỷ nguyên mới của chúng tôi tại Google, nơi chúng tôi tiếp tục đổi mới nhanh chóng và nâng cao khả năng của các mô hình một cách có trách nhiệm.
Chúng tôi đã đạt được một bước tiến tuyệt vời với Gemini cho đến thời điểm hiện tại và hiện đang cố gắng phát triển hơn nữa khả năng của nó cho các phiên bản trong tương lai, bao gồm những tiến bộ trong việc lập kế hoạch và ghi nhớ, cũng như mở rộng cửa sổ ngữ cảnh để xử lý được nhiều thông tin hơn và đưa ra những phản hồi tốt hơn.
Chúng tôi rất hào hứng trước những khả năng tuyệt vời của một thế giới được hỗ trợ bởi AI một cách có trách nhiệm – một tương lai của sự đổi mới sẽ củng cố tính sáng tạo, mở rộng tri thức, nâng cao khoa học và thay đổi cách sống và làm việc của hàng tỉ người trên khắp thế giới.
Demis Hassabis, CEO Google DeepMind (đại diện Đội ngũ Gemini)