Xem nhanh
Google mang đến một loạt cập nhật trên các mô hình Gemini, bao gồm bản 1.5 Flash mới, mô hình tùy biến nhẹ hơn nhằm ưu tiên tốc độ và hiệu quả; cùng với Project Astra, minh chứng cho tầm nhìn của chúng tôi về tương lai của trợ lý AI.
Vào tháng 12, Google đã ra mắt mô hình AI đa phương thức đầu tiên là Gemini 1.0, với 3 phiên bản: Ultra, Pro và Nano. Chỉ vài tháng sau, mô hình 1.5 Pro đã ra đời, với hiệu suất nâng cao và cửa sổ ngữ cảnh dài mang tính đột phá với 1 triệu mã token.
Các nhà phát triển và khách hàng doanh nghiệp đã sử dụng 1.5 Pro theo những cách đáng kinh ngạc và nhận thấy mô hình này vô cùng hữu ích nhờ cửa sổ ngữ cảnh dài, khả năng lý luận đa phương thức và hiệu suất tổng thể ấn tượng.
Từ phản hồi của người dùng, Google ghi nhận một số ứng dụng cần độ trễ và chi phí vận hành thấp hơn.
Điều này đã truyền cảm hứng cho chúng tôi tiếp tục đổi mới, vì vậy hôm nay, chúng tôi sẽ giới thiệu Gemini 1.5 Flash: mô hình nhẹ hơn 1.5 Pro, được thiết kế tập trung vào tốc độ và hiệu quả hoạt động trên quy mô lớn.
Cả 1.5 Pro và 1.5 Flash đều có sẵn ở bản xem trước công khai với cửa sổ ngữ cảnh 1 triệu mã token trên Google AI Studio và Vertex AI. Cửa sổ ngữ cảnh 2 triệu mã token có sẵn cho các nhà phát triển và khách hàng Google Cloud trong danh sách chờ.
Google cũng sẽ công bố thế hệ mô hình AI mã nguồn mở tiếp theo, Gemma 2, và chia sẻ sơ qua về Dự án Astra, minh chứng cho tầm nhìn của chúng tôi về tương lai của các tác nhân AI phổ quát.
Thông tin cập nhật về các mô hình Gemini
1.5 Flash là mô hình mới nhất trong nhóm mô hình Gemini và là mô hình Gemini nhanh nhất hỗ trợ API. 1.5 Flash được tối ưu hóa cho các tác vụ vừa nặng vừa nhiều trên quy mô lớn và có chi phí vận hành hợp lý hơn, cũng như sở hữu cửa sổ ngữ cảnh dài.
Mặc dù đây là mô hình nhẹ hơn 1.5 Pro nhưng nó có khả năng cao trong lý luận đa phương thức với lượng thông tin khổng lồ và có chất lượng ấn tượng so với dung lượng của nó. 1.5 Flash vượt trội trong việc tóm tắt, trò chuyện, chú thích hình ảnh và video, trích xuất dữ liệu từ các tài liệu và bảng biểu dài, v.v. 1.5 Flash có được khả năng này là nhờ được 1.5 Pro đào tạo thông qua một quy trình được gọi là “chưng cất”, trong đó kiến thức và kỹ năng cần thiết nhất từ mô hình lớn hơn được chuyển sang mô hình nhỏ và hiệu quả hơn.
Mô hình 1.5 Pro còn tốt hơn nữa
Trong vài tháng qua, Google đã cải thiện đáng kể hiệu suất chung của mô hình tốt nhất 1.5 Pro. Ngoài việc mở rộng cửa sổ ngữ cảnh lên 2 triệu token, chúng tôi còn nâng cao khả năng viết mã lập trình, lập kế hoạch và lập luận logic, khả năng đối đáp, cũng như khả năng hiểu âm thanh và hình ảnh thông qua các cải tiến về dữ liệu và thuật toán.
Mô hình 1.5 Pro có tiến bộ đáng kể về điểm benchmarks, tức điểm hiệu năng trong một số lĩnh vực, như lý luận và viết mã lập trình, cũng như đạt điểm benchmark tốt nhất về phân tích hình ảnh và video, bao gồm: MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA và EgoSchema.
1.5 Pro giờ đây có thể làm theo các câu lệnh ngày càng phức tạp và nhiều sắc thái, bao gồm cả những mô tả ở cấp độ sản phẩm như vai trò, định dạng và kiểu dáng. Google đã cải thiện khả năng kiểm soát phản hồi của mô hình cho các trường hợp sử dụng cụ thể, chẳng hạn như mô phỏng phong cách phản hồi và cá tính của tổng đài viên hoặc tự động hóa quy trình công việc thông qua nhiều lệnh chức năng. Ngoài ra Google còn cho phép người dùng điều khiển hành vi của mô hình bằng cách cài đặt hệ thống.
Khả năng phân tích âm thanh trong API Gemini và Google AI Studio đã được bổ sung, vì vậy, mô hình 1.5 Pro hiện có thể xử lý hình ảnh và âm thanh cho các video được tải lên trong Google AI Studio.
Cập nhật cho Gemini Nano, mô hình xử lý tác vụ nội bộ trên thiết bị
Gemini Nano đang mở rộng tính năng, ngoài việc xử lý văn bản thì nay còn bao gồm hình ảnh. Bắt đầu với Pixel, các ứng dụng sử dụng Gemini Nano với mô hình đa phương thức nay có thể tương tác thế giới theo cách thông thường, tức không chỉ thông qua văn bản mà còn thông qua hình ảnh, âm thanh và ngôn ngữ nói.
Phiên bản mới của các mô hình mã nguồn mở
Google cũng chia sẻ thông tin cập nhật về Gemma, mô hình mã nguồn mở của mình, vốn được xây dựng từ cùng nghiên cứu và công nghệ dùng để tạo ra mô hình Gemini.
Gemma 2.0, thế hệ mô hình mở tiếp theo của Google hướng tới đổi mới AI có trách nhiệm. Gemma 2.0 có kiến trúc mới được thiết kế để mang lại hiệu suất và hiệu quả đột phá, đồng thời sẽ có sẵn ở nhiều phiên bản.
Nhóm mô hình Gemma đang mở rộng với PaliGemma, mô hình ngôn ngữ thị giác đầu tiên của Google, lấy cảm hứng từ PaLI-3. Google đã nâng cấp Bộ công cụ AI tạo sinh có trách nhiệm với Bộ so sánh mô hình ngôn ngữ lớn LLM để đánh giá chất lượng phản hồi của mô hình.
Tiến trình xây dựng các tác nhân AI phổ quát
Là một phần trong sứ mệnh của Google Deep Mind nhằm xây dựng AI một cách có trách nhiệm, nhằm mang lại lợi ích cho nhân loại, Google luôn muốn phát triển các tác nhân AI phổ quát hữu ích trong cuộc sống hàng ngày.
Đó là lý do Google chia sẻ Dự án Astra: thể hiện tầm nhìn của chúng tôi về tương lai của trợ lý AI.
Để trở nên thực sự hữu ích, một tác nhân cần hiểu và phản hồi với thế giới phức tạp và năng động giống như con người; đồng thời tiếp nhận và ghi nhớ những gì nó nhìn thấy và nghe thấy để hiểu bối cảnh và thực hiện hành động. Tác nhân cũng cần phải có tính chủ động, dễ huấn luyện và mang tính cá nhân để người dùng có thể nói chuyện một cách tự nhiên mà không bị gián đoạn.
Mặc dù Google đã đạt được tiến bộ đáng kinh ngạc khi phát triển các hệ thống AI có thể hiểu thông tin đa phương thức, nhưng việc giảm thời gian phản hồi cho nội dung hội thoại là một thách thức kỹ thuật khó khăn. Trong vài năm qua, Google luôn nỗ lực cải thiện cách các mô hình nhận thức, suy luận và trò chuyện để mang lại tự nhiên hơn cho tốc độ và chất lượng hội thoại.
Các tác nhân này được xây dựng trên mô hình Gemini và các mô hình có nhiệm vụ cụ thể khác, đồng thời được thiết kế để xử lý thông tin nhanh hơn bằng cách mã hóa liên tục các khung hình video, kết hợp video đầu vào và giọng nói thành chuỗi sự kiện, đồng thời lưu thông tin này vào bộ nhớ đệm để truy xuất hiệu quả
Bằng cách tận dụng các mẫu giọng nói, Google cũng cải tiến các mô hình giọng nói, mang lại nhiều ngữ điệu hơn. Những tác nhân này có thể hiểu rõ hơn về bối cảnh và phản hồi nhanh chóng trong cuộc trò chuyện.
Thật dễ dàng để hình dung ra một tương lai nơi bạn sở hữu một trợ lý chuyên gia bên mình, thông qua điện thoại hoặc mắt kính. Một số tính năng này sẽ có mặt trên các sản phẩm của Google, như ứng dụng Gemini, vào cuối năm nay.
Tiếp tục khám phá
Cho đến nay, Google đã đạt được những tiến bộ đáng kinh ngạc với nhóm mô hình Gemini và luôn cố gắng phát triển công nghệ tiên tiến hơn nữa. Bằng cách đầu tư vào dây chuyền sản xuất đổi mới không ngừng, Google có thể tiên phong khám phá những ý tưởng mới, đồng thời mở rộng tiềm năng sử dụng của Gemini.