More

    Gemini 1.5 – Mô hình thế hệ tiếp theo của Gemini

    Mô hình mang lại hiệu suất được cải thiện đột phá, với một bước đột phá trong việc hiểu biết ngữ cảnh dài qua nhiều phương tiện.

    Một lời nhắn từ CEO của Google và Alphabet, Sundar Pichai:

    Tuần trước, chúng tôi triển khai mô hình mạnh nhất của chúng tôi, Gemini 1.0 Ultra, và đã tiến một bước quan trọng trong việc làm cho các sản phẩm của Google hữu ích hơn, bắt đầu từ Gemini Advanced. Hôm nay, các nhà phát triển và khách hàng Cloud có thể bắt đầu xây dựng với 1.0 Ultra – với API Gemini của chúng tôi trong AI Studio và trong Vertex AI.

    Các nhóm của chúng tôi tiếp tục đẩy mạnh ranh giới của các mô hình mới nhất của chúng tôi với sự an toàn là trung tâm. Họ đang tiến triển nhanh chóng. Trên thực tế, chúng tôi đã sẵn sàng giới thiệu thế hệ tiếp theo: Gemini 1.5. Nó có những cải tiến đột phá trên nhiều khía cạnh và 1.5 Pro đạt được chất lượng tương đương với 1.0 Ultra, trong khi sử dụng ít tài nguyên tính toán hơn.

    Thế hệ mới này cũng mang lại một đột phá trong việc hiểu biết về ngữ cảnh dài hạn. Chúng tôi đã có thể tăng đáng kể lượng thông tin mà các mô hình của chúng tôi có thể xử lý – chạy lên đến 1 triệu token một cách nhất quán, đạt được cửa sổ ngữ cảnh dài nhất từ trước đến nay của bất kỳ mô hình nền quy mô lớn nào.

    Cửa sổ ngữ cảnh dài hơn cho chúng tôi thấy sự hứa hẹn của những gì có thể. Chúng sẽ cho phép những khả năng hoàn toàn mới và giúp các nhà phát triển xây dựng các mô hình và ứng dụng hữu ích hơn nhiều. Chúng tôi rất vui mừng được cung cấp một phiên bản xem trước giới hạn của tính năng thử nghiệm này cho các nhà phát triển và khách hàng doanh nghiệp. Demis sẽ chia sẻ thêm về khả năng, an toàn và sự sẵn có dưới đây.

    — Sundar

    Giới thiệu Gemini 1.5

    Bởi Demis Hassabis, CEO của Google DeepMind, thay mặt cho nhóm Gemini

    Đây là thời điểm hứng thú đối với trí tuệ nhân tạo. Các tiến bộ mới trong lĩnh vực này có tiềm năng làm cho trí tuệ nhân tạo hữu ích hơn cho hàng tỷ người trong những năm tới. Kể từ khi giới thiệu Gemini 1.0, chúng tôi đã thử nghiệm, tinh chỉnh và cải thiện khả năng của nó.

    Hôm nay, chúng tôi công bố mô hình thế hệ tiếp theo của chúng tôi: Gemini 1.5.

    Gemini 1.5 mang lại hiệu suất được cải thiện đột phá. Đây là một bước thay đổi lớn trong phương pháp tiếp cận của chúng tôi, dựa trên nghiên cứu và đổi mới kỹ thuật trong gần như mọi phần của quá trình phát triển và cơ sở hạ tầng mô hình của chúng tôi. Điều này bao gồm việc làm cho Gemini 1.5 hiệu quả hơn trong quá trình huấn luyện và phục vụ, với một kiến trúc Mixture-of-Experts (MoE) mới.

    Mô hình Gemini 1.5 Pro đầu tiên mà chúng tôi phát hành để thử nghiệm sớm là Gemini 1.5 Pro. Đây là một mô hình đa dạng trung bình, được tối ưu hóa để mở rộng trên một loạt các nhiệm vụ và hoạt động ở mức độ tương tự như 1.0 Ultra, mô hình lớn nhất của chúng tôi đến nay. Nó cũng giới thiệu một tính năng thử nghiệm đột phá trong việc hiểu biết về ngữ cảnh dài.

    Gemini 1.5 Pro đi kèm với một cửa sổ ngữ cảnh tiêu chuẩn là 128.000 token. Nhưng bắt đầu từ hôm nay, một nhóm giới hạn các nhà phát triển và khách hàng doanh nghiệp có thể thử nghiệm nó với một cửa sổ ngữ cảnh lên đến 1 triệu token qua AI Studio và Vertex AI trong bản xem trước riêng tư.

    Khi chúng tôi triển khai cửa sổ ngữ cảnh toàn bộ 1 triệu token, chúng tôi đang tích cực làm việc để tối ưu hóa để cải thiện thời gian chờ, giảm yêu cầu tính toán và cải thiện trải nghiệm người dùng. Chúng tôi rất phấn khích khi mọi người thử nghiệm tính năng đột phá này, và chúng tôi sẽ chia sẻ thêm chi tiết về tính sẵn có trong tương lai dưới đây.

    Các tiến bộ tiếp tục trong các mô hình thế hệ tiếp theo của chúng tôi sẽ mở ra những khả năng mới cho mọi người, nhà phát triển và doanh nghiệp để tạo ra, khám phá và xây dựng bằng cách sử dụng trí tuệ nhân tạo.

    Độ dài bối cảnh của các mô hình nền móng hàng đầu

    Kiến trúc cực kỳ hiệu quả

    Gemini 1.5 được xây dựng dựa trên nghiên cứu hàng đầu của chúng tôi về kiến trúc TransformerMoE. Trong khi một Transformer truyền thống hoạt động như một mạng nơ-ron lớn, các mô hình MoE được chia thành các mạng nơ-ron “chuyên gia” nhỏ hơn.

    Tùy thuộc vào loại đầu vào được cung cấp, các mô hình MoE học để kích hoạt lựa chọn chỉ các đường dẫn chuyên gia có liên quan nhất trong mạng nơ-ron của nó. Sự chuyên môn này tăng cường đáng kể hiệu quả của mô hình. Google đã là một trong những người ứng dụng sớm và tiên phong của kỹ thuật MoE cho học sâu thông qua các nghiên cứu như Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 và nhiều nghiên cứu khác.

    Các đổi mới mới nhất trong kiến trúc mô hình cho phép Gemini 1.5 học nhanh chóng các nhiệm vụ phức tạp hơn và duy trì chất lượng, trong khi vẫn hiệu quả hơn trong việc huấn luyện và phục vụ. Những hiệu quả này đang giúp các nhóm của chúng tôi lặp lại, huấn luyện và phát triển các phiên bản nâng cao của Gemini nhanh hơn bao giờ hết, và chúng tôi đang làm việc để tối ưu hóa thêm.

    Ngữ cảnh lớn hơn, khả năng hữu ích hơn

    “Cửa sổ ngữ cảnh” của một mô hình trí tuệ nhân tạo được tạo thành từ các token, là các khối xây dựng được sử dụng để xử lý thông tin. Các token có thể là các phần hoặc phần con của từ, hình ảnh, video, âm thanh hoặc mã. Càng lớn cửa sổ ngữ cảnh của một mô hình, càng nhiều thông tin mà nó có thể chứa và xử lý trong một gợi ý nhất định — làm cho đầu ra của nó đồng nhất, liên quan và hữu ích hơn.

    Qua một loạt các đổi mới trong học máy, chúng tôi đã tăng khả năng dung lượng cửa sổ ngữ cảnh của 1.5 Pro xa hơn so với 32.000 token ban đầu cho Gemini 1.0. Chúng tôi hiện có thể chạy lên đến 1 triệu token trong sản xuất.

    Điều này có nghĩa là 1.5 Pro có thể xử lý một lượng thông tin lớn trong một lần — bao gồm 1 giờ video, 11 giờ âm thanh, cơ sở mã với hơn 30.000 dòng mã hoặc hơn 700.000 từ. Trong nghiên cứu của chúng tôi, chúng tôi cũng đã thử nghiệm thành công lên đến 10 triệu token.

    Xử lý phức tạp về lượng thông tin khổng lồ

    1.5 Pro có thể phân tích, phân loại và tóm tắt một lượng lớn nội dung một cách mượt mà trong một gợi ý cụ thể. Ví dụ, khi được cung cấp các bản ghi âm 402 trang từ nhiệm vụ Apollo 11 tới mặt trăng, nó có thể lập luận về các cuộc trò chuyện, sự kiện và chi tiết được tìm thấy trong toàn bộ tài liệu.

    Gemini 1.5 Pro có thể hiểu biết, lập luận và xác định các chi tiết thú vị trong các bản ghi âm 402 trang từ nhiệm vụ Apollo 11 tới mặt trăng.

    Hiểu biết và lập luận tốt hơn qua nhiều phương tiện

    1.5 Pro có thể thực hiện các nhiệm vụ hiểu biết và lập luận cực kỳ phức tạp cho các phương tiện khác nhau, bao gồm video. Ví dụ, khi được cung cấp một bộ phim câm 44 phút của Buster Keaton, mô hình có thể phân tích chính xác các điểm cốt truyện và sự kiện khác nhau, và thậm chí lập luận về các chi tiết nhỏ trong bộ phim mà có thể dễ dàng bị bỏ qua.

    Gemini 1.5 Pro có thể xác định một cảnh trong một bộ phim câm 44 phút của Buster Keaton khi được cung cấp một bản vẽ đơn giản làm tài liệu tham khảo cho một đối tượng trong đời sống thực.

    Giải quyết vấn đề có liên quan với các khối code dài hơn

    1.5 Pro có thể thực hiện các nhiệm vụ giải quyết vấn đề có liên quan hơn trên các khối mã dài hơn. Khi được cung cấp một gợi ý với hơn 100.000 dòng mã, nó có thể lập luận tốt hơn qua các ví dụ, đề xuất các sửa đổi hữu ích và đưa ra giải thích về cách các phần khác nhau của mã hoạt động.

    Gemini 1.5 Pro có thể lập luận qua 100.000 dòng mã, đưa ra các giải pháp hữu ích, sửa đổi và giải thích.

    Hiệu suất được cải thiện

    Khi được thử nghiệm trên một bảng đánh giá bao gồm văn bản, mã, hình ảnh, âm thanh và video, 1.5 Pro vượt trội hơn 1.0 Pro trên 87% các thước đo được sử dụng để phát triển các mô hình ngôn ngữ lớn (LLMs) của chúng tôi. Và khi so sánh với 1.0 Ultra trên các thước đo tương tự, nó thực hiện ở một mức độ tương đối tương tự.

    Gemini 1.5 Pro duy trì mức độ hiệu suất cao ngay cả khi cửa sổ ngữ cảnh của nó tăng. Trong đánh giá Needle In A Haystack (NIAH), nơi một mẩu văn bản nhỏ chứa một sự thật hoặc tuyên bố cụ thể được đặt một cách cố ý trong một khối văn bản dài, 1.5 Pro tìm thấy văn bản nhúng 99% thời gian, trong các khối dữ liệu dài đến 1 triệu token.

    Gemini 1.5 Pro cũng thể hiện những kỹ năng “học trong bối cảnh” ấn tượng, có nghĩa là nó có thể học một kỹ năng mới từ thông tin được đưa ra trong một gợi ý dài, mà không cần sự điều chỉnh tinh chỉnh bổ sung. Chúng tôi đã thử nghiệm kỹ năng này trên bài đánh giá Dịch Máy từ Một Cuốn Sách (MTOB), cho thấy mô hình học từ thông tin mà nó chưa từng thấy trước đây. Khi được cung cấp một hướng dẫn về ngữ pháp cho Kalamang, một ngôn ngữ có ít hơn 200 người nói trên toàn thế giới, mô hình học dịch tiếng Anh sang Kalamang ở một mức độ tương tự như một người học từ nội dung tương tự.

    Vì cửa sổ ngữ cảnh dài của 1.5 Pro là loại đầu tiên trong số các mô hình quy mô lớn, chúng tôi đang liên tục phát triển các đánh giá và thước đo mới để kiểm tra các khả năng độc đáo của nó.

    Kiểm tra đạo đức và an toàn một cách kỹ lưỡng

    Phù hợp với các Nguyên tắc AI của chúng tôi và các chính sách an toàn mạnh mẽ, chúng tôi đang đảm bảo các mô hình của chúng tôi trải qua các cuộc kiểm tra đạo đức và an toàn một cách kỹ lưỡng. Sau đó, chúng tôi tích hợp những kinh nghiệm nghiên cứu này vào quy trình quản trị và phát triển mô hình của chúng tôi và các đánh giá để liên tục cải thiện hệ thống AI của chúng tôi.

    Kể từ khi giới thiệu 1.0 Ultra vào tháng 12, các nhóm của chúng tôi đã tiếp tục tinh chỉnh mô hình, làm cho nó an toàn hơn cho việc phát hành rộng rãi hơn. Chúng tôi cũng đã tiến hành nghiên cứu mới về các rủi ro an toàn và phát triển các kỹ thuật kiểm tra bằng cách sử dụng đội đỏ để kiểm tra một loạt các tổn thương tiềm ẩn.

    Trước khi phát hành 1.5 Pro, chúng tôi đã tiếp cận cùng một phương pháp triển khai có trách nhiệm như chúng tôi đã làm cho các mô hình Gemini 1.0 của chúng tôi, tiến hành các đánh giá kỹ lưỡng trong các lĩnh vực bao gồm an toàn nội dung và tổn thương đại diện, và sẽ tiếp tục mở rộng các kiểm tra này. Ngoài ra, chúng tôi đang phát triển các kiểm tra tiếp theo để tính đến các khả năng mới về ngữ cảnh dài của 1.5 Pro.

    Xây dựng và thử nghiệm với các mô hình Gemini

    Chúng tôi cam kết đưa mỗi thế hệ mới của các mô hình Gemini đến hàng tỷ người, nhà phát triển và doanh nghiệp trên toàn thế giới một cách có trách nhiệm.

    Bắt đầu từ hôm nay, chúng tôi đang cung cấp một bản xem trước giới hạn của 1.5 Pro cho các nhà phát triển và khách hàng doanh nghiệp thông qua AI StudioVertex AI. Đọc thêm về điều này trên blog Google cho nhà phát triểnblog Google Cloud của chúng tôi.

    Chúng tôi sẽ giới thiệu 1.5 Pro với một cửa sổ ngữ cảnh tiêu chuẩn là 128.000 token khi mô hình sẵn sàng cho một phát hành rộng rãi hơn. Sắp tới, chúng tôi dự định giới thiệu các mức giá bắt đầu từ cửa sổ ngữ cảnh tiêu chuẩn 128.000 và mở rộng lên đến 1 triệu token, khi chúng tôi cải thiện mô hình.

    Các nhà phát triển quan tâm đến thử nghiệm 1.5 Pro có thể đăng ký ngay bây giờ trong AI Studio, trong khi các khách hàng doanh nghiệp có thể liên hệ với nhóm tài khoản Vertex AI của họ.

    Nguồn: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

    Bài viết mới nhất

    Bài viết liên quan

    ĐỂ LẠI PHẢN HỒI

    Please enter your comment!
    Please enter your name here

    Stay on op - Ge the daily news in your inbox