Giới thiệu Gemini
Bởi Demis Hassabis, Giám đốc điều hành và Đồng sáng lập của Google DeepMind, thay mặt cho đội ngũ Gemini
Trí tuệ nhân tạo đã là trọng tâm của công việc suốt đời của tôi, cũng như với nhiều đồng nghiệp nghiên cứu của tôi. Từ khi lập trình trí tuệ nhân tạo cho trò chơi máy tính khi tôi còn là một thanh niên, và suốt những năm làm nghiên cứu về thần kinh để hiểu rõ cách não bộ hoạt động, tôi luôn tin rằng nếu chúng ta có thể xây dựng máy móc thông minh hơn, chúng ta có thể khai thác chúng để mang lại lợi ích cho nhân loại theo cách không ngờ.
Lời hứa về một thế giới được trang bị trí tuệ nhân tạo một cách có trách nhiệm tiếp tục thúc đẩy công việc của chúng tôi tại Google DeepMind. Đã lâu rồi, chúng tôi muốn xây dựng một thế hệ mới của các mô hình trí tuệ nhân tạo, lấy cảm hứng từ cách con người hiểu và tương tác với thế giới. Trí tuệ nhân tạo mà cảm giác ít giống như một phần mềm thông minh và hơn như một cái gì đó hữu ích và trực quan hơn – một trợ lý hay trợ giúp chuyên gia.
Hôm nay, chúng tôi tiến gần hơn tới tầm nhìn này khi giới thiệu Gemini, mô hình mạnh mẽ và tổng quát nhất mà chúng tôi từng xây dựng.
Gemini là kết quả của sự cộng tác quy mô lớn từ các đội ngũ trên toàn bộ Google, bao gồm đồng nghiệp tại Google Research. Nó được xây dựng từ đầu để là một mô hình đa phương tiện, có nghĩa là nó có thể khái quát hóa và hiểu liền mạch, vận hành và kết hợp các loại thông tin khác nhau bao gồm văn bản, mã, âm thanh, hình ảnh và video.
Gemini cũng là mô hình linh hoạt nhất của chúng tôi cho đến nay – có khả năng chạy hiệu quả trên mọi thứ từ trung tâm dữ liệu đến thiết bị di động. Những khả năng hiện đại của nó sẽ tăng cường đáng kể cách mà các nhà phát triển và doanh nghiệp xây dựng và mở rộng với trí tuệ nhân tạo.
Chúng tôi đã tối ưu hóa Gemini 1.0, phiên bản đầu tiên của chúng tôi, có ba loại khác nhau:
- Gemini Ultra — mô hình lớn nhất và mạnh mẽ nhất của chúng tôi cho các nhiệm vụ cực kỳ phức tạp.
- Gemini Pro — mô hình tốt nhất của chúng tôi để mở rộng thông qua một loạt các nhiệm vụ.
- Gemini Nano — mô hình hiệu quả nhất của chúng tôi cho các nhiệm vụ trên thiết bị.
Hiệu suất tiên tiến
Chúng tôi đã kiểm thử mô hình Gemini của mình một cách chặt chẽ và đánh giá hiệu suất của chúng trên nhiều nhiệm vụ khác nhau. Từ việc hiểu hình ảnh tự nhiên, âm thanh và video đến tư duy toán học, hiệu suất của Gemini Ultra vượt xa kết quả hiện đại trên 30 trong số 32 chỉ số đánh giá học thuật phổ biến được sử dụng trong nghiên cứu và phát triển mô hình ngôn ngữ lớn (LLM).
Với điểm số là 90.0%, Gemini Ultra là mô hình đầu tiên vượt qua chuyên gia con người trên MMLU (massive multitask language understanding), sử dụng sự kết hợp của 57 chủ đề như toán, vật lý, lịch sử, pháp luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề.
Phương pháp đánh giá mới của chúng tôi đối với MMLU cho phép Gemini sử dụng khả năng lập luận của mình để suy nghĩ cẩn thận hơn trước khi trả lời những câu hỏi khó khăn, dẫn đến sự cải thiện đáng kể so với việc chỉ sử dụng ấn tượng đầu tiên của nó.
Gemini Ultra cũng đạt được điểm số là 59,4% trên chỉ số đánh giá mới MMMU, bao gồm các nhiệm vụ đa phương tiện bao quát các lĩnh vực khác nhau đòi hỏi lập luận cẩn thận.
Với các chỉ số hình ảnh chúng tôi đã kiểm thử, Gemini Ultra vượt qua các mô hình hiện đại trước đó, mà không cần sự hỗ trợ từ các hệ thống nhận dạng đối tượng (OCR) để trích xuất văn bản từ hình ảnh để xử lý tiếp theo. Những chỉ số này làm nổi bật tính đa phương tiện của Gemini và cho thấy những dấu hiệu ban đầu về khả năng lập luận phức tạp hơn của Gemini.
Khả năng thế hệ tiếp theo
Cho đến nay, phương pháp tiêu chuẩn để tạo ra các mô hình đa phương tiện liên quan đến việc huấn luyện các thành phần riêng lẻ cho các phương tiện khác nhau và sau đó nối chúng lại với nhau để đại khái mô phỏng một số chức năng này. Những mô hình này đôi khi có thể tốt trong việc thực hiện một số nhiệm vụ, như mô tả hình ảnh, nhưng gặp khó khăn khi phải đối mặt với lập luận mang tính khái niệm và phức tạp hơn.
Chúng tôi đã thiết kế Gemini để có tính đa phương tiện, được tiền huấn luyện từ đầu trên các phương tiện khác nhau. Sau đó, chúng tôi điều chỉnh nó với dữ liệu đa phương tiện bổ sung để làm cho hiệu suất của nó trở nên rõ ràng hơn. Điều này giúp Gemini hiểu và lập luận trơn tru với mọi loại đầu vào từ đầu, tốt hơn nhiều so với các mô hình đa phương tiện hiện tại – và khả năng của nó là tiên tiến trong gần như mọi lĩnh vực.
Lập luận tinh tế
Khả năng lập luận tinh tế đa phương tiện của Gemini 1.0 có thể giúp hiểu rõ thông tin phức tạp từ văn bản và hình ảnh. Điều này khiến cho nó đặc biệt hiệu quả trong việc khám phá kiến thức mà có thể khó nhận biết giữa lượng lớn dữ liệu.
Khả năng đặc biệt của nó trong việc đút kết ra thông tin từ hàng trăm nghìn tài liệu thông qua việc đọc, lọc và hiểu thông tin sẽ giúp đưa ra những đột phá mới với tốc độ kỹ thuật số trong nhiều lĩnh vực từ khoa học đến tài chính.
Hiểu văn bản, hình ảnh, âm thanh và nhiều hơn nữa
Gemini 1.0 đã được huấn luyện để nhận biết và hiểu văn bản, hình ảnh, âm thanh và nhiều loại thông tin khác nhau cùng một lúc, giúp nó hiểu rõ hơn thông tin tinh tế và có thể trả lời các câu hỏi liên quan đến các chủ đề phức tạp. Điều này khiến cho nó đặc biệt hiệu quả trong việc giải thích lập luận trong các chủ đề phức tạp như toán học và vật lý.
Lập trình nâng cao
Phiên bản đầu tiên của Gemini có thể hiểu, giải thích và tạo ra mã chất lượng cao trong các ngôn ngữ lập trình phổ biến nhất trên thế giới, như Python, Java, C++, và Go. Khả năng làm việc qua các ngôn ngữ và lập luận về thông tin phức tạp khiến cho nó trở thành một trong những mô hình nền tảng hàng đầu cho việc lập trình trên toàn cầu.
Gemini Ultra xuất sắc trong nhiều chỉ số đánh giá mã hóa, bao gồm HumanEval, một tiêu chuẩn quan trọng trong ngành để đánh giá hiệu suất trên các nhiệm vụ lập trình, và Natural2Code, bộ dữ liệu nội bộ của chúng tôi, sử dụng nguồn thông tin được tạo bởi tác giả thay vì thông tin trên web.
Gemini cũng có thể được sử dụng như engine cho các hệ thống mã hóa nâng cao hơn. Hai năm trước, chúng tôi giới thiệu AlphaCode, hệ thống sinh mã code AI đầu tiên đạt đến mức độ hiệu suất cạnh tranh trong các cuộc thi lập trình.
Sử dụng một phiên bản chuyên biệt của Gemini, chúng tôi đã tạo ra một hệ thống tạo mã code nâng cao hơn, AlphaCode 2, xuất sắc trong việc giải quyết các vấn đề cuộc thi lập trình cạnh tranh vượt qua lĩnh vực mã hóa để liên quan đến toán học phức tạp và khoa học máy tính.
Khi đánh giá trên cùng nền tảng với AlphaCode gốc, AlphaCode 2 cho thấy sự cải tiến đáng kể, giải quyết gần gấp đôi số vấn đề và chúng tôi ước tính rằng nó hoạt động tốt hơn 85% so với các người tham gia cuộc thi – tăng lên từ gần 50% cho AlphaCode. Khi các lập trình viên hợp tác với AlphaCode 2 bằng cách xác định một số thuộc tính cụ thể cho các mẫu mã code để tuân thủ, nó hoạt động càng hiệu quả hơn.
Chúng tôi rất hứng thú khi các lập trình viên ngày càng sử dụng các mô hình trí tuệ nhân tạo có khả năng cao như các công cụ hợp tác có thể giúp họ suy luận về các vấn đề, đề xuất thiết kế mã code và hỗ trợ triển khai – giúp họ phát hành ứng dụng và thiết kế dịch vụ tốt hơn, nhanh chóng hơn.
Đáng tin cậy, có thể mở rộng và hiệu quả hơn
Chúng tôi đã huấn luyện Gemini 1.0 quy mô lớn trên cơ sở hạ tầng được tối ưu hóa cho trí tuệ nhân tạo của chúng tôi, sử dụng Tensor Processing Units (TPU) của Google được thiết kế tại nhà, bao gồm cả TPU v4 và v5e. Và chúng tôi đã thiết kế nó để là mô hình có độ tin cậy và khả năng mở rộng tốt nhất cho quá trình huấn luyện và hiệu quả phục vụ.
Trên TPUs, Gemini chạy nhanh hơn đáng kể so với các mô hình trước đây, nhỏ hơn và ít có khả năng. Những bộ tăng tốc AI được thiết kế tùy chỉnh này là trọng tâm của các sản phẩm hỗ trợ AI của Google nhằm phục vụ hàng tỷ người dùng như Tìm kiếm, YouTube, Gmail, Google Maps, Google Play và Android. Chúng cũng đã giúp các công ty trên toàn thế giới huấn luyện các mô hình trí tuệ nhân tạo quy mô lớn một cách hiệu quả chi phí.
Hôm nay, chúng tôi công bố hệ thống TPU mạnh mẽ, hiệu quả và có khả năng mở rộng nhất đến nay, Cloud TPU v5p, được thiết kế để huấn luyện các mô hình trí tuệ nhân tạo hàng đầu. TPU thế hệ tiếp theo này sẽ tăng tốc cho quá trình phát triển của Gemini và giúp các nhà phát triển và doanh nghiệp huấn luyện các mô hình trí tuệ nhân tạo quy mô lớn một cách nhanh chóng, giúp các sản phẩm và khả năng mới có thể đến với khách hàng sớm hơn.
Xây dựng với trách nhiệm và an toàn làm trung tâm
Tại Google, chúng tôi cam kết đẩy mạnh phát triển trí tuệ nhân tạo và có trách nhiệm trong mọi hoạt động của chúng tôi. Dựa trên nguyên tắc AI của Google và các chính sách an toàn mạnh mẽ trên các sản phẩm của chúng tôi, chúng tôi đang thêm các biện pháp bảo vệ mới để đáp ứng cho khả năng đa phương tiện của Gemini. Tại mỗi giai đoạn phát triển, chúng tôi đang xem xét các rủi ro tiềm ẩn và kiểm tra.
Gemini có các đánh giá an toàn toàn diện nhất so với bất kỳ mô hình AI nào của Google cho đến nay, bao gồm cả độ sai lệch và độc tính. Chúng tôi đã tiến hành nghiên cứu mới về các lĩnh vực rủi ro tiềm ẩn như tấn công mạng, đồng thời đã áp dụng các kỹ thuật thử nghiệm đối thủ tốt nhất của Google Research để giúp xác định các vấn đề an toàn quan trọng trước khi triển khai Gemini.
Để xác định những điểm mù trong phương pháp đánh giá nội bộ của chúng tôi, chúng tôi đang hợp tác với một nhóm đa dạng các chuyên gia ngoại vi và đối tác để kiểm thử mô hình của chúng tôi trên nhiều vấn đề khác nhau.
Để chẩn đoán các vấn đề về an toàn nội dung trong các giai đoạn đào tạo của Gemini và đảm bảo đầu ra tuân thủ chính sách của chúng tôi, chúng tôi đang sử dụng các tiêu chí như Real Toxicity Prompts, một bộ 100,000 yêu cầu với các mức độ độc hại khác nhau được rút ra từ web, được phát triển bởi các chuyên gia tại Viện Allen cho AI. Thông tin chi tiết hơn về công việc này sẽ được công bố sớm.
Để giảm thiểu thiệt hại, chúng tôi đã xây dựng các bộ phân loại an toàn chuyên dụng để xác định, gắn nhãn và sắp xếp nội dung liên quan đến bạo lực hoặc đặc điểm tiêu cực, ví dụ như các định kiến tiêu cực. Kết hợp với bộ lọc mạnh mẽ, phương pháp tiếp cận lớp này được thiết kế để làm cho Gemini trở nên an toàn hơn với mọi người. Ngoài ra, chúng tôi đang tiếp tục giải quyết những thách thức đã biết đến của các mô hình như tính xác thực, căn cứ, phân bổ và chứng thực.
Trách nhiệm và an toàn sẽ luôn luôn là trung tâm của quá trình phát triển và triển khai mô hình của chúng tôi. Đây là cam kết dài hạn yêu cầu sự xây dựng theo cách hợp tác, vì vậy chúng tôi đang hợp tác với ngành công nghiệp và hệ sinh thái rộng lớn để định rõ các phương pháp tốt nhất và đặt ra các chỉ số an toàn và bảo mật thông qua các tổ chức như MLCommons, diễn đàn Frontier Model và quỹ AI Safety, và Secure AI Framework của chúng tôi (SAIF), được thiết kế để giúp giảm nhẹ rủi ro an ninh đặc biệt đối với các hệ thống trí tuệ nhân tạo trên cả các ngành công nghiệp công cộng và tư nhân. Chúng tôi sẽ tiếp tục hợp tác với các nhà nghiên cứu, chính phủ và các tổ chức xã hội trên toàn thế giới khi chúng tôi phát triển Gemini.
Đưa Gemini ra sử dụng cho toàn thế giới
Gemini 1.0 hiện đang được triển khai trên nhiều sản phẩm và nền tảng:
Gemini Pro trong các sản phẩm Google
Chúng tôi đang mang Gemini đến hàng tỷ người thông qua các sản phẩm của Google.
Bắt đầu từ hôm nay, Bard sẽ sử dụng một phiên bản tốt nhất đã được điều chỉnh cẩn thận của Gemini Pro để thực hiện lập luận, lập kế hoạch, hiểu biết và nhiều tính năng khác. Đây là bản nâng cấp lớn nhất cho Bard kể từ khi nó được ra mắt. Nó sẽ được phát hành trong tiếng Anh tại hơn 170 quốc gia và vùng lãnh thổ, và chúng tôi dự định mở rộng sang các loại phương tiện khác nhau và hỗ trợ ngôn ngữ và địa điểm mới trong tương lai gần.
Chúng tôi cũng đưa Gemini đến Pixel. Pixel 8 Pro là chiếc điện thoại thông minh đầu tiên được thiết kế để chạy Gemini Nano, đang làm việc cho các tính năng mới như Tóm tắt trong ứng dụng Recorder và đang triển khai trong Smart Reply trên Gboard, bắt đầu với WhatsApp – với thêm ứng dụng nhắn tin đến trong năm sau.
Trong những tháng tới, Gemini sẽ có mặt trong nhiều sản phẩm và dịch vụ của chúng tôi như Search, Ads, Chrome và Duet AI.
Chúng tôi đã bắt đầu thử nghiệm với Gemini trong Search, nơi nó đang làm cho Search Generative Experience (SGE) của chúng tôi trở nên nhanh hơn đối với người dùng, với giảm độ trễ 40% trong tiếng Anh tại Hoa Kỳ, kèm theo cải thiện về chất lượng.
Xây dựng với Gemini
Bắt đầu từ ngày 13 tháng 12, các nhà phát triển và khách hàng doanh nghiệp có thể truy cập Gemini Pro qua API Gemini trong Google AI Studio hoặc Google Cloud Vertex AI.
Google AI Studio là một công cụ phát triển miễn phí trên web để nguyên mẫu và triển khai ứng dụng nhanh chóng với một khóa API. Khi đến lúc cần một nền tảng trí tuệ nhân tạo được quản lý đầy đủ, Vertex AI cho phép tùy chỉnh Gemini với sự kiểm soát dữ liệu đầy đủ và hưởng lợi từ các tính năng bảo mật, an toàn, quyền riêng tư và quản lý dữ liệu và tuân thủ của doanh nghiệp.
Những nhà phát triển Android cũng sẽ có thể xây dựng với Gemini Nano, mô hình hiệu quả nhất của chúng tôi cho các nhiệm vụ trên thiết bị, thông qua AICore, một khả năng hệ thống mới có sẵn trong Android 14, bắt đầu từ thiết bị Pixel 8 Pro.
Gemini Ultra sẽ sớm ra mắt
Đối với Gemini Ultra, chúng tôi hiện đang hoàn thành các kiểm tra an toàn và độ tin cậy một cách kỹ lưỡng, bao gồm kiểm thử bởi các bên bên ngoại đáng tin cậy và làm cho mô hình trở nên chính xác hơn thông qua việc điều chỉnh tinh chỉnh và học từ phản hồi của con người trước khi phổ biến rộng rãi.
Là một phần của quá trình này, chúng tôi sẽ làm cho Gemini Ultra sẵn sàng cho một số khách hàng, nhà phát triển, đối tác và chuyên gia an toàn và trách nhiệm để thử nghiệm sớm và nhận phản hồi trước khi triển khai nó cho các nhà phát triển và khách hàng doanh nghiệp vào đầu năm sau.
Vào đầu năm sau, chúng tôi cũng sẽ tung ra Bard Advanced, một trải nghiệm AI mới, tiên tiến mang lại cho bạn quyền truy cập vào các mô hình và khả năng tốt nhất của chúng tôi, bắt đầu với Gemini Ultra.
Thời đại Gemini: Tạo ra một tương lai đầy đổi mới
Đây là một cột mốc quan trọng trong quá trình phát triển trí tuệ nhân tạo, và là khởi đầu của một thời đại mới đối với chúng tôi tại Google khi chúng tôi tiếp tục nhanh chóng đổi mới và tiến xa trách nhiệm để nâng cao khả năng của các mô hình của chúng tôi.
Chúng tôi đã đạt được tiến triển lớn đối với Gemini cho đến nay và chúng tôi đang nỗ lực mạnh mẽ để mở rộng thêm khả năng của nó cho các phiên bản tương lai, bao gồm cả các tiến bộ trong lập kế hoạch và bộ nhớ, và tăng cửa sổ ngữ cảnh để xử lý thêm thông tin để đưa ra câu trả lời tốt hơn.
Chúng tôi rất hứng thú với những khả năng tuyệt vời của một thế giới được trang bị trí tuệ nhân tạo một cách trách nhiệm – một tương lai đầy đổi mới sẽ nâng cao sự sáng tạo, mở rộng kiến thức, thúc đẩy khoa học và biến đổi cách sống và làm việc của hàng tỷ người trên toàn thế giới.
Nguồn: https://blog.google/technology/ai/google-gemini-ai/?linkId=9250503#availability