Знакомство с Близнецами:
Gemini, заявленная как наша крупнейшая и самая мощная модель искусственного интеллекта, является нашей самой гибкой моделью, способной эффективно работать на всех объектах: от центров обработки данных до мобильных устройств. Его самые современные возможности значительно улучшат способы создания и масштабирования разработчиков и корпоративных клиентов с помощью искусственного интеллекта.
Gemini 1.0 (наш первый выпуск) оптимизирован для трех разных размеров:
Gemini Ultra – наша самая крупная и мощная модель, подходящая для выполнения очень сложных задач.
Gemini Pro — наша лучшая модель, которая масштабируется для решения самых разных задач.
Gemini Nano — наша самая эффективная модель задач на устройстве.
Современное исполнение
Мы тщательно тестировали модель Gemini и оценивали ее производительность при выполнении различных задач. От естественного понимания изображений, аудио и видео до математических рассуждений, производительность Gemini Ultra превосходит текущие результаты по 30 из 32 широко используемых академических тестов, используемых в исследованиях и разработках моделей большого языка (LLM).
Gemini Ultra с результатом 90,0% является первой моделью, превзошедшей экспертов-людей в MMLU (массовое многозадачное понимание языка), который объединяет 57 предметов, включая математику, физику, историю, право, медицину и этику для проверки знаний и решения проблем. навыки решения.
Наш новый метод тестирования MMLU позволяет Gemini использовать свою силу рассуждения, чтобы более тщательно подумать, прежде чем отвечать на сложные вопросы, что приводит к значительным улучшениям по сравнению с использованием только первого впечатления.
На этой диаграмме показана производительность Gemini Ultra по сравнению с GPT-4 в обычных текстовых тестах (числа API рассчитаны с учетом отсутствующих сообщаемых чисел).
Gemini превосходит самые современные показатели производительности по ряду тестов, включая текст и кодирование.
Gemini Ultra также получила современный балл 59,4% в новом тесте MMMU, который состоит из мультимодальных задач, охватывающих разные области и требующих вдумчивого рассуждения.
В тестах изображений, которые мы тестировали, Gemini Ultra превзошел предыдущие современные модели без помощи систем распознавания символов (OCR), которые извлекают текст из изображений для дальнейшей обработки. Эти тесты подчеркивают врожденную мультимодальность Близнецов и показывают ранние признаки более сложных мыслительных способностей Близнецов.
Более подробную информацию можно найти в нашем техническом отчете Gemini.
На этой диаграмме показана производительность Gemini Ultra в многорежимном тесте по сравнению с GPT-4V. В предыдущей модели SOTA перечислены функции, которые GPT-4V не поддерживает.
Как видно на рисунке, Gemini превосходит самые современные показатели производительности в ряде многорежимных тестов.
функции следующего поколения
До сих пор стандартный подход к созданию мультимодальных моделей заключался в обучении отдельных компонентов для разных модальностей и их последующем объединении для примерной имитации некоторых из этих функций. Эти модели иногда хорошо справляются с определенными задачами, например с описанием изображений, но с трудом справляются с более концептуальными и сложными рассуждениями.
Мы разработали Gemini так, чтобы он изначально был мультимодальным и с самого начала был предварительно обучен различным модальностям. Затем мы настраиваем его, используя дополнительные мультимодальные данные, чтобы еще больше повысить его эффективность. Это помогает Gemini легко понимать и анализировать различные входные данные с нуля, что намного лучше, чем существующие мультимодальные модели, а его возможности являются самыми современными практически во всех областях.
Узнайте больше о функциях Gemini и поймите, как они работают.
сложные рассуждения
Сложные мультимодальные возможности рассуждения Gemini 1.0 помогают понимать сложную письменную и визуальную информацию. Это дает ему уникальную способность обнаруживать неразличимые знания в больших объемах данных.
Его замечательная способность извлекать ценную информацию из сотен тысяч документов путем чтения, фильтрации и понимания информации поможет сделать новые прорывы на цифровой скорости во многих областях, от науки до финансов.
Близнецы открывают новые научные открытия.
Понимание текста, изображений, аудио и многого другого
Gemini 1.0 обучен одновременно распознавать и понимать текст, изображения, аудио и многое другое, поэтому он может лучше понимать тонкую информацию и отвечать на вопросы по сложным темам. Это делает его особенно эффективным для объяснения рассуждений в таких сложных предметах, как математика и физика.
Близнецы объясняют математические и физические рассуждения.
расширенное кодирование
Наша первая версия Gemini понимает, интерпретирует и генерирует высококачественный код на самых популярных в мире языках программирования, таких как Python, Java, C++ и Go. Его способность работать на разных языках и анализировать сложную информацию делает его одной из ведущих в мире моделей, основанных на кодировании.
Gemini Ultra показывает хорошие результаты в нескольких тестах кодирования, включая HumanEval (важный отраслевой стандарт для оценки производительности задач кодирования) и Natural2Code (наш внутренний набор данных, в котором используются источники, созданные авторами, а не информация из Интернета).
Gemini также можно использовать в качестве движка для более совершенных систем кодирования. Два года назад мы запустили AlphaCode, первую систему генерации кода с использованием искусственного интеллекта, позволяющую достичь конкурентного уровня производительности на соревнованиях по программированию.
Используя специализированную версию Gemini, мы создали AlphaCode 2, более совершенную систему генерации кода, которая превосходно подходит для решения задач конкурентоспособного программирования, выходящих за рамки кодирования и включающих сложную математику и теоретическую информатику.
Близнецы преуспевают в кодировании и соревновательном программировании.
При оценке на той же платформе, что и исходный AlphaCode, AlphaCode 2 показывает огромное улучшение, решая почти вдвое больше задач, и, по нашим оценкам, он превосходит участника конкурса 85%, в то время как AlphaCode 2 в этом отношении приближается к 50%. Когда программисты работают с AlphaCode 2, определяя определенные свойства для примеров кода, он работает лучше.
Мы рады тому, что программисты все чаще используют мощные модели искусственного интеллекта в качестве инструментов для совместной работы, которые помогают им рассуждать о проблемах, предлагать проекты кода и помогать с реализацией, чтобы они могли быстрее поставлять приложения и разрабатывать более качественные услуги.
Более подробную информацию можно найти в нашем техническом отчете AlphaCode 2.
Более надежный, масштабируемый и эффективный
В наших приложениях мы используем тензорные процессоры (TPU) v4 и v5e собственной разработки Google. ИИ Масштабное обучение Gemini 1.0 оптимизированной инфраструктуре. Мы разработали ее как наиболее надежную и масштабируемую модель обучения, а также как наиболее эффективную модель обслуживания.
На TPU Gemini работает значительно быстрее, чем предыдущие, меньшие и менее мощные модели. Эти специально разработанные ускорители искусственного интеллекта были продуктом Google AI.
По своей сути эти продукты обслуживают миллиарды пользователей в Поиске, YouTube, Gmail, Google Maps, Google Play и Android. Они также позволяют компаниям по всему миру экономически эффективно обучать крупномасштабные модели искусственного интеллекта.
Сегодня мы анонсируем Cloud TPU v5p, самую мощную, эффективную и масштабируемую систему TPU на сегодняшний день, разработанную специально для обучения передовых моделей искусственного интеллекта. Этот TPU следующего поколения ускорит разработку Gemini, поможет разработчикам и корпоративным клиентам быстрее обучать крупномасштабные генеративные модели искусственного интеллекта, а также позволит новым продуктам и возможностям быстрее доходить до клиентов.
В основе лежит ответственность и безопасность.
В Google мы стремимся продвигать смелый и ответственный искусственный интеллект во всем, что мы делаем. Основываясь на принципах искусственного интеллекта Google и строгой политике безопасности в наших продуктах, мы добавляем новые средства защиты, учитывающие мультимодальные возможности Gemini. На каждом этапе разработки мы учитываем потенциальные риски и работаем над их тестированием и смягчением.
Gemini на сегодняшний день имеет наиболее полную оценку безопасности среди всех моделей искусственного интеллекта Google, включая предвзятость и токсичность. Мы провели новое исследование потенциальных областей риска, таких как кибератаки, убеждение и автономность, а также применили лучшую в своем классе технологию состязательного тестирования Google Research, чтобы помочь выявить критические проблемы безопасности до развертывания Gemini.
Чтобы выявить «слепые пятна» в наших методах внутренней оценки, мы работаем с различными внешними экспертами и партнерами, чтобы провести стресс-тестирование наших моделей по ряду вопросов.
Чтобы диагностировать проблемы безопасности контента на этапе обучения Gemini и гарантировать, что его результаты соответствуют нашим политикам, мы используем такие тесты, как Real Toxicity Tips — набор из 100 000 советов различной степени токсичности, извлеченных из сети, разработанный экспертами компании Gemini. Институт Аллена. Для искусственного интеллекта. Более подробная информация об этом проекте появится в ближайшее время.
Чтобы ограничить вред, мы создали специальные классификаторы безопасности, позволяющие выявлять, отмечать и контролировать контент, содержащий насилие или негативные стереотипы. В сочетании с мощными фильтрами этот многоуровневый подход призван сделать Gemini более безопасным и инклюзивным для всех. Кроме того, мы продолжаем решать известные проблемы модели, такие как фактичность, обоснованность, атрибуция и подтверждение.
Ответственность и безопасность всегда лежат в основе разработки и внедрения наших моделей. Это долгосрочное обязательство, которое необходимо строить совместно, поэтому мы работаем с промышленностью и более широкой экосистемой через MLCommons, Frontier Model Forum и его Фонд безопасности искусственного интеллекта, а также нашу платформу безопасного искусственного интеллекта (SAIF), целью которой является помогают снизить риски безопасности, уникальные для систем искусственного интеллекта государственного и частного секторов. Развивая Gemini, мы продолжим сотрудничать с исследователями, правительствами и группами гражданского общества по всему миру.
Отпусти Близнецов в мир
Gemini 1.0 теперь доступен для ряда продуктов и платформ:
Gemini Pro среди продуктов Google
Мы знакомим Gemini с миллиардами людей с помощью продуктов Google.
Начиная с сегодняшнего дня, Бард будет использовать доработанную версию Gemini Pro для более сложных рассуждений, планирования, понимания и многого другого. Это самое большое обновление Bard с момента его запуска. Он будет доступен на английском языке в более чем 170 странах и регионах, и в ближайшем будущем мы планируем расширить его до различных режимов и поддерживать новые языки и локации.
Мы также добавляем Gemini в Pixel. Pixel 8 Pro — первый смартфон с Gemini Nano, который поддерживает новые функции, такие как суммирование в приложении Recorder, и запускает Smart Reply в Gboard, начиная с WhatsApp, а в следующем году появятся новые приложения для обмена сообщениями.
В ближайшие месяцы Gemini появится в других наших продуктах и сервисах, таких как поиск, реклама, Chrome и Duet AI.
Мы начали пилотную версию Gemini в поиске, что ускоряет процесс генерации поиска (SGE) для пользователей, обеспечивая 40% меньшей задержкой на английском языке (США) и улучшенным качеством.
Строим с Близнецами
Начиная с 13 декабря разработчики и корпоративные клиенты смогут получить доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI.
Google AI Studio — это бесплатный веб-инструмент для разработчиков, который позволяет быстро создавать прототипы и запускать приложения с помощью ключей API. Когда требуется полностью управляемая платформа искусственного интеллекта, Vertex AI позволяет настраивать Gemini, обеспечивает комплексный контроль данных и использует дополнительные возможности Google Cloud для обеспечения корпоративной безопасности, защиты, конфиденциальности, а также управления данными и соответствия требованиям.
Разработчики Android также могут использовать Gemini Nano, нашу самую эффективную модель задач на устройстве, с помощью AICore, новой системной функции, доступной в Android 14, начиная с устройств Pixel 8 Pro. Зарегистрируйтесь, чтобы получить раннюю предварительную версию AICore.
Близнецы скоро придут
Для Gemini Ultra мы в настоящее время завершаем обширные проверки доверия и безопасности, включая проверки красной команды доверенными внешними сторонами, а также дорабатываем модель с помощью точной настройки и обучения с подкреплением на основе отзывов людей (RLHF) перед ее широким использованием.
В рамках этого процесса мы сделаем Gemini Ultra доступным для избранных клиентов, разработчиков, партнеров, а также экспертов по безопасности и ответственности для раннего экспериментирования и получения отзывов, прежде чем развернуть его среди разработчиков и корпоративных клиентов в начале следующего года.
В начале следующего года мы также запустим Bard Advanced, новую передовую технологию искусственного интеллекта, которая предоставит вам доступ к нашим лучшим моделям и функциям, начиная с Gemini Ultra.
Эпоха Близнецов: открывая будущее инноваций
Это важная веха в развитии искусственного интеллекта и начало новой эры для нас в Google, где мы продолжим быстро и ответственно внедрять инновации, улучшая возможности наших моделей.
На данный момент мы добились большого прогресса в Gemini и работаем над дальнейшим расширением его возможностей в будущих версиях, включая улучшения в планировании и памяти, а также увеличение контекстных окон для обработки большего количества информации и обеспечения более эффективных ответов.
Мы воодушевлены удивительными возможностями мира, основанного на искусственном интеллекте, — будущего инноваций, которое повысит креативность, расширит знания, продвинет науку и изменит образ жизни и работы миллиардов людей по всему миру.
Ссылка на чтение:
https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
https://storage.googleapis.com/deepmind-media/Близнецы/gemini_1_report.pdf
https://cloud.google.com/vertex-ai
https://deepmind.google/technologies/gemini/
Оригинальная статья написана Chief Security Officer, при воспроизведении просьба указывать: https://cncso.com/ru/мегамодель-google-gemini-ai-превосходит-chatgpt-по-всем-п.