쌍둥이자리 소개:
가장 크고 가장 강력한 AI 모델로 평가받는 Gemini는 현재까지 가장 유연한 모델로, 데이터 센터부터 모바일 장치까지 모든 분야에서 효율적으로 실행할 수 있습니다. 최첨단 기능은 개발자와 기업 고객이 인공 지능을 사용하여 구축하고 확장하는 방식을 크게 향상시킵니다.
Gemini 1.0(첫 번째 릴리스)은 세 가지 크기에 최적화되어 있습니다.
Gemini Ultra – 매우 복잡한 작업에 적합한 가장 크고 가장 뛰어난 모델입니다.
Gemini Pro – 다양한 작업에 맞게 확장 가능한 최고의 모델입니다.
Gemini Nano - 가장 효율적인 온디바이스 작업 모델입니다.
최첨단 성능
우리는 Gemini 모델을 엄격하게 테스트하고 다양한 작업에 대한 성능을 평가해 왔습니다. 자연스러운 이미지, 오디오 및 비디오 이해부터 수학적 추론에 이르기까지 Gemini Ultra의 성능은 LLM(대형 언어 모델) 연구 및 개발에 사용되는 널리 사용되는 학술 벤치마크 32개 중 30개에서 현재의 최첨단 결과를 능가합니다.
90.0% 점수를 획득한 Gemini Ultra는 수학, 물리학, 역사, 법, 의학, 윤리 등 57개 과목을 결합하여 지식과 문제를 테스트하는 MMLU(대규모 다중 작업 언어 이해) 분야에서 인간 전문가를 능가한 최초의 모델입니다. 해결능력.
새로운 MMLU 벤치마크 방법을 사용하면 Gemini는 추론 능력을 사용하여 어려운 질문에 답하기 전에 더 신중하게 생각할 수 있으므로 첫인상만 사용하는 것보다 크게 개선됩니다.
이 차트는 일반적인 텍스트 벤치마크(보고된 숫자가 누락되어 계산된 API 숫자)에서 GPT-4와 비교한 Gemini Ultra의 성능을 보여줍니다.
Gemini는 텍스트 및 인코딩을 포함한 다양한 벤치마크에서 최첨단 성능을 능가합니다.
Gemini Ultra는 또한 다양한 영역에 걸쳐 사려 깊은 추론이 필요한 다중 모드 작업으로 구성된 새로운 MMMU 벤치마크에서 59.4%라는 최첨단 점수를 획득했습니다.
우리가 테스트한 이미지 벤치마크에서 Gemini Ultra는 추가 처리를 위해 이미지에서 텍스트를 추출하는 객체 문자 인식(OCR) 시스템의 도움 없이 이전 최첨단 모델보다 성능이 뛰어났습니다. 이러한 벤치마크는 Gemini의 타고난 다중 양식성을 강조하고 Gemini의 보다 복잡한 추론 능력의 초기 징후를 보여줍니다.
자세한 내용은 Gemini 기술 보고서를 참조하세요.
이 차트는 GPT-4V와 비교하여 다중 모드 벤치마크에서 Gemini Ultra의 성능을 보여줍니다. 이전 SOTA 모델에는 GPT-4V가 지원하지 않는 기능이 나열되어 있습니다.
그림에서 볼 수 있듯이 Gemini는 일련의 다중 모드 벤치마크에서 최첨단 성능을 능가합니다.
차세대 기능
지금까지 다중 모드 모델을 생성하는 표준 접근 방식에는 다양한 양식에 대해 별도의 구성 요소를 훈련한 다음 이를 함께 연결하여 해당 기능 중 일부를 대략적으로 모방하는 것이 포함되었습니다. 이러한 모델은 때때로 이미지 설명과 같은 특정 작업에는 능숙하지만 보다 개념적이고 복잡한 추론에는 어려움을 겪습니다.
우리는 Gemini를 기본적으로 다중 모드로 설계했으며 처음부터 다양한 양식에 대해 사전 훈련되었습니다. 그런 다음 추가 다중 모드 데이터를 사용하여 이를 미세 조정하여 효율성을 더욱 개선합니다. 이를 통해 Gemini는 기존 다중 모드 모델보다 훨씬 더 나은 다양한 입력을 처음부터 원활하게 이해하고 추론할 수 있으며 그 기능은 거의 모든 영역에서 최첨단입니다.
Gemini의 기능에 대해 자세히 알아보고 작동 방식을 이해하세요.
복잡한 추론
Gemini 1.0의 정교한 다중 모달 추론 기능은 복잡한 서면 및 시각적 정보를 이해하는 데 도움이 됩니다. 이는 대량의 데이터에서 식별할 수 없는 지식을 발견하는 독특한 능력을 제공합니다.
정보를 읽고 필터링하고 이해함으로써 수십만 개의 문서에서 통찰력을 추출하는 놀라운 능력은 과학에서 금융에 이르기까지 다양한 분야에서 디지털 속도로 새로운 돌파구를 마련하는 데 도움이 될 것입니다.
쌍둥이자리는 새로운 과학적 통찰력을 열어줍니다.
텍스트, 이미지, 오디오 등을 이해하세요.
Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었으므로 미묘한 정보를 더 잘 이해하고 복잡한 주제에 대한 질문에 답할 수 있습니다. 이는 수학과 물리학과 같은 복잡한 주제의 추론을 설명하는 데 특히 좋습니다.
쌍둥이자리는 수학적, 물리적 추론을 설명합니다.
고급 코딩
Gemini의 첫 번째 버전은 Python, Java, C++ 및 Go와 같은 세계에서 가장 널리 사용되는 프로그래밍 언어로 고품질 코드를 이해하고 해석하며 생성합니다. 다양한 언어로 작업할 수 있는 능력과 복잡한 정보에 대한 추론 능력 덕분에 세계 최고의 코딩 기반 모델 중 하나가 되었습니다.
Gemini Ultra는 HumanEval(코딩 작업 성능을 평가하기 위한 중요한 업계 표준) 및 Natural2Code(웹 기반 정보가 아닌 작성자 생성 소스를 사용하는 내부 보관 데이터 세트)를 포함한 여러 코딩 벤치마크에서 우수한 성능을 발휘합니다.
Gemini는 고급 인코딩 시스템을 위한 엔진으로도 사용할 수 있습니다. 2년 전, 우리는 프로그래밍 대회에서 경쟁력 있는 성능 수준을 달성하기 위한 최초의 인공 지능 코드 생성 시스템인 AlphaCode를 출시했습니다.
Gemini의 특수 버전을 사용하여 코딩을 넘어 복잡한 수학과 이론적인 컴퓨터 과학을 포함하는 경쟁적인 프로그래밍 문제를 해결하는 데 탁월한 고급 코드 생성 시스템인 AlphaCode 2를 만들었습니다.
Gemini는 코딩과 경쟁력 있는 프로그래밍에 뛰어납니다.
원본 AlphaCode와 동일한 플랫폼에서 평가했을 때 AlphaCode 2는 거의 두 배에 가까운 문제 수를 해결하는 등 큰 개선을 보여 경쟁 참가자인 85%보다 뛰어난 성능을 보이는 반면 AlphaCode 2의 비율은 50%에 가깝습니다. 프로그래머가 코드 예제에 대한 특정 속성을 정의하여 AlphaCode 2로 작업하면 성능이 더 좋아집니다.
우리는 프로그래머들이 문제를 추론하고, 코드 디자인을 제안하고, 구현을 지원하는 데 도움이 되는 강력한 AI 모델을 협업 도구로 점점 더 많이 사용하고 있어 애플리케이션을 더 빠르게 출시하고 더 나은 서비스를 디자인할 수 있다는 사실을 기쁘게 생각합니다.
자세한 내용은 AlphaCode 2 기술 보고서를 참조하세요.
더욱 안정적이고 확장 가능하며 효율적입니다.
우리는 Google이 자체 설계한 TPU(Tensor 처리 장치) v4 및 v5e를 사용합니다. 일체 포함 최적화된 인프라에서 Gemini 1.0의 대규모 교육. 우리는 이를 가장 안정적이고 확장 가능한 훈련 모델이자 가장 효율적인 서비스 모델로 설계했습니다.
TPU에서 Gemini는 이전의 작고 덜 강력한 모델보다 훨씬 빠르게 실행됩니다. 맞춤 설계된 AI 가속기는 Google AI 제품이었습니다.
기본적으로 이러한 제품은 검색, YouTube, Gmail, Google 지도, Google Play 및 Android에서 수십억 명의 사용자에게 서비스를 제공합니다. 또한 전 세계 기업이 대규모 AI 모델을 비용 효율적으로 교육할 수 있도록 지원합니다.
오늘 우리는 최첨단 AI 모델 학습을 위해 특별히 설계된 현재까지 가장 강력하고 효율적이며 확장 가능한 TPU 시스템인 Cloud TPU v5p를 발표합니다. 이 차세대 TPU는 Gemini의 개발을 가속화하고, 개발자와 기업 고객이 대규모 생성 AI 모델을 더 빠르게 훈련하도록 돕고, 새로운 제품과 기능이 고객에게 더 빠르게 도달할 수 있도록 돕습니다.
책임감과 안전을 핵심으로 구축
Google은 우리가 하는 모든 일에서 대담하고 책임감 있는 인공 지능을 발전시키기 위해 최선을 다하고 있습니다. Google의 AI 원칙과 당사 제품의 강력한 보안 정책을 기반으로 Gemini의 다중 모드 기능을 설명하기 위해 새로운 보호 기능을 추가하고 있습니다. 개발의 모든 단계에서 우리는 잠재적인 위험을 고려하고 이를 테스트하고 완화하기 위해 노력합니다.
Gemini는 편견과 독성을 포함하여 현재까지 모든 Google AI 모델에 대해 가장 포괄적인 안전성 평가를 보유하고 있습니다. 우리는 사이버 공격, 설득, 자율성과 같은 잠재적인 위험 영역에 대한 새로운 연구를 수행했으며 Google Research의 동급 최고 수준의 적대 테스트 기술을 적용하여 Gemini 배포 전에 중요한 보안 문제를 식별하는 데 도움을 주었습니다.
내부 평가 방법의 사각지대를 파악하기 위해 다양한 외부 전문가 및 파트너와 협력하여 다양한 문제에 대해 모델의 스트레스 테스트를 진행하고 있습니다.
Gemini 교육 단계에서 콘텐츠 안전 문제를 진단하고 해당 출력이 정책을 준수하는지 확인하기 위해 우리는 네트워크에서 추출된 다양한 독성 수준의 100,000개 팁 세트인 Real Toxicity Tips와 같은 벤치마크를 사용합니다. 앨런 연구소. 인공지능용. 이 노력에 대한 자세한 내용은 곧 공개될 예정입니다.
피해를 제한하기 위해 우리는 폭력이나 부정적인 고정관념과 관련된 콘텐츠를 식별, 표시, 선별하는 전용 안전 분류기를 구축했습니다. 강력한 필터와 결합된 이 계층적 접근 방식은 Gemini를 모든 사람에게 더욱 안전하고 포용적으로 만들도록 설계되었습니다. 또한 우리는 사실성, 기초성, 귀속, 확증 등 모델에 대해 알려진 문제를 계속해서 해결하고 있습니다.
책임과 안전은 항상 당사 모델 개발 및 배포의 핵심입니다. 이는 공동으로 구축해야 하는 장기적인 약속이므로 MLCommons, Frontier Model Forum 및 해당 AI 보안 기금, 보안 인공 지능 프레임워크(SAIF)를 통해 업계 및 더 넓은 생태계와 협력하고 있습니다. 공공 및 민간 부문 AI 시스템 고유의 보안 위험을 완화하는 데 도움이 됩니다. Gemini를 개발하면서 우리는 전 세계의 연구원, 정부 및 시민 사회 단체와 계속 협력할 것입니다.
쌍둥이자리를 세계로 보내주세요
Gemini 1.0은 이제 다양한 제품과 플랫폼에서 사용할 수 있습니다.
Google 제품 중 Gemini Pro
우리는 Google 제품을 통해 수십억 명의 사람들에게 Gemini를 소개합니다.
오늘부터 Bard는 고급 추론, 계획, 이해 등을 위해 미세 조정된 Gemini Pro 버전을 사용할 것입니다. 이는 Bard 출시 이후 가장 큰 업그레이드입니다. 170개 이상의 국가 및 지역에서 영어로 제공될 예정이며 가까운 시일 내에 다양한 모드로 확장하고 새로운 언어와 위치를 지원할 계획입니다.
우리는 또한 Gemini를 Pixel로 가져오고 있습니다. Pixel 8 Pro는 녹음기 앱의 요약과 같은 새로운 기능을 지원하고 WhatsApp을 시작으로 Gboard의 스마트 답장을 출시하는 Gemini Nano를 실행하는 최초의 스마트폰입니다. 내년에는 더 많은 메시징 앱이 출시될 예정입니다.
앞으로 몇 달 안에 Gemini는 검색, 광고, Chrome, Duet AI 등 더 많은 제품과 서비스에 나타날 것입니다.
우리는 검색에서 Gemini를 시험하기 시작했습니다. 이를 통해 미국 영어로 40%의 대기 시간이 줄어들고 품질이 향상되어 사용자의 검색 생성 환경(SGE)이 더 빨라졌습니다.
Gemini로 만들기
12월 13일부터 개발자와 기업 고객은 Google AI Studio 또는 Google Cloud Vertex AI의 Gemini API를 통해 Gemini Pro에 액세스할 수 있습니다.
Google AI Studio는 API 키를 사용하여 애플리케이션의 프로토타입을 빠르게 만들고 실행할 수 있는 무료 웹 기반 개발자 도구입니다. 완전 관리형 AI 플랫폼이 필요한 경우 Vertex AI를 사용하면 Gemini를 맞춤설정하고 포괄적인 데이터 제어를 제공하며 기업 보안, 보안, 개인정보 보호, 데이터 거버넌스 및 규정 준수를 위한 추가 Google Cloud 기능의 이점을 누릴 수 있습니다.
Android 개발자는 Pixel 8 Pro 기기부터 시작하여 Android 14에서 사용할 수 있는 새로운 시스템 기능인 AICore를 통해 가장 효율적인 기기 내 작업 모델인 Gemini Nano를 사용하여 구축할 수도 있습니다. AICore의 초기 미리보기를 받으려면 등록하세요.
쌍둥이자리가 곧 온다
Gemini Ultra의 경우 현재 신뢰할 수 있는 외부 당사자의 레드팀 확인을 포함하여 광범위한 신뢰 및 보안 확인을 완료하고 있으며, 널리 사용되기 전에 인간 피드백(RLHF)을 기반으로 한 미세 조정 및 강화 학습을 사용하여 모델을 더욱 개선하고 있습니다.
이 프로세스의 일환으로, 우리는 내년 초에 개발자와 기업 고객에게 출시하기 전에 초기 실험과 피드백을 위해 선택된 고객, 개발자, 파트너, 보안 및 책임 전문가에게 Gemini Ultra를 제공할 것입니다.
내년 초에는 Gemini Ultra를 시작으로 최고의 모델과 기능에 액세스할 수 있는 새로운 최첨단 AI 경험인 Bard Advanced도 출시할 예정입니다.
쌍둥이자리 시대: 혁신의 미래를 열다
이는 인공 지능 개발의 중요한 이정표이자 Google의 새로운 시대의 시작입니다. Google에서는 계속해서 신속하고 책임감 있게 모델 기능을 혁신해 나갈 것입니다.
우리는 지금까지 Gemini에서 큰 진전을 이루었고, 더 나은 응답을 제공하기 위해 더 많은 정보를 처리할 수 있는 컨텍스트 창을 늘리는 것뿐만 아니라 계획 및 기억의 발전을 포함하여 향후 버전에서 기능을 더욱 확장하기 위해 노력하고 있습니다.
우리는 창의성을 강화하고 지식을 확장하며 과학을 발전시키고 전 세계 수십억 명의 사람들이 살고 일하는 방식을 변화시킬 혁신의 미래인 AI로 구동되는 세상의 놀라운 가능성에 대해 기대하고 있습니다.
참고자료 읽기:
https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
https://storage.googleapis.com/deepmind-media/쌍둥이 자리/gemini_1_report.pdf
https://cloud.google.com/vertex-ai
https://deepmind.google/technologies/gemini/
최고 보안 책임자의 원본 기사, 복제할 경우 출처 표시: https://cncso.com/kr/구글-제미니-모든-면에서-채팅gpt를-능가하는-메가-모델