구글, 제미니 딥 리서치 에이전트 공개…GPT‑5.2 발표 날 ‘맞불’

구글, 제미니 딥 리서치 에이전트 공개…GPT‑5.2 발표 날 ‘맞불’

제미니 딥 리서치, 무엇이 달라졌나

구글은 기존 리서치 에이전트를 제미니 3 프로 기반으로 재구성한 ‘새로운 딥 리서치 에이전트’를 내놓았습니다. 이 에이전트는 긴 문서·웹 페이지·데이터를 한꺼번에 입력받아, 복잡한 다단계 정보를 탐색·비교·종합해 리포트 형태로 정리하는 데 최적화되어 있습니다.

구글에 따르면 이 도구는 이미 실사용 환경에서 기업 실사(due diligence), 신약 독성 안전성 연구 등 방대한 자료를 요구하는 업무에 활용되고 있으며, 장문 컨텍스트 처리와 사실성 측면에서 기존 모델보다 개선된 성능을 보여 줍니다.


Interactions API: 개발자 앱 안에 ‘딥 리서치 에이전트’ 심기

이번 발표의 핵심은 딥 리서치를 구글 내부 서비스뿐 아니라 외부 개발자 앱 안에도 넣을 수 있게 하는 Interactions API입니다. 이 API를 통해 개발자는 제미니 3 프로 기반 리서치 능력을 자신의 서비스에 embed하고, 프롬프트 구조·툴 사용 방식·에이전트 행동 정책 등을 세밀하게 제어할 수 있습니다.

구글은 이 에이전트를 앞으로 검색, 파이낸스, 제미니 앱, 노트북LM 등 주요 서비스에 통합할 계획이며, “사용자가 직접 구글링하지 않고, 개인 에이전트가 대신 찾아오게 되는” 세계를 대비하는 수순이라고 설명합니다.


환각 줄이기 위한 벤치마크: DeepSearchQA·Humanity’s Last Exam·BrowserComp

장시간·다단계로 돌아가는 에이전트 작업에서는 중간에 한 번만 헛소리를 해도 전체 결과가 무용지물이 되기 때문에, 구글은 사실성과 환각 최소화를 핵심 과제로 제시했습니다. 이를 입증하기 위해 새 에이전트는 다음 벤치마크에서 테스트되었습니다.

  • DeepSearchQA: 구글이 새로 만든, 복잡한 멀티스텝 정보 탐색 작업용 벤치마크(오픈소스 공개).
  • Humanity’s Last Exam: 극도로 난해하고 희귀한 일반 지식·추론 문제들로 구성된 외부 벤치마크.
  • BrowserComp: 실제 브라우저 기반 에이전트 작업(클릭·네비게이션·폼 입력 등) 수행 능력을 평가하는 테스트.

구글은 딥 리서치 에이전트가 DeepSearchQA와 Humanity’s Last Exam에서는 경쟁 모델들을 앞섰다고 밝혔고, BrowserComp에서는 OpenAI의 ChatGPT 5 Pro가 근소하게 더 높은 점수를 기록했다고 인정했습니다.


GPT‑5.2와 같은 날 발표된 ‘타이밍 전략’

흥미로운 점은 발표 시점입니다. GPT‑5.2(코드명 ‘Garlic’)를 세상이 기다리던 바로 그 날, 구글이 딥 리서치 에이전트와 새 벤치마크 소식을 함께 내놓으면서 AI 경쟁 구도를 다시 한 번 부각시켰습니다. 오픈AI는 GPT‑5.2가 코딩·수학·추론·툴 사용 등 기존의 주요 벤치마크에서 제미니 3를 포함한 라이벌을 앞선다고 주장하고 있어, 두 회사 모두 “리서치·에이전트 워크플로용 최강 모델” 타이틀을 두고 정면 승부에 나선 셈입니다.

결국, 구글은 “가장 깊은 리서치 에이전트와 생태계 통합”, 오픈AI는 **“최고 추론 성능의 범용 모델”**을 각각 내세우며, 검색·클라우드·생산성 도구 전반에 걸친 에이전트 시대의 주도권을 노리고 있습니다.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *