콘텐츠로 건너뛰기

구글봇 트래픽 중 28% AI 크롤러

AI 웹 크롤러, 전체 구글봇 트래픽의 28% 차지

인공지능(AI) 웹 크롤링의 급격한 증가를 보여주는 보고서가 발표됐다. Vercel의 발표에 의하면, OpenAI의 GPTBot 및 Anthropic의 Claude 등의 AI 봇이 한 달 간 약 10억 건의 요청을 생성하고 있다. 이는 Vercel 네트워크에서 발생한 데이터로, GPTBot이 지난달 5억 6,900만 건의 요청을, Claude가 3억 7,000만 건의 요청을 생성한 것을 보여준다. 추가적으로, PerplexityBot은 2,440만 건을, AppleBot은 3억 1,400만 건의 요청을 기록했다. 이 모든 AI 크롤러는 구글봇 전체 트래픽 45억 요청 중 약 28%에 해당한다.

주요 AI 크롤러 분석: 효율성 및 크롤링 패턴

Vercel의 네트워크 및 웹 구조를 기반으로 한 데이터 분석에 따르면 AI 크롤러의 작동 방식과 특징이 도출되었다:

  • JavaScript 취급: 주요 AI 크롤러들은 JavaScript를 렌더링하지는 않지만 파일은 가져간다.
  • 요청의 비효율성: ChatGPT와 Claude는 전체 요청 중 34% 이상을 404 페이지에 소비한다.
  • 컨텐츠 우선순위: 각 크롤러가 선호하는 콘텐츠 유형이 다르다. ChatGPT는 HTML(57.7%)에 집중하는 반면, Claude는 이미지(35.17%)를 더 중시한다.

AI 크롤러의 지역적 운영 현황

AI 크롤러는 현재 미국 내 지역적인 배포가 특징이다.

  • ChatGPT는 아이오와 주 디모인 및 애리조나 주 피닉스에서 운영된다.
  • Claude는 오하이오 주 콜럼버스에서 주로 활동한다.

웹 알마낙과의 상관성

이 자료는 SEO와 관련한 Web Almanac의 데이터와 일치한다. 점점 더 많은 웹사이트가 robots.txt 파일을 사용해 AI 크롤러의 크롤링 규칙을 설정하고 있으며, GPTBot은 모바일 사이트 2.7%에서 발견될 만큼 언급도가 높다. 이러한 데이터는 웹사이트 운영자들이 AI 크롤링에 맞추어 사이트를 최적화해야 한다고 강조한다.

AI 크롤러를 위한 웹사이트 최적화 전략

AI 크롤러에 대비한 웹사이트 최적화 방법으로 세 가지를 제안한다:

  1. 서버사이드 렌더링 도입

    • 주요 컨텐츠와 메타정보를 초기 HTML에 포함시키기.
    • 정적 사이트 생성이나 점진적 정적 재생성을 활용할 것.
  2. 컨텐츠 구성 및 전달 최적화

    • HTML 컨텐츠는 명확한 구조로 작성.
    • 이미지 전달과 메타데이터 최적화.
    • 이미지에 설명적인 대체 텍스트와 적절한 헤더 계층 구조 활용.
  3. 기술 관리

- 업데이트된 사이트맵 유지.  
- 올바른 리다이렉트 체인 구현.  
- 일관된 URL 패턴과 404 페이지 오류 정기 점검.  

웹 환경 변화에 대응해야

AI 봇의 크롤링 활동은 웹 환경에서 새로운 변수로 떠오르고 있다. AI 봇이 현재는 캐시된 혹은 오래된 정보를 사용하는 경향이 있지만, 미래에는 최신 데이터를 더욱 원활히 처리할 수 있을 것으로 예상된다. SEO 전략 상 서버사이드 렌더링, 명확한 URL 구조, 업데이트된 사이트맵이 필수적이라 할 수 있다.

출처 : 원문 보러가기