콘텐츠로 건너뛰기

AI가 도메인 권위 높은 웹사이트 선호

연구 결과, LLM은 고품질 콘텐츠 선호

Ziff Davis의 새로운 연구에 따르면 대형 언어 모델(LLM)은 높은 도메인 권위(Domain Authority, DA)를 가진 웹사이트와 관련성이 높은 고품질 콘텐츠를 선호하는 경향이 있는 것으로 나타났다.

LLM 훈련에 중요한 데이터셋 분석

이번 연구는 LLM이 어떤 데이터로 훈련되고 이를 통해 어떤 콘텐츠를 선호하는지 이해하기 위해 진행됐다. 연구진은 Common Crawl, C4, OpenWebText, OpenWebText2와 같은 주요 데이터셋을 분석했다. 주요 데이터셋은 다음과 같은 특징을 보였다:

  • 고품질로 엄선된 데이터셋은 원시 웹 데이터에 비해 높은 중요성을 띤다.
  • 권위 있는 발행사들이 엄선된 데이터셋에서 높은 비중을 차지한다.
  • OpenWebText와 OpenWebText2는 비엄선 데이터셋보다 높은 DA 콘텐츠를 다수 포함하고 있다.

특히 Common Crawl과 같은 비엄선 데이터셋은 더 광범위하지만 품질이 낮은 웹 페이지를 포함하는 반면, OpenWebText 계열 데이터셋은 고품질 콘텐츠 비율이 더 높은 것으로 밝혀졌다.

높은 DA의 상관관계 확인

연구는 Comscore의 웹 트래픽을 기반으로 주요 발행사를 선정하여 조사했고, 이 과정에서 Moz의 DA 지표를 활용해 웹 콘텐츠의 영향력과 품질을 평가했다. 분석 결과, 데이터셋에서의 DA 분포는 고품질 콘텐츠가 LLM 훈련에 중요한 요소임을 나타냈다. 특히, 대부분의 상위 발행사는 평균 DA가 60 이상으로 나타났다.

상업용 발행사 콘텐츠의 중요성

LLM 개발자들은 신뢰성과 품질을 반영하기 위해 상업용 발행사의 콘텐츠를 우선적으로 활용하는 경향이 있다. 그러나 AI 기업과 주요 발행사 간의 라이선싱 계약이 반드시 데이터셋에서 높은 비중을 보장하는 것은 아니다. 일부 주요 발행사들은 공식적인 계약 없이도 중요한 LLM 훈련 데이터셋에서 높은 비율로 나타났다.

결론: 콘텐츠 품질과 DA의 중요성

Ziff Davis의 연구는 LLM 훈련 및 검색 결과 최적화를 위해 높은 DA와 고품질 콘텐츠의 중요성을 강조했다. 이는 시간이 흐르며 높은 신뢰성과 고유한 콘텐츠를 구축한 브랜드가 지금의 입지를 유지하고 있다는 점을 시사한다. SEOs는 유용하고 독창적인 콘텐츠를 발표해 관련성 높은 백링크를 유도하고, 콘텐츠의 주제적 권위를 강화해야 할 필요가 있다.

출처 : 원문 보러가기