‘발견됨 – 현재 색인이 생성되지 않음’ 문제 이해하고 해결하기

색인이 생성되지 않음, Google Search Console, 페이지 품질, 크롤링 예산, 크롤링 효율성 — 출처: Freepik

Google Search Console에서 ‘발견됨 – 현재 색인이 생성되지 않음’ 상태를 확인했다면, 이는 Google이 해당 URL의 존재는 인지했지만 아직 크롤링하거나 색인하지 않았다는 의미입니다.

하지만 색인이 계속 되지 않은 상태로 있는 건 아닙니다. Google 공식 문서에 따르면, 특별한 조치를 하지 않아도 이후에 다시 방문해 색인할 수 있다고 안내하고 있습니다.

다만, Google이 해당 페이지를 크롤링하거나 색인하지 못하도록 하는 다른 요인이 있을 수 있습니다. 서버 오류나 사이트 내 기술적인 문제가 발생해 Google의 크롤링이 제한되거나 방해되는 경우, 페이지 자체의 품질에 문제가 있는 경우 등이 해당합니다.

이럴 때 Google Search Console Inspection API를 활용하면 URL의 coverageState 상태를 포함한 다양한 데이터를 한번에 대기열에 추가할 수 있습니다.

Google Search Console을 통해 색인 요청하기

대부분의 경우에는 Search Console에서 색인 요청만 해도 문제가 해결됩니다.

Google이 새로운 URL을 크롤링하는 데 시간이 오래 걸리는 경우도 있습니다. 이런 일은 흔히 발생하는데요. 하지만 때로는 단순한 지연이 아니라 더 복잡한 문제가 원인일 수 있습니다.

색인 요청을 하면 보통 두 가지 중 하나의 반응이 나타납니다. URL이 ‘크롤링됨 – 현재 색인이 생성되지 않음’ 상태로 바뀌거나 임시적으로 색인되는 현상인데요. 이 두 가지 모두 구조적인 문제나 품질 이슈가 있을 수 있다는 신호입니다.

특히 두 번째 현상은 색인 요청으로 인해 해당 URL이 일시적으로 ‘신선도 점수’를 받아 품질 기준을 넘기면서, 임시로 색인되는 경우입니다.

페이지 품질 문제

여기서 용어가 다소 혼란스러울 수 있습니다. ‘Google이 해당 페이지를 아직 크롤링하지 않았는데, 어떻게 페이지 품질을 판단할 수 있나요?’라는 궁금증이 생길 수 있는데요. 정답은 판단할 수 없습니다.

Google은 해당 페이지 자체가 아니라, 같은 도메인의 다른 페이지들을 기반으로 해당 URL의 품질을 추정합니다. URL 패턴이나 사이트 구조를 보고 판단하기도 합니다.

이러한 이유로 특정 URL들은 ‘인지’ 상태에서 크롤링 대기열로 넘어가는 우선순위가 낮아질 수 있습니다. 과거에 유사한 구조나 패턴을 가진 페이지들이 낮은 품질로 평가됐기 때문입니다.

예를 들어, 동일한 사용자 의도와 키워드를 노리는 다른 콘텐츠와 비교했을 때 상대적으로 콘텐츠 가치가 낮다고 판단되면 Google은 해당 URL의 크롤링을 후순위로 미룹니다.

평가에 영향을 미칠 수 있는 요소는 다음과 같습니다.

콘텐츠의 깊이나 분량
시각적 구성이나 표현 방식
보조 콘텐츠(이미지, 링크 등)의 품질
콘텐츠의 독창성과 새로운 관점
품질이 낮은 콘텐츠(자동 생성된 글, 돌려쓰기, 기존 콘텐츠의 복제 등)

사이트 내 관련 콘텐츠 클러스트와 해당 페이지들의 콘텐츠 품질을 전반적으로 개선하면 Google이 해당 콘텐츠에 다시 관심을 가질 가능성이 높아집니다.

또한, 사이트 내에서 품질이 떨어진다고 판단되는 페이지에는 noindex 태그를 적용해 사이트 전체에서 고품질 콘텐츠의 비율을 높이는 방법도 고려해볼 수 있습니다.

크롤링 예산과 효율성

크롤링 예산은 SEO에서 자주 오해되는 개념입니다. 실제로 대부분의 웹사이트는 이 문제를 크게 걱정할 필요가 없습니다.

Google의 Gary Illyes에 따르면, 전체 웹사이트의 약 90%는 크롤링 예산을 고려하지 않아도 된다고 합니다. 이 문제는 보통 수십만 개 이상의 URL을 가진 대규모 웹사이트에 해당하는 이야기입니다.

반면, 크롤링 효율성은 사이트 규모와 무관하게 모든 웹사이트에 영향을 줄 수 있습니다. 이 부분을 놓치면 Google이 사이트를 크롤링하고 처리하는 데 문제가 생길 수 있습니다.

예를 들어, 다음과 같은 특성이 있는 사이트라면 크롤링 효율이 떨어질 수 있습니다.

파라미터가 포함된 URL이 반복적으로 생성되는 경우
슬래시(/)가 있는 URL과 없는 URL이 혼재하는 경우
HTTP와 HTTPS 버전이 모두 접근 가능한 경우
여러 서브도메인(https://website.com, https://www.website.com 등)에서 동일한 콘텐츠를 제공하는 경우

이러한 중복 구조는 Google이 사이트 전체를 비효율적으로 크롤링하게 할 수 있습니다. 즉, 불필요한 URL 요청으로 인해 Google의 크롤링 자원이 낭비되고 있는 셈입니다.

Googlebot은 웹사이트를 부분적으로 나누어 크롤링하는데요. 이로 인해 새로 발행된 URL이 빠르게 발견되지 않고 크롤링이 지연될 수 있습니다. 따라서 웹사이트를 정기적으로 점검하면서 다음 사항을 관리해야 합니다.

모든 페이지가 하나의 서브도메인에서만 열리도록 설정
HTTPS 프로토콜 하나만 사용되도록 일관성 유지
파라미터가 붙은 URL은 원본 URL로 표준(canonicalization) 처리
내부 링크는 불필요한 리디렉션 없이 바로 연결

만약 이커머스 사이트처럼 상품 필터 기능 등으로 파라미터가 포함된 URL이 많다면, robots.txt 파일에서 해당 경로의 크롤링을 막는 설정을 통해 제한할 수 있습니다.

서버 상태 역시 Google이 사이트에 얼마나 많은 크롤링 자원을 할당할 것인지를 판단하는 중요한 요소입니다. 서버가 과부하되어 응답 속도가 느리다면, Googlebot이 페이지에 접근하지 못해 크롤링 누락이 발생할 수 있습니다. Google은 일정 시간이 지난 후 다시 크롤링을 시도하겠지만, 그만큼 전체 색인 과정이 지연될 수밖에 없습니다.

크롤링과 색인 간의 관계

크롤링과 색인 사이에는 일정한 상관관계가 있다는 것이 수년간의 리서치를 통해 알려져 왔습니다. 일반적으로 한 번도 크롤링되지 않은 URL은 보통 75일에서 140일 사이에 색인에서 제외될 수 있습니다.

내부 링크

웹사이트를 운영할 때 페이지 간 내부 링크 구조는 매우 중요합니다. Google은 내부 링크가 전혀 없거나 충분하지 않은 URL에 대해서는 주의 깊게 확인하지 않고, 경우에 따라서는 색인에서 제외하기도 합니다.

Screaming Frog나 Sitebulb 같은 크롤링 도구를 사용하면 각 페이지에 몇 개의 내부 링크가 연결되어 있는지 쉽게 확인할 수 있습니다.

웹사이트를 최적화하려면 논리적이고 체계적인 내부 링크 구조를 갖추는 것이 핵심입니다. 구조 잡기가 어렵다면 HTML 사이트맵을 활용해 크롤링 깊이를 인위적으로 보완하는 것도 하나의 방법입니다.

HTML 사이트맵은 사용자 편의를 위한 것이지만 지금도 Google이 크롤링 경로를 파악하는 데 유용한 측면이 있습니다.

페이지 수가 많은 웹사이트의 경우, 하나의 페이지에 모든 URL을 한번에 연결하기보다는 여러 페이지로 나눠 연결하는 것이 좋습니다.

내부 링크는 반드시 <a> 태그를 사용해야 하며, onClick() 같은 자바스크립트 기능에만 의존해서는 안 됩니다. Jamstack이나 그 외 자바스크립트 프레임워크를 사용한다면, 프레임워크 또는 관련 라이브러리가 내부 링크를 어떻게 처리하는지도 꼭 확인해 보세요. 내부 링크는 <a> 태그로 구현되어 있어야 합니다.