네이버 서치어드바이저 색인 누락의 원인은 조회수 부족

네이버에서의 색인 (지속) 여부가 글의 조회수와 관련이 있을지 궁금해서 간단히 따져보았다. 나의 사례(티스토리)를 기반으로 한 내용이라 일반화할 수는 없을 테고 참고용.

1. 준비

1-1. 웹 페이지 수집 요청하지 않고 방치
우선 네이버에서 어떤 글을 색인하고 어떤 글은 색인에서 제외하는지 확인하기 위해 6월 중순부터 네이버 서치어드바이저를 통한 웹 페이지 수집 요청을 하지 않고 약 2개월 동안 방치해 보았다(그동안은 색인에서 누락된 글이 발견되면 색인 요청을 해 옴).

아니나 다를까 그동안 웹 페이지 수집 요청을 통해 강제로 색인 되었던 글들의 상당수가 떨어져 나감에 따라 색인된 글 수는 지속적으로 하락했다. 1개월에서 1개월 반 정도 지나자 색인에서 뺄 만한 건 다 뺐는지 더 빠지지는 않는 모습이다(전체 글의 절반 정도가 후려쳐진 느낌). 확실히 색인될 만한 글만 남은 건지 몰라도 그 이후부터 최근까지는 횡보하였고 새로 쓴 글 중에서 쓸만한 글에 대한 색인이 가감되면서 색인 생성 수가 슬쩍 늘어나는 느낌이다. 시스템에 의해 색인 정리가 끝나 보이는 이 시기가 색인된 글과 색인되지 않은 글을 비교해 볼만한 시점으로 판단했다..

indexing trend
6월 중순 색인 요청을 중단하자 8월초까지 하락 후 반등

참고로 새로 쓴 글은 색인 요청을 하지 않아도 며칠 후에 기본적으로 자동 색인되어 검색 시 노출이 되며 1~2개월이 지나면 색인에 남길 건 남기고 뺄 건 빼는 식으로 추려진다(이 기간 동안의 데이터를 통해 색인을 계속 유지할 것인가 말까 검증하는 느낌). 인위적으로 색인 요청을 했던 글도 마찬가지 패턴을 보였었다. 그러다 보니 색인 생성 수의 추이는 새로 쓴 글 또는 색인 요청한 글에 의해 조금씩 늘어나다가 이 중에서 색인에 필요 없다고 판단되는 글들이 주기적으로 털리는 경향을 보인다. 색인에서 제외되면 더 이상 검색이 안 되는 건 아니고 상황에 따라 다시 색인에 포함되어 검색 결과에 나타나기도 한다(뒤늦은 인기글...).

1-2. 분석 대상

오래된 글을 순서대로 100개 수집했다. 최근에 쓴 글은 기본적으로 색인되기 때문에 색인 누락 여부를 확인하기 어렵고, 평균 조회수를 판단하기에도 좀 이르기 때문에 제외했다.

1-3. 분석 방법

글 100개에 대해 작성 날짜와 총 조회수를 확인하여 일평균 조회수를 산정했다. 그리고 색인이 된 그룹과 되지 않을 그룹으로 나누고(네이버에서 'site:주소명'의 방법으로 직접 검색하여 확인) 두 그룹의 일평균 조회수에 차이가 있는지 비교해 보았다.


2. 결과

색인된 글과 색인되지 않은 글의 일평균 조회수는 각각 1.595회/일, 0.360회/일이었고 통계적으로 유의미했다. 색인된 그룹의 표준편차가 상대적으로 컸는데 일평균 조회수가 많은 글은 당연하고 일부는 조회수가 꽤 적은 글도 포함되어 있기 때문으로 보인다. 후자의 경우 아마도 최근 조회가 증가한 글이거나, 색인에 넣을지 말지 다시 판단해 보기 위해 검색에 노출시키고 있는 글일 수 있다(네이버만 알 듯).

statistics
그룹1 색인X , 그룹2 색인O

nonparametric test
정규성을 따르지 않아 비모수 검정 진행

details
상세


3. 결론

하루에 약 1.6회 조회되는 글은 색인이 유지되고, 하루 0.36회로 조회수가 저조한 글은 색인에서 누락됐다. 과거 경험상 색인에서 누락된 글을 네이버 서치 어드바이저에서 웹 페이지 수집 요청을 하면 다시 색인이 되어 검색 결과에 노출되기는 하지만, (조회수가 나오지 않으면) 결국 1~2개월 후에 다시 누락이 되었다. 결과적으로 해당 글에 하루 한두 명 이상의 방문자가 있는지 여부가 네이버 색인에 있어서 중요한 요소 중 하나로 보인다. 즉, 하루에 한두 명 이상 찾아오는 글은 자연스럽게 색인이 유지되고, 하루에 한 명도 찾아오지 않는 글은 내쳐진다는 것.

다만 네이버가 아닌 다음(카카오)이나 구글 등은 색인에 깐깐하지 않다 보니 왠만해서 대부분의 글을 다 색인해 준다(이쪽은 네이버와는 반대로 색인을 원치 않는데 색인이 되는 바람에 문제가 되는 경우가 있는 듯하다). 결과적으로 블로그에 유입되는 다수의 방문자는 네이버 색인과는 관련이 적은 편이었다. 따라서 네이버에 색인이 되고 있는 상황이라면 색인 추이에 너무 신경 쓰지 말고 전체적인 방문자 통계(방문자 수, 유입 키워드, 유입 경로 등)를 살펴가며 하루에 한두 명 찾아올 만한 주제의 글을 써 나가면 될 것 같다(어쩌다 보니 당연한 결론...). 물론 방문자에 의미를 두지 않는 개인사 중심의 블로그는 번외.


카테고리의 다른 글

  1. apple-touch-icon.png 404 에러 탈출기 (feat. precomposed, 120x120, favicon)
  2. HTML 앵커 <a> 태그 속성으로 alt는 없었구나
  3. 구글 애널리틱스 내부 트래픽 설정하기 (분석 제외 IP 설정)
  4. 구글 애널리틱스와 태그 매니저 페이지뷰 중복측정 방지하기
  5. 구글 애드센스 클릭은 있지만 수익은 없는($0.00) 원인

댓글 남기기