Github Blog 구글 검색 엔진에 노출시키기(Google Search Console)

GitBlog 구글 검색 엔진에 노출 시켜, 외부 사용자가 접근할 수 있도록 하기

본 문서는 Github 블로그의 글을 구글 검색 엔진에 노출시키는 방법을 정리한다.

[01] Google Search Console?

구글 검색 엔진에서 등록된 웹사이트가 검색되도록 등록하고, 검색 결과를 모니터링 할 수 있는 서비스로, 웹 크롤링 형태로 동작한다.

블로그 게시글이 구글 검색이 가능하게 하려면, 구글 검색 엔진이 블로그 사이트를 읽는 작업이 필요함(크롤링)
Google Search Concole 사이트에서 등록 및 모니터링을 수행할 수 있음(구글 계정 필요)

[02] Google Search Console 등록

구글 계정 로그인 후, 사이트 접속, 시작하기 선택
GitBlog를 사용할 경우, 이미 URL이 있으므로 URL 접두어 부분에 블로그 주소를 입력함
입력한 URL의 사이트가 사용자가 운영하는게 맞는지 소유권 확인 작업을 진행함
팝업 창에 나타난 html 파일을(google675xxxx.html)을 블로그 Root 디텍토리에 복사 한 후, Git Repository에 적용함
git add *, git commit -m xxx, git push
파일 업로드 후, 잠시 기다리면 소유권 확인 팝업을 확인할 수 있음

[03] Sitemap.xml 생성 및 적용

소유권 확인으로 구글 검색 엔진이 해당 블로그를 인식할 수 있지만, 블로그 사이트를 읽고(크롤링), 정보를 제공하기 위한 데이터 필요
sitemap.xml은 웹사이트의 모든 페이지의 목록을 나열하여 검색 엔진이 사용자에게 정보를 제공할 수 있도록 함
sitemap.xml 생성 방법은 두 가지
- 직접 작성
- Jekyll의 jekyll-sitemap 플러그인을 통해서 생성
이 블로그에서 사용 중인 minimal mistakes 테마는 jekyll-sitemap 플러그인으로 생성 가능함
- _config.yml 의 plugins 부분에 jekyll-sitemap 명시 확인
- Gemfile 에 gem 'jekyll-sitemap 추가
- 터미널에서 bundle install 수행
- Git Repository에 반영 후, htpps://xxx.github.io/sitemap.xml 으로 접속하여 보면 아래와 같이 목록이 생성됨을 확인할 수 있음
Google search console에서 색인 → Sitemaps 선택
새 사이트맵 추가 부분에 sitemap.xml 입력 후 제출

[04] Robots.txt 생성 및 적용

웹 크롤러가 사이트의 정보를 크롤링 할 때, 적용할 정책을 지정하는 파일
사이트의 어떤 정보를 참조할지 결정하는 역할
블로그의 Root 디렉토리에 Robots.txt를 생성하고 아래 내용을 작성한다.

# User-agent : 크롤링 규칙이 적용되는 크롤러 지정 (*는 모두 허용)
# - Google은 Googlebot, 네이버는 Yeti 등으로 각 검색엔진의 크롤러는 다르다.
# Allow: 크롤링할 경로 (/는 / 아래 모든 경로를 크롤링 수행)
# Sitemap: Sitemap 지정 위치
# - Sitemap은 해당 사이트의 페이지 목록(사이트 지도)

User-agent: *
Allow: /

Sitemap: https://eona1301.github.io/sitemap.xml

cmaven

Github Blog 구글 검색 엔진에 노출시키기(Google Search Console)

[01] Google Search Console?

[02] Google Search Console 등록

[03] Sitemap.xml 생성 및 적용

[04] Robots.txt 생성 및 적용

참고

VM Bridge Network 구성

서버에서 구동 중인 VM에 외부에서 접근하는 방법

Docker에 Ubuntu 컨테이너 생성 후, Nginx 서버 접근하기

복제(Clone)한 가상머신(VM)의 IP 충돌문제 해결