검색결과 리스트
로봇 프로토콜에 해당되는 글 1건
- 2011.03.07 로봇 프로토콜
글
로봇 프로토콜
하지만 사이트 호스트 입장에서는, 보호하고 싶은 자료들도 있을 텐데... 크롤러를 대비해서 모든 문서를 별도로
관리하기란 여간 번거로운 일이 아니다. 호스트는 로봇배제파일과 로봇프로토콜을 사용하여 크롤러(로봇 )에게
노출하고, 숨길 페이지들을 명시해 줄 수 있다. 그럼 로봇배체 파일과 로봇 프로토콜에 대해서 알아보자
1. 로봇 배제파일과 로봇 프로토콜이란?
특정 웹크롤러에게 사이트 내 수집대상에서 제외할 페이지를 명시한 파일을 로봇배제 파일이라고 한다.
이 로봇 파일은 해당 웹사이트의 루트 위치에 robots.txt 라는 이름으로 존재하며, 이 파일이 따르는 프로토콜을
로봇 프로토콜이라고 한다. 크롤러가 반드시 이 프로토콜을 따르도록 하는 규제는 없으며, 양심적인 크롤러라면
이 프로토콜을 따를 것이다. 프로토콜은 크롤러의 종류를 명시하는 User-agen 항목과 사이트 내 수집을 배제할
페이지 패턴을 나타내는 Disallow 로 구성된다.
2. 로봇 프토토콜
User-agent: *<= 크롤러의 이름, *는 모든 크롤러에 해당함
Disallow: /<= 수집배제할 페이지 패턴, 모든 페이지에 대한 수집을 금함
위 로봇 프로토콜은 모든 크롤러의 모든 페이지 접근을 제한하고 있다.
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/
로봇 프로토콜은 표준은 아니지만 구글 크롤러만 인식할 수 있는 Allow 항목을 지원한다.
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
사용하지 않는 것이 좋다.
3. 로봇 메타태그
웹호스트가 robots.txt 파일의 업로드를 허용하지 않는데도, 특정 페이지의 수집을 허용하고 싶지 않을 때, robots.txt 대신에
로봇 메타태그를 사용할 수 있다. 로봇 메타태그는 일반적인 html의 메타태그와 유사하게 HEAD 섹션에 기술된다.
(no)index는 크롤러에게 페이지 인덱싱을 허용할 지 말지를 결정한다. noindex 또는 index 값을 갖을 수 있다.
(no)follow는 크롤러에게 페이지 상에 존재하는 링크를 따라가서 수집하게 할지 말지를 결정한다. nofollow 또는 follow 값을 갖는다.
4. 몇가지 잘 알려진 로봇 식별자들
| 홈페이지 | 로봇 식별자 | IP address |
|---|---|---|
| www.google.com | Googlebot | c<nn>.googlebot.com |
| www.naver.com | dloader(NaverRobot) / dumrobo | 211.218.151.209 |
| www.daum.net | RaBot | 210.183.28.46 |
| ... | ... | ... |
'검색엔진로그' 카테고리의 다른 글
| [Lucene] java.lang.OutOfMemoryError : Java heap space (0) | 2011.03.15 |
|---|---|
| 루씬과 색인,검색 클래스 사용예(Java) (0) | 2011.03.08 |
| 색인과 검색 주요 클래스 (0) | 2011.03.08 |
| 로봇 프로토콜 (0) | 2011.03.07 |