로봇배제 표준이란?
로봇배제 표준이란 구글 등 검색로봇이 정보 수집을 위해 사이트를 방문할 경우를 대비하여, 검색로봇에 의한 웹 사이트의 디렉터리 및 파일들에 대한 검색 조건을 명시해 놓은 국제 규약이다.
정상적인 검색로봇은 사이트 방문 시 가장 먼저 웹사이트의 로봇배제 표준파일(robots.txt)을 확인하고 파일에 명시된 사항을 준수하면서 웹사이트의 컨텐츠를 수집한다.
※ 로봇배제 표준은 방지기술이 아닌 사이트 및 검색로봇 운영자간의 단순한 약속(규약)이므로 악의적인 로봇의 경우 로봇 배제 표준을 무시하고 사이트의 컨텐츠를 수집할 수도 있다.
1. 홈페이지 전체 내용을 모든 검색엔진에 노출 허용
User-Agent : *
Disallow :
2. 홈페이지 전체 내용을 모든 검색엔진에 노출 방지
User-Agent : *
Disallow : /
3. 홈페이지의 디렉터리가 information인 것에 대한 노출을 방지
User-Agent : *
Disallow : /information/
4. 특정 검색엔진(googlebot)의 접근만을 거부
User-Agent : googlebot
Disallow: /
User-Agent: *
Disallow:
5. 특정 검색엔진(googlebot)의 접근만을 허가
User-Agent : googlebot
Disallow :
User-Agent : *
Disallow: /
6. 모든 검색엔진에 대해 /directory/index.html의 접근을 거부
User-Agent : *
Disallow : /directory/index.html
7. 홈페이지의 디렉터리가 information인 것에 대한 노출을 허가
User-Agent : *
Allow : /information/
8. 홈페이지의 디렉터리 또는 파일명이 information인 것에 대한 접근을 허가
User-Agent : *
Allow : /information
- User-Agent : '*' :모든 User-Agent, 특정 User-Agent 를 지정할 경우 해당 로봇 이름을 입력
- Allow or Disallow
Disallow에서 '/'는 모든 하위 문서에 대한 배제를 의미, 아무것도 쓰지 않으면 허가를 의미
'/...../'는 디렉터리만, '/....' 는 디렉터리+파일이 적용대상
- Meta Tag를 통한 노출방지
<html>
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>
noindex
면 그 페이지는 긁어가지 않습니다.nofollow
면 링크를 확인해서 긁어가는 것을 건너 뜁니다.<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
-
이 문서는 긁어가지 말고 링크된 문서만 긁어감
<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
-
이 문서도 긁어가고 링크된 문서도 긁어감
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
-
이 문서도 긁지 않고, 링크도 무시함
'Developer > CSS & HTML' 카테고리의 다른 글
Tistory CSS (0) | 2008.02.19 |
---|---|
DOCTYPE 선언 (0) | 2007.11.22 |
텍스트파일 내용을 테이블로 불러오기 (0) | 2007.05.27 |