http://www.robotstxt.org/


로봇배제 표준이란?

로봇배제 표준이란 구글 등 검색로봇이 정보 수집을 위해 사이트를 방문할 경우를 대비하여, 검색로봇에 의한 웹 사이트의 디렉터리 및 파일들에 대한 검색 조건을 명시해 놓은 국제 규약이다.
정상적인 검색로봇은 사이트 방문 시 가장 먼저 웹사이트의 로봇배제 표준파일(robots.txt)을 확인하고 파일에 명시된 사항을 준수하면서 웹사이트의 컨텐츠를 수집한다.
※ 로봇배제 표준은 방지기술이 아닌 사이트 및 검색로봇 운영자간의 단순한 약속(규약)이므로 악의적인 로봇의 경우 로봇 배제 표준을 무시하고 사이트의 컨텐츠를 수집할 수도 있다.

/robots.txt 파일 내용

1. 홈페이지 전체 내용을 모든 검색엔진에 노출 허용

User-Agent : *
Disallow :

2. 홈페이지 전체 내용을 모든 검색엔진에 노출 방지

User-Agent : *
Disallow : /

3. 홈페이지의 디렉터리가 information인 것에 대한 노출을 방지

User-Agent : *
Disallow : /information/

4. 특정 검색엔진(googlebot)의 접근만을 거부

User-Agent : googlebot
Disallow: /
User-Agent: *
Disallow:

5. 특정 검색엔진(googlebot)의 접근만을 허가

User-Agent : googlebot
Disallow :
User-Agent : *
Disallow: /

6. 모든 검색엔진에 대해 /directory/index.html의 접근을 거부

User-Agent : *
Disallow : /directory/index.html

7. 홈페이지의 디렉터리가 information인 것에 대한 노출을 허가

User-Agent : *
Allow : /information/

8. 홈페이지의 디렉터리 또는 파일명이 information인 것에 대한 접근을 허가

User-Agent : *
Allow : /information


- User-Agent : '*' :모든 User-Agent, 특정 User-Agent 를 지정할 경우 해당 로봇 이름을 입력
- Allow or Disallow
Disallow에서 '/'는 모든 하위 문서에 대한 배제를 의미, 아무것도 쓰지 않으면 허가를 의미
'/...../'는 디렉터리만, '/....' 는 디렉터리+파일이 적용대상



- Meta Tag를 통한 노출방지

<html>
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

</head>
noindex 면 그 페이지는 긁어가지 않습니다.
nofollow면 링크를 확인해서 긁어가는 것을 건너 뜁니다.

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
-이 문서는 긁어가지 말고 링크된 문서만 긁어감

<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
-
이 문서도 긁어가고 링크된 문서도 긁어감

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

- 이 문서도 긁지 않고, 링크도 무시함



반응형

'Developer > CSS & HTML' 카테고리의 다른 글

Tistory CSS  (0) 2008.02.19
DOCTYPE 선언  (0) 2007.11.22
텍스트파일 내용을 테이블로 불러오기  (0) 2007.05.27

+ Recent posts