로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이기 때문에 의무적으로 지킬 필요는 없으나, 사이트나 서비스 특성상 막아야할 필요성이 있는 경우[1] 반드시 적용해야 한다.
사용 예시
이 robots.txt
파일은 반드시 웹사이트의 최상위 경로에 있어야 한다. (예: example.com/robots.txt
) 그렇지 않으면 동작하지 않는다.
또한 디렉토리들에 대한 접근을 차단하거나 허용하려면, 경로명 끝에 /
를 붙여주어야 한다.
- 특정 디렉토리에 대한 접근 차단:
User-agent: (제어할 로봇의 UA 문자열) Disallow: /path/to/disallow/
- 특정 디렉토리에 대한 접근 허용:
User-agent: (제어할 로봇의 UA 문자열) Allow: /path/to/allow/
- 모든 문서에 대한 접근 차단:
User-agent: * Disallow: /
- 모든 문서에 대한 접근 허용:
User-agent: * Allow: /
유명한 로봇들의 UA(User-agent
) 일람
서비스명 | UA 문자열 |
---|---|
구글 (일반 검색) | Googlebot
|
구글 (이미지 검색) | Googlebot-image
|
네이버 | Yeti [2]
|
MSN | MSNBot
|
다음 | Daumoa
|