웹/웹 보안

Robots.txt 파일

비니화이팅 2019. 3. 22. 13:36

Robots.txt 파일

 

개요

1. 검색 엔진 크롤러가 웹 사이트에 요청할 수 있거나 요청할 수 없는 파일을 크롤러에 지시하는 파일임

(즉, Robots.txt파일을 설정하지 않으면 구글, 네이버 등 각종 검색 엔진 크롤러들이 웹 사이트에서 찾을 수 있는 모든 정보를 크롤링하여 검색엔진 검색결과에 노출시킴)


2. 검색엔진 접속을 차단하기 위해 등록된 파일이지만, 사용자가 직접 해당 컨텐츠 내용을 확인할 수 있음

(즉, 중요한 디렉터리 등이 무엇인지를 파악할 수 있는 정보로 악용이 가능함)


3. 사이트의 루트에 위치

Ex) http://www.~~.com 사이트인 경우에 robots.txt파일은 http://www.~~.com/robots.txt에 위치함



사용법

User-Agent 은 검색엔진을 뜻하고, Disallow 은 디렉터리, 파일을 뜻함

1. 모든 검색엔진의 검색 금지

User-Agent : * (*는 모든 검색엔진)

Disallow : /     (/는 모든 디렉터리)

2. 모든 검색엔진의 검색 허용

User-Agent : *

Disallow :       (빈 공백은 모든 디렉터리를 허용한다는 뜻)

3. 특정 디렉터리 검색 금지

User-Agent : *

Disallow : /admin

Disallow : /cgi-bin



예제

출처 : https://pentesterlab.com/exercises/web_for_pentester/course


위의 예제를 보면 블랙리스트 방식을 사용하고 있음

굳이 공개할 필요가 없는 디렉터리의 이름을 노출시키게 되므로 화이트리스트 방식 필터링을 사용하여 허용할 디렉터리만 나열하는 것이 좋음



참고

https://www.sans.org/reading-room/whitepapers/threats/robotstxt-33955

http://www.robotstxt.org