본문 바로가기
Security/Web

Robots.txt 파일

by 비니화이팅 2019. 3. 22.

Robots.txt 파일

 

개요

1. 검색 엔진 크롤러가 웹 사이트에 요청할 수 있거나 요청할 수 없는 파일을 크롤러에 지시하는 파일임

(즉, Robots.txt파일을 설정하지 않으면 구글, 네이버 등 각종 검색 엔진 크롤러들이 웹 사이트에서 찾을 수 있는 모든 정보를 크롤링하여 검색엔진 검색결과에 노출시킴)


2. 검색엔진 접속을 차단하기 위해 등록된 파일이지만, 사용자가 직접 해당 컨텐츠 내용을 확인할 수 있음

(즉, 중요한 디렉터리 등이 무엇인지를 파악할 수 있는 정보로 악용이 가능함)


3. 사이트의 루트에 위치

Ex) http://www.~~.com 사이트인 경우에 robots.txt파일은 http://www.~~.com/robots.txt에 위치함



사용법

User-Agent 은 검색엔진을 뜻하고, Disallow 은 디렉터리, 파일을 뜻함

1. 모든 검색엔진의 검색 금지

User-Agent : * (*는 모든 검색엔진)

Disallow : /     (/는 모든 디렉터리)

2. 모든 검색엔진의 검색 허용

User-Agent : *

Disallow :       (빈 공백은 모든 디렉터리를 허용한다는 뜻)

3. 특정 디렉터리 검색 금지

User-Agent : *

Disallow : /admin

Disallow : /cgi-bin



예제

출처 : https://pentesterlab.com/exercises/web_for_pentester/course


위의 예제를 보면 블랙리스트 방식을 사용하고 있음

굳이 공개할 필요가 없는 디렉터리의 이름을 노출시키게 되므로 화이트리스트 방식 필터링을 사용하여 허용할 디렉터리만 나열하는 것이 좋음



참고

https://www.sans.org/reading-room/whitepapers/threats/robotstxt-33955

http://www.robotstxt.org

'Security > Web' 카테고리의 다른 글

Robots.txt 파일  (1) 2019.03.22
CVE-2006-5178  (0) 2018.09.09
php 파일업로드 에러코드 6  (0) 2018.09.07
base64란?  (0) 2018.09.05
URL Jumping  (0) 2018.07.29
검증되지 않은 리다이렉트  (0) 2018.07.29

댓글1

  • 철민 2019.03.23 16:37

    혜빈님 안녕하세요? 메신져는 안하시나요? 배우고 싶은게 많습니다...
    답글