ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Robots.txt 파일
    Security/Web 2019.03.22 13:36

    Robots.txt 파일

     

    개요

    1. 검색 엔진 크롤러가 웹 사이트에 요청할 수 있거나 요청할 수 없는 파일을 크롤러에 지시하는 파일임

    (즉, Robots.txt파일을 설정하지 않으면 구글, 네이버 등 각종 검색 엔진 크롤러들이 웹 사이트에서 찾을 수 있는 모든 정보를 크롤링하여 검색엔진 검색결과에 노출시킴)


    2. 검색엔진 접속을 차단하기 위해 등록된 파일이지만, 사용자가 직접 해당 컨텐츠 내용을 확인할 수 있음

    (즉, 중요한 디렉터리 등이 무엇인지를 파악할 수 있는 정보로 악용이 가능함)


    3. 사이트의 루트에 위치

    Ex) http://www.~~.com 사이트인 경우에 robots.txt파일은 http://www.~~.com/robots.txt에 위치함



    사용법

    User-Agent 은 검색엔진을 뜻하고, Disallow 은 디렉터리, 파일을 뜻함

    1. 모든 검색엔진의 검색 금지

    User-Agent : * (*는 모든 검색엔진)

    Disallow : /     (/는 모든 디렉터리)

    2. 모든 검색엔진의 검색 허용

    User-Agent : *

    Disallow :       (빈 공백은 모든 디렉터리를 허용한다는 뜻)

    3. 특정 디렉터리 검색 금지

    User-Agent : *

    Disallow : /admin

    Disallow : /cgi-bin



    예제

    출처 : https://pentesterlab.com/exercises/web_for_pentester/course


    위의 예제를 보면 블랙리스트 방식을 사용하고 있음

    굳이 공개할 필요가 없는 디렉터리의 이름을 노출시키게 되므로 화이트리스트 방식 필터링을 사용하여 허용할 디렉터리만 나열하는 것이 좋음



    참고

    https://www.sans.org/reading-room/whitepapers/threats/robotstxt-33955

    http://www.robotstxt.org

    'Security > Web' 카테고리의 다른 글

    Robots.txt 파일  (1) 2019.03.22
    CVE-2006-5178  (0) 2018.09.09
    php 파일업로드 에러코드 6  (0) 2018.09.07
    base64란?  (0) 2018.09.05
    URL Jumping  (0) 2018.07.29
    검증되지 않은 리다이렉트  (0) 2018.07.29

    댓글 1

~ ^ . ^ ~