티스토리 뷰

OS/Linux

[Linux] Apache Access Log 분석

림국 2018. 3. 5. 09:13

[Linux] Apache Access Log 분석


LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

#LogFormat "%h %l %u %t \"%r\" %>s %b" common

LogFormat "[%V] %h %l %u %t \"%{Referer}i\" => \"%r\" %>s %b %{User-agent}i %T %P" common --> 현재 apache LogFormat ( Combined )

 

-> Combined 로그 형식

참조 : https://httpd.apache.org/docs/2.2/ko/logs.html

 

[root@test logs]# tail -f testcokr-access_log

[test.co.kr] 222.222.222.222 - - [12/Feb/2018:16:38:04 +0900] "-" => "GET /product/list.html?cate_no=127 HTTP/1.0" 200 31526 Node.js (linux; U; rv:v6.11.2) AppleWebKit/537.36 (KHTML, like Gecko) 0 18369

[test.co.kr] 222.222.222.222 - - [12/Feb/2018:16:38:04 +0900] "-" => "GET /product/list.html?cate_no=127 HTTP/1.0" 200 31526 Node.js (linux; U; rv:v6.11.2) AppleWebKit/537.36 (KHTML, like Gecko) 0 31221

[test.co.kr] 222.222.222.222 - - [12/Feb/2018:16:38:05 +0900] "-" => "GET /product/list.html?cate_no=146 HTTP/1.0" 200 69425 Node.js (linux; U; rv:v6.11.2) AppleWebKit/537.36 (KHTML, like Gecko) 0 23466

[test.co.kr] 222.222.222.222 - - [12/Feb/2018:16:38:05 +0900] "-" => "GET /product/list.html?cate_no=146 HTTP/1.0" 200 69425 Node.js (linux; U; rv:v6.11.2) AppleWebKit/537.36 (KHTML, like Gecko) 0 30021

-> [test.co.kr] 도메인에 대하여 222.222.222.222 IP를 가진 믿을 수 없는 클라이언트 컴퓨터의 모르는 사용자가 [12/Feb/2018:16:38:05 +0900]일자에 클라이언트가 참조한 사이트 없이 GET Method /product/list.html?cate_no=146 HTTP/1.0 페이지를 요청했다. 이에 클라이언트에 200 상태코드를 보내고 31526/69425 크기의 내용을 클라이언트에게 전송했다. 이 때 클라이언트는 Node.js (linux; U; rv:v6.11.2) AppleWebKit/537.36 (KHTML, like Gecko) 브라우저를 사용했고 이 요청을 처리하는 데 0초가 소요되었으며 자식프로세스 ID 30021이다.

 

1. Common 로그 형식

접근 로그의 전형적인 설정은 다음과 같다.

 

LogFormat "%h %l %u %t \"%r\" %>s %b" common

CustomLog logs/access_log common

 

그러면 지정한 로그 형식문자열을 별명 common으로 정의한다. 형식문자열은 퍼센트 지시어들로 구성되며, 각각은 어떤 정보를 기록할지 알린다. 형식문자열에 일반 문자를 적으면 그대로 로그에 출력된다. 따옴표 문자(")를 출력하고 싶다면 백슬래쉬를 앞에 붙여서 형식문자열의 끝이 아님을 표시한다. 형식문자열에 줄바꿈 "\n", "\t"와 같은 특수 조절문자를 사용할 수 있다.

 

CustomLog 지시어는 정의한 별명을 사용하는 새로운 로그파일을 만든다. 접근 로그의 파일명이 슬래쉬로 시작하지않으면 ServerRoot의 상대경로이다.

 

앞의 설정은 공통로그형식(Common Log Format, CLF)이라는 형식으로 로그 항목을 기록한다. 여러 다른 웹서버들도 이런 표준 형식으로 로그를 만들며, 여러 로그 분석 프로그램에서 읽을 수 있다. CLF로 만든 로그파일 항목은 다음과 같다:

 

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

 

이제 로그 항목의 각 부분을 설명한다.

 

127.0.0.1 (%h)

서버에 요청을 한 클라이언트(원격 호스트) IP 주소이다. HostnameLookups On이라면 호스트명을 찾아서 IP 주소 자리에 대신 쓴다. 그러나 이 설정은 서버를 매우 느리게 할 수 있으므로 추천하지 않는다. 호스트명을 알려면 대신 나중에 logresolve와 같은 로그를 처리하는 프로그램을 사용하는 것이 좋다. 여기에 나온 IP 주소는 사용자가 사용하는 컴퓨터 주소가 아닐 수 있다. 프록시 서버가 사용자와 서버사이에 존재한다면, 원래 컴퓨터 주소가 아니라 프록시의 주소가 기록될 것이다.

 

- (%l)

출력에서 "빼기기호"는 요청한 정보가 없음을 나타낸다. 이 경우 여기에 나올 정보는 클라이언트 컴퓨터의 identd가 제공할 클라이언트의 RFC 1413 신원이다. 이 정보는 매우 믿을 수 없기때문에, 긴밀히 관리되는 내부 네트웍이 아니라면 절대로 이 정보를 사용하면 안된다. IdentityCheck On이 아니라면 아파치 웹서버는 이 정보를 알아보려고 시도하지도 않는다.

 

frank (%u)

이는 HTTP 인증으로 알아낸 문서를 요청한 사용자의 userid이다. 보통 이 값은 CGI 스크립트에게 REMOTE_USER 환경변수로 넘겨진다. 요청의 상태코드가 401이라면 (아래 참고) 사용자가 아직 인증을 거치지 않았으므로 이 값을 믿으면 안된다. 문서를 암호로 보호하지 않는다면 이 항목은 이전 항목과 같이 "-"이다.

 

[10/Oct/2000:13:55:36 -0700] (%t)

서버가 요청처리를 마친 시간. 형식은:

[day/month/year:hour:minute:second zone]

day = 숫자 2

month = 숫자 3

year = 숫자 4

hour = 숫자 2

minute = 숫자 2

second = 숫자 2

zone = (`+' | `-') 숫자 4

 

로그 형식문자열에 %{format}t를 사용하여 다른 형식으로 시간을 출력할 수 있다. format C 표준 라이브러리의 strftime(3)과 같다.

 

"GET /apache_pb.gif HTTP/1.0" (\"%r\")

클라이언트의 요청줄이 쌍따옴표로 묶여있다. 요청줄은 매우 유용한 정보를 담고 있다. 첫째, 클라이언트가 사용한 메써드는 GET이다. 둘째, 클라이언트는 자원 /apache_pb.gif를 요청한다. 세번째, 클라이언트는 HTTP/1.0 프로토콜을 사용한다. 요청줄의 여러 부분을 따로 로그할 수도 있다. 예를 들어, 형식문자열 "%m %U%q %H" "%r"과 똑같이 메써드, 경로, 질의문자열, 프로토콜을 로그한다.

 

200 (%>s)

이는 서버가 클라이언트에게 보내는 상태코드이다. 이 정보는 (2로 시작하는 코드) 요청이 성공하였는지, (4로 시작하는 코드) 클라이언트에 오류가 있는지, (5로 시작하는 코드) 서버에 오류가 있는지 알려주므로 매우 중요하다. 상태코드의 전체 목록은 HTTP 규약 (RFC2616 section 10)에서 찾을 수 있다.

 

2326 (%b)

마지막 항목은 응답 헤더를 제외하고 클라이언트에게 보내는 내용의 크기를 나타낸다. 클라이언트에게 보내는 내용이 없다면 이 값은 "-"이다. 내용이 없는 경우 "0"을 로그하려면 대신 %B를 사용한다.

 

2. Combined 로그 형식

자주 사용되는 다른 형식문자열은 결합된로그형식(Combined Log Format)이다. 다음과 같이 사용한다.

 

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\"" combined

CustomLog log/access_log combined

 

이 형식은 두 항목을 더 추가한 것을 제외하고는 Common 로그 형식과 완전히 같다. 추가된 항목들은 퍼센트 지시어 %{header}i를 사용한다. 여기서 header 자리에 HTTP 요청 헤더 이름이 나올 수 있다. 이 형식의 접근 로그는 다음과 같다:

 

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

 

추가된 항목은:

 

"http://www.example.com/start.html" (\"%{Referer}i\")

"Referer" (맞춤법 틀리지않았음) HTTP 요청 헤더. 클라이언트가 참조했다고 서버에게 알린 사이트이다. (, /apache_pb.gif를 링크하였거나 포함한 사이트이다.)

 

"Mozilla/4.08 [en] (Win98; I ;Nav)" (\"%{User-agent}i\")

User-Agent HTTP 요청 헤더. 클라이언트 브라우저가 자신에 대해 알리는 식별정보이다.

 

 

Apache 상태코드

https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C

 

2XX (성공)

4XX (요청오류) - 403(Forbidden), 404(Not Found)

5xx (서버오류) - 500(내부 서버 오류), 502(Bad Gateway)


댓글