デモとかサンプル用にそれなりのデータ量のログデータが欲しい場合があります。
ググっていると、NASA-HTTP(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html)というページが見つかって、なかなか良さそうな印象です。
こちら、下の方に訳を載せてみたので、ご参考までです。
でもって↓のように置換して個人的な用途に活用させていただきますmm
LC_ALL=C ※ コレやらないとMacでsedしようとしたら『 sed: RE error: illegal byte sequence 』って怒られる…。 grep -l 'Aug/1995' NASA_access_log_Aug95 | xargs sed -e 's!Aug/1995!Dec/2015!g' -i.bk ※ 別に置換しなくても使えるのですが、Kibanaで先月1ヶ月分のログデータを〜とかって時の期間指定的な用途で…
技術評論社
売り上げランキング: 84,797
以下、NASA-HTTP(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html) のページの翻訳です。
—
Description
フロリダにあるNASAケネディー宇宙センターのWWWサーバーへのHTTPリクエストログ2ヶ月分。2つのログファイル。
Format
ログはアスキーなファイルで、1リクエスト1行で、以下のカラムになっています:
1. リクエストを行ったホスト。可能であればホスト名。ホスト名がルックアップできなかった場合はInternet address
2. timestampのフォーマットは “DAY MON DD HH:MM:SS YYYY” です。DAYは day of the week、MONは name of the month、DDは day of
※ 実際は [28/Jul/1995:13:20:42 -0400] こうなっていて、 DD/MON/YYYY:HH:MM:SS だと思われます…mm
3. リクエストの内容はクオートの中に。こんな感じ→”GET /images/ksclogo-medium.gif HTTP/1.0″
4. HTTPのレスポンスコード
5. レスポンスしたバイト数
Measurement
最初のログは “from 00:00:00 July 1, 1995 through 23:59:59 July 31, 1995, a total of 31 days”
次のログは “from 00:00:00 August 1, 1995 through 23:59:59 Agust 31, 1995, a total of 7 days”
で、収集されたもの(ホントに8月1日〜31日までで7日間なのかな、、、?)です。
この2週間(In this two week periodって書いてあるけど、多分2ヶ月間だと思います…)で発生したリクエストは 3,461,612(約350万) で、タイムスタンプは1秒単位です。注意点としては、”01/Aug/1995:14:52:01″ から “03/Aug/1995:04:36:13” までは記録されたアクセスがありません。これはハリケーンErinの影響でWebサーバーがシャットダウンされていたからです。
Privacy
このログはアクセス元とHTTPリクエストを全て保存したものです。一般的なトラフィックパターンを超えるような分析を行うことはお控えください。
Acknowledgements
このログはケネディ宇宙センターのJim Dumoulinによって収集され、サスカチュワン大学のMartin ArlittとCarely Williamsonによって寄せられたものです。
Publications
こちらはこれからM. Arlitt と C. Williamsonによって解析された6つのデータセットの中の1つで、彼らが発表する論文である“Web Server Workload Characterization: The Search for Invariants”の中で使われたものです。こちらは”1996 ACM SIGMETRICS Conference on the Measurement and Modeling of Computer Systems, Philadelphia, PA, May 23-26, 1996″で発表されます。
この論文の拡張バージョンはオンラインでも参照可能です。DISCUS home pageやグループの出版物もご覧ください。
Related
“Web Server Workload Characterization: The Search for Invariants”の中に登場する6つのうちの4つのデータセットにはパーミッションが与えられています。その4つのデータセットとは、Calgary-HTTP , ClarkNet-HTTP , NASA-HTTP , and Saskatchewan-HTTP です。
Restrictions
ログデータは(may be)自由に再配布できます。
Distribution
Jul 01 to Jul 31 の ASCIIフォーマットのデータはgzipで圧縮して 20.7 MB で、圧縮しないと 205.2 MB です。そして Aug 04 to Aug 31 のASCIIフォーマットのデータはgzip圧縮で 21.8 MB で、圧縮しないと 167.8 MB です。
コメント