それなりの時系列ログデータが欲しい時

デモとかサンプル用にそれなりのデータ量のログデータが欲しい場合があります。
ググっていると、NASA-HTTP(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html)というページが見つかって、なかなか良さそうな印象です。

こちら、下の方に訳を載せてみたので、ご参考までです。

でもって↓のように置換して個人的な用途に活用させていただきますmm

LC_ALL=C
※ コレやらないとMacでsedしようとしたら『 sed: RE error: illegal byte sequence 』って怒られる…。

grep -l 'Aug/1995' NASA_access_log_Aug95 | xargs sed -e 's!Aug/1995!Dec/2015!g' -i.bk
※ 別に置換しなくても使えるのですが、Kibanaで先月1ヶ月分のログデータを〜とかって時の期間指定的な用途で…

 

サーバ/インフラエンジニア養成読本 ログ収集~可視化編 [現場主導のデータ分析環境を構築!] (Software Design plus)
鈴木 健太 吉田 健太郎 大谷 純 道井 俊介
技術評論社
売り上げランキング: 84,797

 
以下、NASA-HTTP(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html) のページの翻訳です。

Description
フロリダにあるNASAケネディー宇宙センターのWWWサーバーへのHTTPリクエストログ2ヶ月分。2つのログファイル。

Format
ログはアスキーなファイルで、1リクエスト1行で、以下のカラムになっています:
1. リクエストを行ったホスト。可能であればホスト名。ホスト名がルックアップできなかった場合はInternet address
2. timestampのフォーマットは “DAY MON DD HH:MM:SS YYYY” です。DAYは day of the week、MONは name of the month、DDは day of
 ※ 実際は [28/Jul/1995:13:20:42 -0400] こうなっていて、 DD/MON/YYYY:HH:MM:SS だと思われます…mm
3. リクエストの内容はクオートの中に。こんな感じ→”GET /images/ksclogo-medium.gif HTTP/1.0″
4. HTTPのレスポンスコード
5. レスポンスしたバイト数

Measurement
最初のログは “from 00:00:00 July 1, 1995 through 23:59:59 July 31, 1995, a total of 31 days”
次のログは “from 00:00:00 August 1, 1995 through 23:59:59 Agust 31, 1995, a total of 7 days”
で、収集されたもの(ホントに8月1日〜31日までで7日間なのかな、、、?)です。
この2週間(In this two week periodって書いてあるけど、多分2ヶ月間だと思います…)で発生したリクエストは 3,461,612(約350万) で、タイムスタンプは1秒単位です。注意点としては、”01/Aug/1995:14:52:01″ から “03/Aug/1995:04:36:13” までは記録されたアクセスがありません。これはハリケーンErinの影響でWebサーバーがシャットダウンされていたからです。

Privacy
このログはアクセス元とHTTPリクエストを全て保存したものです。一般的なトラフィックパターンを超えるような分析を行うことはお控えください。

Acknowledgements
このログはケネディ宇宙センターのJim Dumoulinによって収集され、サスカチュワン大学のMartin ArlittとCarely Williamsonによって寄せられたものです。

Publications
こちらはこれからM. Arlitt と C. Williamsonによって解析された6つのデータセットの中の1つで、彼らが発表する論文である“Web Server Workload Characterization: The Search for Invariants”の中で使われたものです。こちらは”1996 ACM SIGMETRICS Conference on the Measurement and Modeling of Computer Systems, Philadelphia, PA, May 23-26, 1996″で発表されます。
この論文の拡張バージョンはオンラインでも参照可能です。DISCUS home pageやグループの出版物もご覧ください。

Related
“Web Server Workload Characterization: The Search for Invariants”の中に登場する6つのうちの4つのデータセットにはパーミッションが与えられています。その4つのデータセットとは、Calgary-HTTP , ClarkNet-HTTP , NASA-HTTP , and Saskatchewan-HTTP です。

Restrictions
ログデータは(may be)自由に再配布できます。

Distribution

Jul 01 to Jul 31 の ASCIIフォーマットのデータはgzipで圧縮して 20.7 MB で、圧縮しないと 205.2 MB です。そして Aug 04 to Aug 31 のASCIIフォーマットのデータはgzip圧縮で 21.8 MB で、圧縮しないと 167.8 MB です。

コメント

タイトルとURLをコピーしました