
Webアーカイブって何かな?



Webの世界では重要な単語なのでしっかり覚えよう!
Webアーカイブ(Web Archive)は、ユーザーが過去のサイトやWebページにアクセスできるようにする便利なツールです。今回は、Webアーカイブの使い方やライフサイクルを詳しく解説します。
WEBアーカイブの運営


WEBアーカイブは、世界各国の国立図書館や公的機関が中心となって運営を行っています。日本では2002年から国立国会図書館においてインターネット資料収集保存事業(WARP)が実施されています。
上記の内閣総理大臣が交代する前の首相官邸WEBサイトや2002年FIFAワールドカップ日本組織委員会のWEBサイトも、国立国会図書館で実施しているインターネット資料収集事業において保存されているため、インターネット上では消えてしまっていても見ることが可能となります。
国立国会図書館が発表している資料では以下のように記されています。WEBアーカイブはWEBサイトの選定に始まり、サイトの収集からメタデータの付与と組織化、電子書庫への保存・公開というサイクルで情報をアーカイブしていると記されています。
WEBアーカイブの使い方
WEBアーカイブの使い方としては、いくつかのサイトが存在しますが、「Internet Archive Wayback Machine」を使用することをおすすめします。なぜなら、「Internet Archive Wayback Machine」は世界中のサイトの過去のデータを保存しているからです。
例えば、自分が運営しているサイトを誤って削除してしまった場合にも、「Internet Archive Wayback Machine」を探すことでデータが見つかる可能性があります。また、取得しようとしているドメインでは過去にどのようなサイトが運営されていたのかを調べる際にも便利です。
指定したURLで過去に公開されていたページを閲覧する方法
- 世界中のサイトの過去のデータを保存してあるので英語表記が標準となっています。まずは翻訳で日本語表記へ変換します。
- 閲覧したいURLを画面上部のテキストボックスへ入力します。
- テキストボックスの右側にある「閲覧履歴」をクリックします。
- 指定したURLと似ているURLの一覧が表示されるため、必要なURLの箇所をクリックします。この画面で何年から何年までの間にどれだけのデータ取得を行ったかがわかります。
- 日付を選択する画面が表示されるので、閲覧したいデータの日付を指定します。
- 画面下部に指定した日付のカレンダーが表示されます。このときに青い丸が表示されている箇所がデータを取得した日付となります。
- 閲覧したい日付の青い丸をクリックすると時刻が表示されますので、その時刻でそれぞれデータが保存されていることになります。
- 表示された時刻をクリックすることで、指定したURLで指定した日時に公開されていたページを保存していたデータを表示させることができます。
このように簡単に過去に公開されていたページを閲覧することができます。しかし閲覧できるデータは、手動でデータを保存していない場合は自動的に取得されたデータしか閲覧できないので注意が必要です。
リンクについても自動的に保存されたデータへのリンクに書き換えられています。リンク先のデータも保存されている場合は、クリックすることで保存されているリンク先のデータが表示されます。
指定したURLで公開しているページの手動で保存する方法
「Internet Archive Wayback Machine」では世界中のサイトのデータを定期的に保存していますが、どのタイミングでサイトのデータが保存されるのかはわからないため、任意のタイミングでサイトのデータを保存する機能が備わっています。
サイトのデータを保存する方法は簡単で、以下のようになります。
- 「Internet Archive Wayback Machine」のサイトの右下にある「今すぐページを保存」のURL欄に保存したいサイトのURLを入力します。
- URL欄下部の「ページを保存」をクリックします。
以上でデータの保存が完了となります。
保存されたデータは上記の「指定したURLで過去に公開されていたページを閲覧する方法」により誰でも閲覧ができるようになります。
保存されている自分のサイトのデータを削除する方法
自分のサイトのデータを削除する方法は「wayback@archive.org」にメールで依頼します。自分の管理下を離れ保存されたデータが自分の黒歴史となってしまう場合など、消してしまいたい過去は誰にでも存在します。保存は自動的にされますが、削除は自分で依頼することになります。
削除方法としては流れは簡単ですが、依頼メールを英語で表記しなくてはならないので、文章を引用するなどの工夫が必要となります。また、注意点をまとめると以下のようになります。
【自分のサイトのデータ削除の際の注意点】
- 依頼メールは英語での表記
- 削除するサイトと同じドメイン名のメールアドレスから送信する
以上の注意点を考慮しながら指示された通りに対応することで、保存されている自分のサイトのデータを削除することができます。
WEBアーカイブのライフサイクル


WEBアーカイブのライフサイクルは以下の5つのサイクルです。
【WEBアーカイブのライフサイクル】
- 選定
- 収集
- 組織化
- 保存
- 公開
このようなサイクルでWEBサイトに掲載されている情報は、時間とともに変化していくことになります。そして、このサイクルを定期的に繰り返しながらWEBサイトの変化も記録していきます。
それぞれの項目の特徴は以下の表のとおりです。
【WEBアーカイブのサイクル項目別特徴表】
項目名称 | 特徴 |
選定 | その名のとおり対象となるWEBサイトを選定します。特定の主題をターゲットにしたものから、一国全体のWEBサイトを対象とするものや世界中のWEBサイトを包括的に集めるものなど様々な目的や規模、実施機関の種類があります。 |
収集 | 対象のWEBサイトを実際に自動収集ロボット(クローラ)と呼ばれる自動収集プログラムを用いて頻度や深さなどを指定し収集します。 |
組織化 | 収集したWEBサイトに対しタイトルや公開者などの情報を付与します。収集され情報が付与されたデータはメタデータと呼ばれます。また、全文検索サービスを提供する場合にはファイル名や更新日時などをカタログ化するインデックス処理を行います。 |
保存 | 収集したWEBサイトをストレージと呼ばれる電子書庫に保存します。長期間にわたって利用が保障できるように、WEBアーカイブに適したファイルフォーマットで保存します。WEBアーカイブの保存用ファイルフォーマットであるWARC(WEB Archive)が多くの機関で採用されています。 |
公開 | 公開の範囲はWEBアーカイブの目的や事情により様々です。収集するだけで非公開とするダークアーカイブ、学術研究などの限られた目的に対してや施設内でのみの公開とするグレイアーカイブ、インターネット上で公開するホワイトアーカイブなど公開レベルは様々です。 |
選択収集とは
WEBアーカイブのライフサイクルの1つである選定の手法で、特定のWEBサイトにターゲットを絞り収集することを選択収集と言います。収集する単位をサイト単位やページ単位とし、小規模から中規模のWEBアーカイブの場合などに採用される収集方法です。
WEBサイトにも著作権が存在するため、法律により著作権が制限されていない場合には、事前に発信者の許諾を得る必要があります。
バルク収集とは
選択収集と同様に選定の手法の1つで、大規模に収集することです。
「.fr」や「.de」などの国別ドメイン全体を対象にWEBサイトを収集するため、なかには世界全体のWEBサイトを収集対象とするインターネットアーカイブのような機関もあります。
一国全体を対象とするバルク収集の多くは、法律制度に基づき国立図書館などの公的機関が行っています。
選択収集と異なる点として、法律によりWEBサイトの著作権を制限しているため、発信者から事前の許諾を得る必要がないことです。
2010年4月に施行された改正国立国会図書館法に基づき、公的機関のWEBサイトを発信者の許諾を得ることなく収集を行っています。このように法律制度に基づいて収集を行うことは「制度収集」とも呼ばれます。
WEBアーカイブの技術的な課題


WEBアーカイブでは、すべてのWEBコンテンツを完璧に収集することは難しいと言えます。理由としましては、収集ロボットの技術的な限界により、収集が難しいコンテンツが存在するからです。
例えば、動的コンテンツやストリーミングファイルなどがそれにあたります。
動的コンテンツとは
データベースの中に格納され、検索を実行しなくては表示されないようなデータのことを動的コンテンツと呼び、収集ロボットでは収集ができないデータです。
動的コンテンツは、検索を実行したり画面をスクロールさせたりするなどの、ユーザーの操作により要求がサーバーに送信されます。サーバーに送信された要求からサーバー側のプログラムで結果が生成されてデータが返信される仕組みです。
また、JavaScriptを使用してクライアント側で実行して生成されるコンテンツもあります。表示される内容やURLは、クライアントの要求によって異なるものになってしまいます。
動的コンテンツよりも収集しやすいもので静的コンテンツというものも存在します。静的コンテンツは、htmlページや画像ファイル、文書ファイルなどが固定したURLで置かれ、誰がいつ見ても同じように表示されるものです。
収集ロボットはトップページを起点としてリンクをたどり、URLを基にファイルを収集していく仕組みなので、動的コンテンツは静的コンテンツよりも収集し難いのです。しかし、サーチエンジンが使用している収集ロボットのなかには、JavaScriptを実行する機能を備えたものがあります。
世界各国のWEBアーカイブで広く使用されているHeritrixでも、補助ツールを実装することでクライアント側のスクリプトを実行し、動的コンテンツを収集する試みがなされています。
ストリーミングファイルとは
いわゆる動画ファイルのことを指します。
動画ファイルも収集が困難なコンテンツの1つです。近年では、動画の多くはWEBサイトにファイルをそのまま置くのではなく、ファイルをダウンロードしながら再生する方法で配信されています。
その配信方法には、以下の2種類があります。
【配信方法の種類】
- 専用のプロトコルとサーバーを用いて配信する「ストリーミング」
- httpプロトコルを用いてファイルをクライアント側に一時的に保存しながら再生する「プログレッシブダウンロード」
「ストリーミング」を一般的な収集ロボットで収集することはできないので、専用のプロトコルを用いてデータを受信し、それを蓄積するソフトウェアを利用する必要があります。
「プログレッシブダウンロード」はダウンロード用のURLを抽出するなどを行うことで収集が可能となる場合があります。
しかし、収集ロボットで収集するためには、ソースコードを自動的に解析してダウンロード用URLを抽出する機能が必要になります。
Heritrixにはそのような機能は実装されておらず、動画サービスの技術仕様が頻繁に変更されるため、解析機能の仕様を固定できないことが、収集ができない理由と挙げられます。
また、動画サービスのなかには利用規約によってファイルのダウンロードを禁止しているものもあるため、課題は技術的なものだけではないと言えます。