ページの本文へ

Hitachi

企業情報研究開発

2013年9月9日

発表者からのレポート

2013年7月22日から7月25日までの4日間、アメリカのラスベガスにてWorldcompが開催されました。Worldcompは22のカンファレンスが一度に集まる学会です。この学会で議論される内容はコンピュータデザインを始め並列データ処理、データマイニング、人工知能など多岐に渡ります。


図1 ファイルシステムの占有モデル
拡大図

今回、「CDES(The 2013 International Conference on Computer Design)」というカンファレンスにて、「SDD: Selective De-Duplication with Index by File Size for Primary File Servers」と題した発表を行いました。

近年、エンドユーザが利用するファイルサーバへ格納されるデータ量が急増し、ファイルシステムのサイズが大きくなっています。そのため、ファイルサーバの管理者にとってハードウェアコストや管理コストの増加が悩みの種になっています。

この問題を解決する方法として、同一のデータを持つ複数のファイルが1つのデータを参照する「ファイルレベル重複排除機能」が注目されています。ファイルシステムにはエンドユーザの複製したファイルが多数格納されており、ファイルレベル重複排除機能によってそのようなファイルが保持する冗長なデータを削減できます。


図2 提案方式の概要1
拡大図



図3 提案方式の概要2
拡大図

ファイルレベル重複排除機能を実現するには、ファイルシステムからデータが同一のファイルを抽出する処理が必要です。しかし、ファイルシステムには数億ファイルといった大量のファイルが格納されることがあるため、同一データを持つファイルを抽出することは容易ではなく、「データの同一のファイル群の抽出効率化」が課題となります。

そこで報告者は、ファイルサイズを利用する選択的重複排除方式(SDD)を提案しました。提案方式では、あらかじめ設定されたファイルサイズ閾(しきい)値を超える大きなファイルを抽出処理の対象にします。これは、大きなファイル群がファイルシステムを大きく占有しているという事実に基づくものです(図1)

さらに、提案方式は、従来方式のようなハッシュ関数を用いず、ファイルサイズが一致するファイルを抽出し、それらのファイルのByte-by-Byte比較のみ実施します(図2、図3)。このように、ファイルサイズに特化した処理にすることによりファイル抽出の高速化が可能となります。

提案方式の評価では、閾値を適切なファイルサイズに設定することにより、全ファイルを処理対象にする場合と比較して、数%のデータ量削減効率低下だけで約6倍の性能向上を達成可能であることを示しました。

(亀井 仁志    記)

  • ページの先頭へ