ファイルサーバー構築で使用した技術⑥　～データ重複除去～

ファイルサーバー構築で使用した技術⑥　～データ重複除去～

本記事では、データ重複除去技術の具体的な仕組みや効果について解説しています。この技術により、ディスク容量を効率的に使用し、物理サイズを超えるデータを格納することが可能になります。

今回構築したファイルサーバーはいろいろな技術を使って成り立っていますので、1つ1つ紹介させていただきます。
連載予定は以下のとおりで、今回は⑥を紹介いたします。

連載予定

物理サイズを超えてデータを格納できる技術です。

※100GBのディスクに200GBのデータを入れることが可能になるようなイメージ

今回構築したサーバーでは内部のファイルの種別にはよりますが、平均で「全データの40%」、多いところで「全データの70%」のディスク消費容量削減に成功しています。

仕組みとしては、 ファイル内にある同じデータの羅列 を見つけてまとめちゃおう！ というシンプルなものです。

※といっても、これをファイルシステムレベルでできるのはすごいと思います。

イメージはこんな感じです。

この機能は、データ書き込み時に動的に行われるものではなく
定期的に、 全データの中から同じような部分を見つけて、 まとめることで実現しています。

その仕組みはこんな感じです。

なんかファイルアクセス遅くなりそうと思われがちですが

物理ディスクから読み出すデータ量が減ったりすることもあるので本機能でファイルアクセスが遅くなることは、ほぼありません。
むしろちょっと早くなることもあるようです。

特に仮想環境のVHDなんかはかなりの効率でデータ重複除去できるのでオススメです。

というところで、今回はここまでです。

ありがとうございました。

＼シェアをお願いします！／

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Ｓｋｙ株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。