記事検索

検索ワードを入力してください。
Sky Tech Blog
ファイルサーバー構築で​使用した​技術⑥ ~データ重複除去~

ファイルサーバー構築で​使用した​技術⑥ ~データ重複除去~

本記事では、データ重複除去技術の具体的な仕組みや効果について解説しています。この技術により、ディスク容量を効率的に使用し、物理サイズを超えるデータを格納することが可能になります。

前回の​記事

今回構築したファイルサーバーはいろいろな技術を使って成り立っていますので、1つ1つ紹介させていただきます。
連載予定は以下のとおりで、今回は⑥を紹介いたします。

連載予定

①:フェールオーバークラスター
②:クラスター共有ボリューム
③:記憶域スペース
④:記憶域スペースダイレクト
⑤:入れ子になったミラー加速パリティ
⑥:データ重複除去 【今回の記事】
⑦:シャドウコピー
⑧:BitLockerの解除キー(ADとリカバリキー)
番外編:DFS名前空間

⑥データ重複除去

物理サイズを超えてデータを格納できる技術です。

※100GBのディスクに200GBのデータを入れることが可能になるようなイメージ

今回構築したサーバーでは内部のファイルの種別にはよりますが、平均で「全データの40%」、多いところで「全データの70%」のディスク消費容量削減に成功しています。

仕組みとしては、 ファイル内にある同じデータの羅列 を見つけてまとめちゃおう! というシンプルなものです。

※といっても、これをファイルシステムレベルでできるのはすごいと思います。

イメージはこんな感じです。

この機能は、データ書き込み時に動的に行われるものではなく
定期的に全データの中から同じような部分を見つけて、 まとめることで実現しています。

その仕組みはこんな感じです。

1. 条件を​満たすファイルに​ついて、​ファイルシステムを​スキャンします。

2. ファイルを​さまざまな​サイズの​チャンク​(塊)に​分割します。

3. まったく​同じ​データの​チャンク​(塊)を​探して​名前を​つけます。

4. チャンク​(塊)を​チャンクストア(ディスク上の​整理済み塊領域)に​配置し、​必要に​応じて​圧縮します。

5. ファイル情報と​して、​チャンク ストア(ディスク上の​整理済み塊領域)の​データの​組み合わせで​元の​データと​なるように、​いい​感じに​記憶​(再解析ポイント​(RP)​作成)します。

なんかファイルアクセス遅くなりそうと思われがちですが

物理ディスクから読み出すデータ量が減ったりすることもあるので本機能でファイルアクセスが遅くなることは、ほぼありません。
むしろちょっと早くなることもあるようです。

特に仮想環境のVHDなんかはかなりの効率でデータ重複除去できるのでオススメです。

というところで、今回はここまでです。

ありがとうございました。


XFacebookLINE
キャリア採用募集中!

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Sky株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。
お問い合わせ
ホーム