ls /asapon/blog

基本tech、時々多趣味

圧縮ファイルのハッシュ値がタイムスタンプによって変わってしまう

どんな問題が起こったのか

中身が同じファイルを、それぞれ圧縮した。
だが、圧縮ファイルのハッシュ値が同じにならなかった。

再現してみる


注意
PCの性能によっては、圧縮処理が一瞬で終わるかもしれません。
そうなると事象の再現ができないため、 sleep 1 のような処理を挟む必要があります。タイムスタンプによる影響を確かめるだけであり、ファイルの中身を変える処理ではないためご容赦ください。


中身が同じファイルを用意します。

ls
foo.txt  hoge.txt
➜ diff hoge.txt foo.txt
➜

念の為、ハッシュ値も同じか確かめる。

➜ irb
>> require 'digest/md5'
=> true
>> Digest::MD5.file('hoge.txt')
=> #<Digest::MD5: 7d54bd30550c55950ec0e7f65d1d53c7>
>> Digest::MD5.file('foo.txt')
=> #<Digest::MD5: 7d54bd30550c55950ec0e7f65d1d53c7>

gzip圧縮します。

require 'zlib'
require 'pathname'

MAC_ONLY_FILE = '.DS_Store'
SKIP_FILE = [MAC_ONLY_FILE, 'test.rb']

Dir.open('.') do |d|
  d.children.each do |child|
    next if SKIP_FILE.include?(child)
    sleep 1 # 事象の再現のために挿入

    path = Pathname.new(child)
    gzfile_path = Pathname.new(File.join(path.dirname, "#{path.basename}.gz"))
    File.open(path, 'r') do |f|
      Zlib::GzipWriter.open(gzfile_path) do |gz|
        f.each_line do |line|
          gz.puts line
        end
      end
    end
  end
end

圧縮ファイルのハッシュ値を確かめてみる。

>> Digest::MD5.file('hoge.txt.gz')
=> #<Digest::MD5: 4c537db81e4240fdeec3638319d6be60>
>> Digest::MD5.file('foo.txt.gz')
=> #<Digest::MD5: 0e83011362f4781e60e7813d3a78a0e3>

合わないぞ。。。

なにが原因だったのか

圧縮時のタイムスタンプが、異なっているのが原因。また圧縮ファイルには、ファイル名とコメントも、gzipファイルのヘッダーに記録されます。
まとめると、圧縮時には以下の情報が含まれることになります。

  • タイムスタンプ情報(atime, ctime, mtime)
  • 圧縮元ファイル名
  • コメント(デフォルトはnull)

ちなみに、atime, ctime, mtimeは、ファイルが持つタイムスタンプの情報です。詳しくはこちらを参考にしてください。

どうやって解決したか

設計と実装に分けて整理します。

設計

以下の仕様を満たす必要があった。

  • 圧縮時のmtimeを、デフォルト値ではなくこちら側で制御する。

Zlib::GzipWriter#=mtimeを呼び出せば大丈夫です。
またmtimeは、UNIX TIMEで設定されています。そのため、実際に圧縮した時刻をUNIX TIMEで与える必要があります。
よって、最終的に仕様は以下のようになります。

  • 圧縮時のmtimeを、デフォルト値ではなくこちら側で制御する。
  • mtimeの設定を、現在時刻のUNIX TIMEにすること。

実装

time モジュールからUNIX TIMEを作り出し、mtimeに代入するだけです。

require 'zlib'
require 'pathname'
require 'time'

MAC_ONLY_FILE = '.DS_Store'
SKIP_FILE = [MAC_ONLY_FILE, 'test.rb']
UNIX_TIME_NOW = Time.now.to_i # UNIX TIME

Dir.open('.') do |d|
  d.children.each do |child|
    next if SKIP_FILE.include?(child)
    sleep 1

    path = Pathname.new(child)
    gzfile_path = Pathname.new(File.join(path.dirname, "#{path.basename}.gz"))
    File.open(path, 'r') do |f|
      Zlib::GzipWriter.open(gzfile_path) do |gz|
        gz.mtime = UNIX_TIME_NOW # mtimeを上書きする
        f.each_line do |line|
          gz.puts line
        end
      end
    end
  end
end

ハッシュ値が同じになっているか確認。

>> Digest::MD5.file('hoge.txt.gz')
=> #<Digest::MD5: 4cf682fe3c756d9225d01d1f74567c6d>
>> Digest::MD5.file('foo.txt.gz')
=> #<Digest::MD5: 4cf682fe3c756d9225d01d1f74567c6d>

大丈夫そうです👍

おわりに

年内最後の記事でした!良いお年を〜!