GitHub、公開リポジトリのアーカイブ21TBを北極圏のデジタルデータ貯蔵庫に保管 37
ロマン 部門より
GitHubが公開リポジトリのデータ21TBをアーカイブし、ノルウェー・スバールバル諸島のデジタルデータ貯蔵庫「Arctic World Archive (AWA)」に保管したそうだ(The GitHub Blogの記事、 Piqlのプレスリリース)。
AWAはノルウェーのデジタルデータアーカイブテクノロジー企業Piqlがノルウェー国有の炭鉱会社Store Norske Spitsbergen Kulkompani (SNSK)と提携し、スピッツベルゲン島の炭鉱跡に設置している。世界種子貯蔵庫もある北極圏のスピッツベルゲン島は気温が低く、電力や人の手を必要とすることなく長期保存が可能だ。Piqlがデジタルデータアーカイブ専用に開発した感光フィルム「piqlFilm」は1,000年以上の保存が可能だといい、オフラインで保存されることからサイバー攻撃の影響も受けない。
GitHubは昨年のGitHub Universe 2019でGitHub Archive Programの一環としてGitHub Arctic Code Vault(動画)を発表。今年2月2日にアクティブな公開リポジトリのスナップショットを作成し、Piql数か月かけて186本のpiqlFilmに書き込んだという。当初、GitHubではチームが直接ノルウェーに飛び、北極圏まで世界のオープンソースコードを運ぶ計画だったが、パンデミックのために移動が困難であることからPiqlに一任した。Piqlによると186本のpiqlFilmは7月8日、AWA内のArctic Code Vaultに格納されたそうだ。
GitHubでは既に最も人気の高い6,000リポジトリのアーカイブをArctic Code Vaultに格納しており、今回が第2弾となる。GitHub Archive ProgramではAWAのほか、Internet ArchiveやSoftware Heritage Foundation、MicrosoftのProject Silicaと提携してデータの保存を行っているとのことだ。
意外と (スコア:5, 興味深い)
少ないもんだなぁと思った。
コード以外のメディア等のデータは除いたのかな。
Re: (スコア:0)
えーこれおれのしょーもないリポジトリもアーカイブしてもろてるの?お手数おかけして大変申し訳ございませんなんだが。
Re: (スコア:0)
今年2月2日だから俺もだ。
Re: (スコア:0)
ほとんどがfolkやコピペしたコードで、圧縮したらみんな仕事してないのがバレちゃった
Re: (スコア:0)
データが巨大なので「すべてのリポジトリの中から似通ったデータを探す(全リポジトリを一つに連結してから圧縮)」なんて無駄に時間を食うようなことはしていないと思う。
リポジトリ単位やプロジェクト単位の圧縮、小規模なものは複数まとめて圧縮くらいがせいぜい。
Re: (スコア:0)
gitだったらせっかくすべてのオブジェクトがhash値で管理されているのだし、hash値の同じgitオブジェクトは重複しないようにするくらいのことはしていそう。
Re: (スコア:0)
hash値が同じならそこにぶら下がる実体データはひとつしかないわけで、「hashが同じオブジェクトが重複しないように」は「元からそうなってる」なわけだけど
Re: (スコア:0)
もともとのストレージがdedupなのかも知れんよ。
Re: (スコア:0)
これ全公開リポジトリではないです。
・2019-11-13 .. 2020-02-02 の間にコミットがある
・2019-02-03 .. 2020-02-02 の間にコミットがあり、スターが1以上
・スターが250以上
のいずれかの条件を満たすリポジトリのみです。まあ条件はかなりゆるいので、相当数のリポジトリが該当するとは思いますが。
スヴァールバル条約地域なのも興味深い (スコア:2, 興味深い)
データーの保存方法が感光フィルムって点もそうですが、
保存場所がスヴァールバル条約 [wikipedia.org]の地域ってところも興味深いですな。
日本では「スピッツベルゲン」ニ関スル条約 [archives.go.jp]ですが、
この第九条によると、加盟国は諸島内に軍事拠点を築いたり、地域内で戦争をするのは禁止なので、
戦火に巻き込まれて遺失するリスクが低い事も狙ったのでしょうね。
※条文が普段目にする日本語とかけ離れていたので、解釈違いの可能性も高いです。
誤りがあったらご指摘・補足をいただけると有難いです。PDF 84Pを参考にしました。
# 永世中立国スイスと似たベクトルの何かを感じました。
一か所に集めすぎてないか? (スコア:2)
Re:一か所に集めすぎてないか? (スコア:2, 参考になる)
成程、バックアップにおける分散化ですね。
スヴァールバルがMTBFが極めて高い、1つの超大容量記憶媒体と考えると、
問題が発生した際の損害も甚大と考えるのは自明ですね。
スヴァールバルの様に特殊な要素があり、
かつ保管に適した条件を持つ地域は他にもありそうですが、
具体的には何処になるのだろうか?
凄く興味が沸いたのでGoogle先生に聞きまくってみました。
(たぶん突っ込みどころ満載です)
■戦争地帯へのなりにくさ
「バチカン市国」
スヴァールバル諸島との共通点として、国家(地域)としては一切の軍事力を保持していない点が挙げられます。
またキリスト教にとって、非常に重要な地域の為、この特殊性が安定性につながる可能性があります。
ただし宗教を発端とする聖戦などに発展すると、最も危険な地域と化す可能性もあります。
「スイス」
永世中立国ですので、他国間が戦争状態になっても中立を維持し、自衛以外では戦争を行わないことから、
長い期間、戦争地帯にはならない事が見込めます。
しかし、武装中立国家ですので、スヴァールバルのように軍事施設が無いわけではありません。
「南極大陸」
地球上で唯一どこの国にも属していない大陸です。
南極条約 [wikipedia.org]により、軍事的利用が禁止されていたりとスヴァールバルとの共通点も多いです。
ただし地球上でも有数の過酷な気候の為、ここに保管施設を作る事自体がかなりの難題です。
■自然災害(主に地震)の少なさ
「北ヨーロッパ」
ユーラシアプレートの真ん中に位置する為か、地震が非常に少ないことで有名です。
特にドイツは世界でも指折りの地震が少ない国です。
ただし地球規模で見ると、スヴァールバルと同じ地域とも言える為、
リスク分散を重視する場合は、あまり意味が無いかもしれません。
「アフリカ大陸」
アフリカプレートの真ん中に位置する為か、地震が少ないです。
ただし紛争が多発する地域の為、治安は非常に悪いです。
「オーストラリア大陸」
オーストラリアプレートの真ん中に位置する為か、地震が少ないです。
ただし、南極を除くと最も乾燥した大陸の為、自然火災などが多発する地域でもあります。
「アメリカ マンハッタン島」
巨大な一枚岩盤で構成された島ですので、土台の安定性が非常に高いです。
ただし、アメリカにとって非常に重要な地域の為、テロの標的にされたこともあり、
色々とリスクも抱えてもいます。
■ロマン、SF
「海上、海中」
各国の排他的経済水域に当たらない海域にメガフロートを建造し、そこに保管。
新たな条約が必要になりそうな上、
長期保管における、水害、塩害、海生物、鳥、津波の対策など、問題が山ほどある。
原子力潜水艦にデータを積んで、回遊してた方がよっぽどマシかもしれません。
「宇宙空間」
ボイジャーのゴールデンレコード [wikipedia.org]よろしく、地球外で保管する方法です。
例えば、衛星軌道を周回させたり、月面などに保管でしょうか。
人類の戦火に巻き込まれにくいという点では指折りですが、温度、宇宙線、隕石、宇宙人(?)への対策が必須の上、
設置、回収コストが尋常ではないです。1000年後の人類の技術ではコストが安いことに期待でしょうか。
# 色々調べている内に、この前無償配布していたCiv VIの存在を思い出してしまいました。
# 4連休を失った哀れなACが誕生したのは、あなたのコメントが原因です。深く反省してください(逆ギレ
「電力や人の手を必要とすることなく長期保存が可能」と言うけど、 (スコア:1)
実際には、雪解け水の侵入リスク [wired.jp]もあるし、
結構頻繁にそこそこの地震も起きていて、メンテなしでは済まないと思われる。
・2008年 M6.2地震の報道 [reuters.com]
・2016年 M5.3地震の報道 [spitsbergen-svalbard.com]
・2017年 M5.0地震の報道 [temblor.net]
缶切り忘れた! (スコア:0)
piqlFilmとやらの読み方は別の方法で添付保存してるのかな
石版?羊皮紙?どんな方法が適切だろうか
# 紙テープ?パンチカード?その読み方は・・・
Re: (スコア:0)
写真を見る限り、標準的な二次元コード(DataMatrix?)を1コマ3つずつ書き連ねているだけのように見える
Re: (スコア:0)
ほんとに千年後読めるのかなあ。千年後のレスが楽しみ
Re: (スコア:0)
submodule が GitLabに有って、source code全体がソロワネじゃん!
アーカイブは解凍するもの (スコア:0)
伸長派も従うしかない。
Re: (スコア:0)
解凍、伸長、展開とか色々あったけど、
圧縮する方はバリエーションなんかあったっけ…。
Re: (スコア:0)
凍結 (LHA)
Re: (スコア:0)
圧縮する方はバリエーションなんかあったっけ…。
ラージハドロンコライダーと
逆回転の電子レンジと
ガラケーを組み合わせたやつ
# トゥットゥルー
Re: (スコア:0)
デフレ。
アルゴリズム名使うパターンはちょくちょくあるね。
展開はunを接頭する。
Re: (スコア:0)
まあ北極に置くだけに解凍と表現するのが妥当なのではと。
Re: (スコア:0)
アーカイブは冷凍するもの
#とは言わないなぁ
Re: (スコア:0)
LHarc/LHAの出力は FREEZING... と MELTING... なんで冷凍⇔解凍だったんだけど、なぜか圧縮⇔解凍で普及したんだよね。
Re:アーカイブは解凍するもの (スコア:1)
「圧縮」の対語として「解凍」が広まったのはなぜ? | KEI SAKAKI's PAGE.
https://kei-sakaki.jp/2017/05/27/mystery-of-asshuku-and-kaitou/ [kei-sakaki.jp]
で理由が(推測ですが)解説されてますね。
Re: (スコア:0)
アーカイブのアイコンが氷だからね、しようがないね。#Lhaplus
Re: (スコア:0)
授業でどう教えようか悩んだのだが、結局、「もともとの反対語としては圧縮の反対は伸長なんだけど、今の日本語では『解凍』です」などと教えました。原理主義の皆様、ごめんなさい。
未来人曰く (スコア:0)
この非ノイマン型全盛期に、今更ノイマン型?
Re:未来人曰く (スコア:2, おもしろおかしい)
いやむしろ、
「こいつら、1000年後の俺たちもtarコマンド叩いてるとは思ってなかったろうぜ」
「タイムマシンでやってきてたら、ガッカリしただろうな」
的な感じで頼む
Re: (スコア:0)
人類は未来永劫、現代の価値観で過去を批判するのだ・・・
Re: (スコア:0)
クールポコ、チンポコ
Re: (スコア:0)
ロシアの北極圏で猛暑とか (スコア:0)
ノルウェーは大丈夫なんだろうか
Re: (スコア:0)
データの出元は大半は北半球だから、南半球に置くべきだな。
現代の焚書 (スコア:0)
masterが使用禁止になったら掘り返して消しに行くのかな?
Re: (スコア:0)
アーカイブまで歴史改ざんですか?