アカウント名:
パスワード:
10億デバイス時間ってどれくらいですか…。
論文(PDF)にあるDIMM1枚あたりのエラー発生回数の測定結果を、おおまかに訳しましたので参考にしてみてください。
この実験は、Googleにある6台のマシンを用いて統計がとられています(期間は2006年1月~2008年6月)。マシンに使われているメモリは、複数メーカー(6社)でモデルも異なる1GB、2GB、4GBの3種類が用いられました。その結果DIMM1枚あたり年間(Table 1: Memory errors per year:)マシンA(DDR1) 4,530マシンB(DDR1) 4,086マシンC(DDR1) 3,351マシンD(DDR2) 3,918マシンE(FBD) - (データ収集不足)マシンF(DDR2) 3,408平均3,751回のコレクタブルエラーが観測されました。
マシン/メモリの容量/メモリのメーカー別の結果はPDFのグラフ2(Table 2: Errors per DIMM by DIMM type/manufacturer)で見ることができます。(転載するには大きすぎるので実際のグラフを参照してください)。
# グラフ2の見方# Pf:マシン、Mfg:メーカ番号、GB:容量、Mean CE rate:発生したエラーの回数 です。
データの「書き換え」と「保持」のうちどちらのエラーが支配的なのかによって、数値の意味がえらく変わるよね。
書き換え、読み込み、保持にまでは言及してないみたいですねさすがにその領域は半導体メーカーの仕事じゃないですかね。
コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですがECCなサーバ機にはメモリーエラーカウンタやコレクタブルエラーカウンタというのがあるそうです(BIOSから読むのかな?)。この研究ではその結果(CE/UE)を元にメモリの種類/容量/メーカ/動作温度の関係を分析しているようですから、どのタイミングでエラーが発生しているかまではわからないと思います。
/.Jにサーバ管理者は多いと思ので、年間どの程度エラーカンウントされるものなのか一例の報告が欲しいところですね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
よくわかんね (スコア:0)
10億デバイス時間ってどれくらいですか…。
Re: (スコア:0)
・「デバイス」=複数の石(チップ)や部品を基板などで集約したもの
っぽいので、
「製品としてのDIMM 1枚あたりの故障確率は 10億時間に1回の確率」
って意味じゃないかな?
コレ、DIMMの枚数が増えるとそれに比例して発生確率が増えるので
今日日のPCみたいに「DIMMは2枚入ってます」というと、そのPC内でDIMMのエラーが
出る確率は5億時間に1回って感じでしょうか?
Googleが何枚のDIMMを稼働させているのかは知りませんが、仮に10万枚使っているとすると
Google全体では1000時間に1回の割合でDIMMエラーが起きている事になります。
(1000時間=約42日)
# 原文読んでないしハードの専門家でもないのでAC
Re:よくわかんね (スコア:3, 参考になる)
論文(PDF)にあるDIMM1枚あたりのエラー発生回数の測定結果を、おおまかに訳しましたので参考にしてみてください。
この実験は、Googleにある6台のマシンを用いて統計がとられています(期間は2006年1月~2008年6月)。
マシンに使われているメモリは、複数メーカー(6社)でモデルも異なる1GB、2GB、4GBの3種類が用いられました。
その結果DIMM1枚あたり年間
(Table 1: Memory errors per year:)
マシンA(DDR1) 4,530
マシンB(DDR1) 4,086
マシンC(DDR1) 3,351
マシンD(DDR2) 3,918
マシンE(FBD) - (データ収集不足)
マシンF(DDR2) 3,408
平均3,751回のコレクタブルエラーが観測されました。
マシン/メモリの容量/メモリのメーカー別の結果はPDFのグラフ2(Table 2: Errors per DIMM by DIMM type/manufacturer)
で見ることができます。
(転載するには大きすぎるので実際のグラフを参照してください)。
# グラフ2の見方
# Pf:マシン、Mfg:メーカ番号、GB:容量、Mean CE rate:発生したエラーの回数 です。
思うにこれさ、 (スコア:0)
データの「書き換え」と「保持」のうち
どちらのエラーが支配的なのかによって、
数値の意味がえらく変わるよね。
Re: (スコア:0)
書き換え、読み込み、保持にまでは言及してないみたいですね
さすがにその領域は半導体メーカーの仕事じゃないですかね。
コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
ECCなサーバ機にはメモリーエラーカウンタやコレクタブルエラーカウンタというのがあるそうです(BIOSから読むのかな?)。
この研究ではその結果(CE/UE)を元にメモリの種類/容量/メーカ/動作温度の関係を分析しているようですから、どのタイミングでエラーが発生しているかまではわからないと思います。
/.Jにサーバ管理者は多いと思ので、年間どの程度エラーカンウントされるものなのか一例の報告が欲しいところですね。
Re: (スコア:0)
>コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
なんだか心配になってきた。変な宗教家に騙されたりした経験はありませんか?
近くに「最高ですか~」なんて叫んでいる人は居ませんか?