中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に

中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に 75

ストーリー by hylom 2018年03月27日 17時30分
特化したOCRを作れば精度は上がりそうではある部門より

先日「日本年金機構から入力業務を委託されていた業者、契約で禁止されていたにも関わらず中国の業者に再委託」という話題があったが、この業者がスキャナーとOCRを使ってデータ入力を行っていたことが話題になっている（読売新聞）。

契約では「2人1組で手入力」となっていたが、実際にはスキャナとOCRでデータの電子化を行っていたという。誤認識されたデータは修正されていなかったそうだ。

これに対し、スキャナを利用することについての是非が議論になっている（Togetterまとめ、はてなブックマーク）。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索75コメント Log In/Create an Account

やはり (スコア:1, おもしろおかしい)

by PEEK (27419) on 2018年03月27日 17時27分 (#3383300) 日記

スキャナーに生きがいはないのですね

--
らじゃったのだ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  日本年金機構と言わせたいだけでしょ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  だから暗闇でスキャナー使うなとあれほど
  #苦しいかw
OCR って取り残されている？ (スコア:1)

by hinatan (24342) on 2018年03月27日 17時43分 (#3383307) 日記

CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のＡＩ技術には感心しきりですが、
OCR ってまだ役に立つレベルじゃないのかしら？
この業者が使っているソフトが古すぎなのか。
- Re:OCR って取り残されている？ (スコア:3, 参考になる)
  
  by Anonymous Coward on 2018年03月27日 18時46分 (#3383359)
  
  CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のＡＩ技術には感心しきりですが
  こういうのが10件に1件ぐらいエラー画像を吐き出しても「あはは、うまく行かないこともあるかー」で終わるが、事務処理だと誤認率10％とか役立たずの屑でしかないから。
  そして人間の認識力は、（よほど訓練を積んだ人でない限り）「10個に1個ぐらいランダムで混ざるOCRの誤認識」を適切に見つけ出せるほどセンシィティブじゃない。
  だから画像データから人間に手入力させたほうが、効率と精度のバランスは圧倒的にOCRに勝る。
  郵便番号と都道府県＋市区町村みたいにある程度の対比が取れるものなら、専用にOCRをチューニングすれば多少はいけるかもしれないが、人名とかはまず無理。
  
  シェア
  
  親コメント
  - Re:OCR って取り残されている？ (スコア:1)
    
    by hinatan (24342) on 2018年03月27日 20時54分 (#3383447) 日記
    
    そうですね。文脈からの類推って大きいんですが、人名はそれが無理ですね。
    
    シェア
    
    親コメント
- Re:OCR って取り残されている？ (スコア:2)
  
  by manmos (29892) on 2018年03月27日 17時49分 (#3383311) 日記
  
  多分、年金データは元が手書き。
  人間の場合は、読めなかったら相談するんだけど、OCRは「読めたこと」にすることが多いからねぇ。
  
  シェア
  
  親コメント
  - Re:OCR って取り残されている？ (スコア:1)
    
    by shige_318 (35387) on 2018年03月27日 18時16分 (#3383333) 日記
    
    “正認識率”を上げるために「認識不能」の閾値を甘くしてると、ある程度“誤認識”は出てくるからなぁ
    “誤認識率”を下げるためにはその数倍の「認識不能率」を許容しなきゃだし
    というか、ユーザーサイドでそのへんの調節ができる手書きOCRってあるのかなぁ?
    
    シェア
    
    親コメント
  - Re:OCR って取り残されている？ (スコア:1)
    
    by hinatan (24342) on 2018年03月27日 18時36分 (#3383347) 日記
    
    なるほど。でもAIの最高人材があれば
    今なら手書きだって、かなり解釈しそうな勢い・・・。
    汚い字でも人間だと読めますものねー。
    くせ字を学習したり、なんか類推するのだろう。
    
    シェア
    
    親コメント
    - Re:OCR って取り残されている？ (スコア:2)
      
      by manmos (29892) on 2018年03月27日 19時04分 (#3383371) 日記
      
      手書き文字のdeep learningって人間はこの画像はこう読んだよってデータを積み重ねることだよね。
      この業者が「中国で」作ったリスト（ちゃんと人間が読んだやつ）はいいデータだな。
      ま、他で利用したらシャレになんないデータだけどね。
      
      シェア
      
      親コメント
      - Re:OCR って取り残されている？ (スコア:1)
        
        by hebereke.na.hito (47696) on 2018年03月28日 12時19分 (#3383816)
        
        日本の漢字のデータって中国語にも応用出来るもんなのかな？まぁ、それでも日本のどこかに売り込むとか出来そうだけど、出自がグレーな奴を買うところってあるんだろうか。
        
        シェア
        
        親コメント
- かなり進んでいる (スコア:2, 参考になる)
  
  by Anonymous Coward on 2018年03月27日 18時43分 (#3383354)
  
  > OCR ってまだ役に立つレベルじゃないのかしら
  一番わかりやすいのは、古文書のくずし字の読み取りかな。これはすでにかなりのレベルに到達している [mynavi.jp]。
  これに限らず、ディープラーニングのOCRへの適用は流行していて、「OCR ディープラーニング」でググれば、商用・研究とりまぜて無数にヒットします。認識率は、（現代の）手書きの漢字・ひらがな・カタカナで90%超は軽々といくみたい。
  
  シェア
  
  親コメント
  - Re:かなり進んでいる (スコア:1)
    
    by Anonymous Coward on 2018年03月27日 19時38分 (#3383391)
    
    9割って、名前だけでもニ、三人に一人間違うわけじゃん。
    
    シェア
    
    親コメント
  - Re:かなり進んでいる (スコア:1)
    
    by hinatan (24342) on 2018年03月27日 20時55分 (#3383448) 日記
    
    情報ありがとうございます。ググってみますね。
    
    シェア
    
    親コメント
国内クソ業者より (スコア:1)

by Anonymous Coward on 2018年03月28日 6時23分 (#3383605)

国内クソ業者に頼むより大連の業者に直接頼んだほうが安上がりってことだよな？
やっぱり自由貿易がいいってアダム・スミスも坂本龍馬も言ってたよ
- Re:国内クソ業者より (スコア:1)
  
  by Anonymous Cowarb (41551) on 2018年03月28日 8時09分 (#3383644) 日記
  
  世の常として安い物には訳が。
  デジタルデータで暗号化されてない住所録。
  年金支払対象者
  のリストて一件いくらぐらいで売れるのかな。
  
  シェア
  
  親コメント
OCRをやるかどうかはさておき (スコア:0)

by Anonymous Coward on 2018年03月27日 17時51分 (#3383312)

データエントリーでも書類全部スキャンして定形フォームで画面見ながら入力するのが普通じゃないんですかね。
＃　あの業界から離れて10年位になるのでAC
- Re: (スコア:0)
  
  by Anonymous Coward
  
  大丈夫だ、私なんか30年以上だから
- Re: (スコア:0)
  
  by Anonymous Coward
  
  たぶんOCRや機械認識でやるのをスキャナーと表現しているだけじゃね
  しょせんはその程度のリテラシの人間がコントロールしてるって事かと
  流石に手書きの文書の現物をハンドリングしているわけないよ
  それだけでどんだけの物量になるかと。
  ペラペラの特殊用紙使っても7トンとかになるぜ。
  ないない。
  ないよね？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  紙の書類共有はリスクがあるから「普通」はそうするはずです。
  契約でスキャン不可というところもあります。
  だからうちはカメラで撮影して、スキャナで取り込みはしていません（マテ
  というか今どきのスキャナは投票集計などの大掛かりなものを除けば
  進化が止まっているので、カメラ撮影のほうが速度上も優れているかもしれません。
  アフィン変換などで歪み補正するといいかんじ。
そもそも2人1組手入力なら間違っててもいい契約なの？ (スコア:0)

by Anonymous Coward on 2018年03月27日 17時57分 (#3383317)

「誤入力はN件以下」みたいに縛って結果出せなきゃ支払いもなしって契約じゃないんだ
そりゃ適当なモンしか納品されねぇだろ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  誰が誤入力を発見して指摘するのか……誰が素直に誤入力しましたと言うのか……。
  むしろ2人目に、誤入力発見数ノルマを課した方が良さそう。
  まあどんな契約をしたところで、守られないんだから意味ないけれど。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    不良率は3個/10000個という条件で日本に発注したら、10000個の納品物とは別に3個の不良部品が丁寧に梱包されて納品されたという民族性ジョークみたいな感じで
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それだと3個/10003個になってしまう。
      不良率で言うと0.03000%が0.02999%に、
      日本人はそんないい加減な仕事はしない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ノーチェックでデータ提出とか、完全にナメられてる感あるねｗ
  - - Re:そもそも2人1組手入力なら間違っててもいい契約なの？ (スコア:1)
      
      by Anonymous Coward on 2018年03月27日 22時38分 (#3383503)
      
      大抵のチャイナはこの程度
      元記事には「中国の業者が行った作業には入力ミスなどは無かったとのこと。」とありますが？
      
      シェア
      
      親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「誤入力はN件以下」かどうかを判定するには全数チェックが必要なのですが、その辺のコスト構造などについての考察をプリーズ
  - Re:そもそも2人1組手入力なら間違っててもいい契約なの？ (スコア:2)
    
    by nnnhhh (47970) on 2018年03月27日 19時12分 (#3383377) 日記
    
    やるとすりゃ別会社に発注じゃないですかねぇ
    効率いい気はしないなぁ
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    正しく読み取るのが困難なダミーデータを混ぜておいて、そいつの誤答数に応じてペナルティを与えるとか
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    サンプリングって言葉も知らんのか。
    だいたいの誤入力数は推定値出せるよ。
勝手な推察だが (スコア:0, 荒らし)

by Anonymous Coward on 2018年03月27日 18時09分 (#3383326)

ミス排除のために人力入力が入札のじょうけんだったんじゃないかな
んでそんな時代錯誤なコストを掛けられるのはこの業者だけで落札
正直発注側との癒着もあったんじゃないの
- Re:勝手な推察だが (スコア:1)
  
  by Anonymous Coward on 2018年03月27日 18時39分 (#3383350)
  
  正直発注側との癒着もあったんじゃないの
  無茶な安値だから、という理由で他の業者に頼んだら、それこそ問題になるでしょうに。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  この業者しか実質無理だったというのは記者会見や記事でもあったと思う。
OCRはもっと普及発展すべき (スコア:0)

by Anonymous Coward on 2018年03月27日 18時12分 (#3383328)

ペーパーレス化のためには最重要なものだと思う
むしろ使用を推奨すべきじゃね
- Re: (スコア:0)
  
  by Anonymous Coward
  
  過去の記録はともかくとして、紙で申請したのを業者が電子化って手順がおかしいんだよ。昭和か！
あそこに金融機関並みの (スコア:0)

by Anonymous Coward on 2018年03月27日 18時16分 (#3383334)

あそこに金融機関並みのコンプラとシステムを期待するのは
間違ってるのでしょうか。
カネを扱っているんですよね?
いっそどこかのメガバンクにまるまる委託しちまえばいいのに
ニュース見て (スコア:0)

by Anonymous Coward on 2018年03月27日 19時02分 (#3383370)

最初から末端の方で専用ソフト等で入力していれば
こんな自体にならなかったのではと
申請者が紙に書くのは良いが
それをそのまま送って入力を委託するって
無駄とは言わないが、それなら末端で最初からデータ入力して電子データとして扱えれば
幾らか楽ではと
あっちこっちから大量に紙媒体で集めれば入力する労力も相当だろうに
最初からフォーマットが決まってる電子データで送れば手続きを自動化出来ますし
そういうことが出来ない理由って何ですかね・・・
- Re:ニュース見て (スコア:1)
  
  by acountname (43053) on 2018年03月27日 19時23分 (#3383383) 日記
  
  電子データだと「なべ」が足りないのかも知れません。
  渡る世間はナベばかり [livedoor.com]
  このゲームに使ったフォントは一番多く「なべ」があったものだそうですが、すべての「なべ」が有った訳ではないとか。
  結局、漢字は手書きの画像ファイルになってしまうかも。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    「IVD 2017-12-12 Moji_Johoコレクション」に登録されているものだけでも27文字あったんだったかな？
  - 異体字廃止強制 (スコア:0)
    
    by Anonymous Coward
    
    異体字は、そもそも、手書きであったことによる1)誤字、2)造字が基本だからすべて廃止してしまえという強硬論者もいるようです。
    - Re:異体字廃止強制 (スコア:2)
      
      by nnnhhh (47970) on 2018年03月27日 20時18分 (#3383427) 日記
      
      手書きでどう書こうが自由
      政府の書類に載ってるのは共通文字
      じゃダメなんかねこういうの
      何ぼ政府がフォントを用意しても個別の端末にはどうせ足りないんじゃないの
      
      シェア
      
      親コメント
      - Re:異体字廃止強制 (スコア:3)
        
        by nnnhhh (47970) on 2018年03月28日 10時34分 (#3383750) 日記
        
        「コンピュータに都合がいい」んじゃなくて「整理しやすくなって人間に都合がいい」んですが、
        コンピュータがそんなに怖いんでしょうか…
        それはそれとして、登録できないぐらいでへにょるようなことならそこまでこだわるコタ無いんじゃないすかね?
        どうせ書き間違いや無知が元になったものにそんなにコストて欲しくないですな。
        建前の大事な方向けには「正字はこっち」という事で別添でビットマップぐらい用意してもいいかな
        
        シェア
        
        親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    もう、「わたなべ」さんは全て「渡辺」で処理するようにすれば良いのに。
    それだと余りに乱暴すぎるというのなら
    戸籍名の異体字を通常の漢字で置き換えた、行政処理用の名前を紐づけて
    そっちを使って行政処理するようにすれば良いと思う。
    - Re:ニュース見て (スコア:1)
      
      by Anonymous Coward on 2018年03月27日 20時57分 (#3383449)
      
      > 行政処理用の名前
      マイナンバーでええやん
      NO.6さんの本当の名前が何だって行政処理上はどうでもいいことでしょ…
      
      シェア
      
      親コメント
      - Re:ニュース見て (スコア:1)
        
        by nekopon (1483) on 2018年03月27日 21時02分 (#3383453) 日記
        
        「私を番号で呼ぶな!」
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        じゃ、あなたは存在しないことしますでFA。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ではと
問題は３つ (スコア:0)

by Anonymous Coward on 2018年03月27日 20時03分 (#3383413)

仮にも個人情報であり国民の生活に直結する金銭的データであるからして
外注するのは良いとしても、年金機構が発注元としての義務をしっかりと果たしていたか？
という点が非常に気になります。
１、外注における外注先の平常業務の定期的あるいは抜き打ちの視察のようなものは行われていたか
２、外注の成果物に対する検査、サンプリング調査などは行われていたか
３、著しくミスの多い成果物は、その具体的なS/N比などを明記し受け入れ拒否できるような契約になっていたか。
野党もマスコミも、財務省の書き換えより、こっちのほうがよほど重大ニュースなので
この件をもっと取り上げてほしい
ってかなんでこの業者デキンにならんのん？ (スコア:0)

by Anonymous Coward on 2018年03月27日 20時11分 (#3383419)

この手の不祥事を起こすと、例え業務がその業者にしかわからん内容になってたも
入れ替えされるのがふつうなのに、、、
- Re:そもそも漢字がわからない問題 (スコア:1)
  
  by Anonymous Coward on 2018年03月28日 12時10分 (#3383810)
  
  読める必要ある?
  四月朔日さんとか一二三さんとか読めなくても入力するのに別に支障はないでしょ
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

やはり (スコア:1, おもしろおかしい)

Re: (スコア:0)

Re: (スコア:0)

OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:3, 参考になる)

Re:OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:2)

Re:OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:2)

Re:OCR って取り残されている？ (スコア:1)

かなり進んでいる (スコア:2, 参考になる)

Re:かなり進んでいる (スコア:1)

Re:かなり進んでいる (スコア:1)

国内クソ業者より (スコア:1)

Re:国内クソ業者より (スコア:1)

OCRをやるかどうかはさておき (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

そもそも2人1組手入力なら間違っててもいい契約なの？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:そもそも2人1組手入力なら間違っててもいい契約なの？ (スコア:1)

Re: (スコア:0)

Re:そもそも2人1組手入力なら間違っててもいい契約なの？ (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

勝手な推察だが (スコア:0, 荒らし)

Re:勝手な推察だが (スコア:1)

Re: (スコア:0)

OCRはもっと普及発展すべき (スコア:0)

Re: (スコア:0)

あそこに金融機関並みの (スコア:0)

ニュース見て (スコア:0)

Re:ニュース見て (スコア:1)

Re: (スコア:0)

異体字廃止強制 (スコア:0)

Re:異体字廃止強制 (スコア:2)

Re:異体字廃止強制 (スコア:3)

Re: (スコア:0)

Re:ニュース見て (スコア:1)

Re:ニュース見て (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

問題は３つ (スコア:0)

ってかなんでこの業者デキンにならんのん？ (スコア:0)

Re:そもそも漢字がわからない問題 (スコア:1)