パスワードを忘れた? アカウント作成
13561337 story
入力デバイス

中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に 75

ストーリー by hylom
特化したOCRを作れば精度は上がりそうではある 部門より

先日「日本年金機構から入力業務を委託されていた業者、契約で禁止されていたにも関わらず中国の業者に再委託」という話題があったが、この業者がスキャナーとOCRを使ってデータ入力を行っていたことが話題になっている(読売新聞)。

契約では「2人1組で手入力」となっていたが、実際にはスキャナとOCRでデータの電子化を行っていたという。誤認識されたデータは修正されていなかったそうだ。

これに対し、スキャナを利用することについての是非が議論になっている(Togetterまとめはてなブックマーク)。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • やはり (スコア:1, おもしろおかしい)

    by PEEK (27419) on 2018年03月27日 17時27分 (#3383300) 日記

    スキャナーに生きがいはないのですね

    --
    らじゃったのだ
    • by Anonymous Coward

      日本年金機構と言わせたいだけでしょ

    • by Anonymous Coward

      だから暗闇でスキャナー使うなとあれほど
      #苦しいかw

  • CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが、

    OCR ってまだ役に立つレベルじゃないのかしら?
    この業者が使っているソフトが古すぎなのか。

    • by Anonymous Coward on 2018年03月27日 18時46分 (#3383359)

      CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが

      こういうのが10件に1件ぐらいエラー画像を吐き出しても「あはは、うまく行かないこともあるかー」で終わるが、事務処理だと誤認率10%とか役立たずの屑でしかないから。

      そして人間の認識力は、(よほど訓練を積んだ人でない限り)「10個に1個ぐらいランダムで混ざるOCRの誤認識」を適切に見つけ出せるほどセンシィティブじゃない。
      だから画像データから人間に手入力させたほうが、効率と精度のバランスは圧倒的にOCRに勝る。

      郵便番号と都道府県+市区町村みたいにある程度の対比が取れるものなら、専用にOCRをチューニングすれば多少はいけるかもしれないが、人名とかはまず無理。

      親コメント
    • 多分、年金データは元が手書き。

      人間の場合は、読めなかったら相談するんだけど、OCRは「読めたこと」にすることが多いからねぇ。

      親コメント
    • by Anonymous Coward on 2018年03月27日 18時43分 (#3383354)

      > OCR ってまだ役に立つレベルじゃないのかしら
      一番わかりやすいのは、古文書のくずし字の読み取りかな。これはすでにかなりのレベルに到達している [mynavi.jp]。

      これに限らず、ディープラーニングのOCRへの適用は流行していて、「OCR ディープラーニング」でググれば、商用・研究とりまぜて無数にヒットします。認識率は、(現代の)手書きの漢字・ひらがな・カタカナで90%超は軽々といくみたい。

      親コメント
  • by Anonymous Coward on 2018年03月28日 6時23分 (#3383605)

    国内クソ業者に頼むより大連の業者に直接頼んだほうが安上がりってことだよな?
    やっぱり自由貿易がいいってアダム・スミスも坂本龍馬も言ってたよ

  • by Anonymous Coward on 2018年03月27日 17時51分 (#3383312)

    データエントリーでも書類全部スキャンして定形フォームで画面見ながら入力するのが普通じゃないんですかね。

    # あの業界から離れて10年位になるのでAC

    • by Anonymous Coward
      大丈夫だ、私なんか30年以上だから
    • by Anonymous Coward

      たぶんOCRや機械認識でやるのをスキャナーと表現しているだけじゃね
      しょせんはその程度のリテラシの人間がコントロールしてるって事かと

      流石に手書きの文書の現物をハンドリングしているわけないよ
      それだけでどんだけの物量になるかと。
      ペラペラの特殊用紙使っても7トンとかになるぜ。

      ないない。

      ないよね?

    • by Anonymous Coward

      紙の書類共有はリスクがあるから「普通」はそうするはずです。
      契約でスキャン不可というところもあります。

      だからうちはカメラで撮影して、スキャナで取り込みはしていません(マテ
      というか今どきのスキャナは投票集計などの大掛かりなものを除けば
      進化が止まっているので、カメラ撮影のほうが速度上も優れているかもしれません。

      アフィン変換などで歪み補正するといいかんじ。

  • 「誤入力はN件以下」みたいに縛って結果出せなきゃ支払いもなしって契約じゃないんだ
    そりゃ適当なモンしか納品されねぇだろ
    • by Anonymous Coward

      誰が誤入力を発見して指摘するのか……誰が素直に誤入力しましたと言うのか……。
      むしろ2人目に、誤入力発見数ノルマを課した方が良さそう。

      まあどんな契約をしたところで、守られないんだから意味ないけれど。

      • by Anonymous Coward
        不良率は3個/10000個という条件で日本に発注したら、10000個の納品物とは別に3個の不良部品が丁寧に梱包されて納品されたという民族性ジョークみたいな感じで
        • by Anonymous Coward

          それだと3個/10003個になってしまう。
          不良率で言うと0.03000%が0.02999%に、
          日本人はそんないい加減な仕事はしない。

    • by Anonymous Coward

      ノーチェックでデータ提出とか、完全にナメられてる感あるねw

    • by Anonymous Coward

      「誤入力はN件以下」かどうかを判定するには全数チェックが必要なのですが、その辺のコスト構造などについての考察をプリーズ

  • by Anonymous Coward on 2018年03月27日 18時09分 (#3383326)

    ミス排除のために人力入力が入札のじょうけんだったんじゃないかな
    んでそんな時代錯誤なコストを掛けられるのはこの業者だけで落札
    正直発注側との癒着もあったんじゃないの

    • by Anonymous Coward on 2018年03月27日 18時39分 (#3383350)

      正直発注側との癒着もあったんじゃないの

      無茶な安値だから、という理由で他の業者に頼んだら、それこそ問題になるでしょうに。

      親コメント
    • by Anonymous Coward

      この業者しか実質無理だったというのは記者会見や記事でもあったと思う。

  • by Anonymous Coward on 2018年03月27日 18時12分 (#3383328)

    ペーパーレス化のためには最重要なものだと思う
    むしろ使用を推奨すべきじゃね

    • by Anonymous Coward

      過去の記録はともかくとして、紙で申請したのを業者が電子化って手順がおかしいんだよ。 昭和か!

  • by Anonymous Coward on 2018年03月27日 18時16分 (#3383334)

    あそこに金融機関並みのコンプラとシステムを期待するのは
    間違ってるのでしょうか。
    カネを扱っているんですよね?
    いっそどこかのメガバンクにまるまる委託しちまえばいいのに

  • by Anonymous Coward on 2018年03月27日 19時02分 (#3383370)

    最初から末端の方で専用ソフト等で入力していれば
    こんな自体にならなかったのではと
    申請者が紙に書くのは良いが
    それをそのまま送って入力を委託するって
    無駄とは言わないが、それなら末端で最初からデータ入力して電子データとして扱えれば
    幾らか楽ではと
    あっちこっちから大量に紙媒体で集めれば入力する労力も相当だろうに

    最初からフォーマットが決まってる電子データで送れば手続きを自動化出来ますし
    そういうことが出来ない理由って何ですかね・・・

    • by acountname (43053) on 2018年03月27日 19時23分 (#3383383) 日記

      電子データだと「なべ」が足りないのかも知れません。
      渡る世間はナベばかり [livedoor.com]
      このゲームに使ったフォントは一番多く「なべ」があったものだそうですが、すべての「なべ」が有った訳ではないとか。

      結局、漢字は手書きの画像ファイルになってしまうかも。

      親コメント
      • by Anonymous Coward

        「IVD 2017-12-12 Moji_Johoコレクション」に登録されているものだけでも27文字あったんだったかな?

      • by Anonymous Coward

        異体字は、そもそも、手書きであったことによる1)誤字、2)造字が基本だからすべて廃止してしまえという強硬論者もいるようです。

        • by nnnhhh (47970) on 2018年03月27日 20時18分 (#3383427) 日記

          手書きでどう書こうが自由
          政府の書類に載ってるのは共通文字

          じゃダメなんかねこういうの
          何ぼ政府がフォントを用意しても個別の端末にはどうせ足りないんじゃないの

          親コメント
      • by Anonymous Coward

        もう、「わたなべ」さんは全て「渡辺」で処理するようにすれば良いのに。

        それだと余りに乱暴すぎるというのなら
        戸籍名の異体字を通常の漢字で置き換えた、行政処理用の名前を紐づけて
        そっちを使って行政処理するようにすれば良いと思う。

    • by Anonymous Coward

      ではと

  • by Anonymous Coward on 2018年03月27日 20時03分 (#3383413)

    仮にも個人情報であり国民の生活に直結する金銭的データであるからして
    外注するのは良いとしても、年金機構が発注元としての義務をしっかりと果たしていたか?
    という点が非常に気になります。

    1、外注における外注先の平常業務の定期的あるいは抜き打ちの視察のようなものは行われていたか
    2、外注の成果物に対する検査、サンプリング調査などは行われていたか
    3、著しくミスの多い成果物は、その具体的なS/N比などを明記し受け入れ拒否できるような契約になっていたか。

    野党もマスコミも、財務省の書き換えより、こっちのほうがよほど重大ニュースなので
    この件をもっと取り上げてほしい

  • by Anonymous Coward on 2018年03月27日 20時11分 (#3383419)

    この手の不祥事を起こすと、例え業務がその業者にしかわからん内容になってたも
    入れ替えされるのがふつうなのに、、、

typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...