中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に 75
ストーリー by hylom
特化したOCRを作れば精度は上がりそうではある 部門より
特化したOCRを作れば精度は上がりそうではある 部門より
先日「日本年金機構から入力業務を委託されていた業者、契約で禁止されていたにも関わらず中国の業者に再委託」という話題があったが、この業者がスキャナーとOCRを使ってデータ入力を行っていたことが話題になっている(読売新聞)。
契約では「2人1組で手入力」となっていたが、実際にはスキャナとOCRでデータの電子化を行っていたという。誤認識されたデータは修正されていなかったそうだ。
これに対し、スキャナを利用することについての是非が議論になっている(Togetterまとめ、はてなブックマーク)。
やはり (スコア:1, おもしろおかしい)
スキャナーに生きがいはないのですね
らじゃったのだ
Re: (スコア:0)
日本年金機構と言わせたいだけでしょ
Re: (スコア:0)
だから暗闇でスキャナー使うなとあれほど
#苦しいかw
OCR って取り残されている? (スコア:1)
CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが、
OCR ってまだ役に立つレベルじゃないのかしら?
この業者が使っているソフトが古すぎなのか。
Re:OCR って取り残されている? (スコア:3, 参考になる)
CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが
こういうのが10件に1件ぐらいエラー画像を吐き出しても「あはは、うまく行かないこともあるかー」で終わるが、事務処理だと誤認率10%とか役立たずの屑でしかないから。
そして人間の認識力は、(よほど訓練を積んだ人でない限り)「10個に1個ぐらいランダムで混ざるOCRの誤認識」を適切に見つけ出せるほどセンシィティブじゃない。
だから画像データから人間に手入力させたほうが、効率と精度のバランスは圧倒的にOCRに勝る。
郵便番号と都道府県+市区町村みたいにある程度の対比が取れるものなら、専用にOCRをチューニングすれば多少はいけるかもしれないが、人名とかはまず無理。
Re:OCR って取り残されている? (スコア:1)
そうですね。文脈からの類推って大きいんですが、人名はそれが無理ですね。
Re:OCR って取り残されている? (スコア:2)
多分、年金データは元が手書き。
人間の場合は、読めなかったら相談するんだけど、OCRは「読めたこと」にすることが多いからねぇ。
Re:OCR って取り残されている? (スコア:1)
“正認識率”を上げるために「認識不能」の閾値を甘くしてると、ある程度“誤認識”は出てくるからなぁ
“誤認識率”を下げるためにはその数倍の「認識不能率」を許容しなきゃだし
というか、ユーザーサイドでそのへんの調節ができる手書きOCRってあるのかなぁ?
Re:OCR って取り残されている? (スコア:1)
なるほど。でもAIの最高人材があれば
今なら手書きだって、かなり解釈しそうな勢い・・・。
汚い字でも人間だと読めますものねー。
くせ字を学習したり、なんか類推するのだろう。
Re:OCR って取り残されている? (スコア:2)
手書き文字のdeep learningって人間はこの画像はこう読んだよってデータを積み重ねることだよね。
この業者が「中国で」作ったリスト(ちゃんと人間が読んだやつ)はいいデータだな。
ま、他で利用したらシャレになんないデータだけどね。
Re:OCR って取り残されている? (スコア:1)
かなり進んでいる (スコア:2, 参考になる)
> OCR ってまだ役に立つレベルじゃないのかしら
一番わかりやすいのは、古文書のくずし字の読み取りかな。これはすでにかなりのレベルに到達している [mynavi.jp]。
これに限らず、ディープラーニングのOCRへの適用は流行していて、「OCR ディープラーニング」でググれば、商用・研究とりまぜて無数にヒットします。認識率は、(現代の)手書きの漢字・ひらがな・カタカナで90%超は軽々といくみたい。
Re:かなり進んでいる (スコア:1)
9割って、名前だけでもニ、三人に一人間違うわけじゃん。
Re:かなり進んでいる (スコア:1)
情報ありがとうございます。ググってみますね。
国内クソ業者より (スコア:1)
国内クソ業者に頼むより大連の業者に直接頼んだほうが安上がりってことだよな?
やっぱり自由貿易がいいってアダム・スミスも坂本龍馬も言ってたよ
Re:国内クソ業者より (スコア:1)
世の常として安い物には訳が。
デジタルデータで暗号化されてない住所録。
年金支払対象者
のリストて一件いくらぐらいで売れるのかな。
OCRをやるかどうかはさておき (スコア:0)
データエントリーでも書類全部スキャンして定形フォームで画面見ながら入力するのが普通じゃないんですかね。
# あの業界から離れて10年位になるのでAC
Re: (スコア:0)
Re: (スコア:0)
たぶんOCRや機械認識でやるのをスキャナーと表現しているだけじゃね
しょせんはその程度のリテラシの人間がコントロールしてるって事かと
流石に手書きの文書の現物をハンドリングしているわけないよ
それだけでどんだけの物量になるかと。
ペラペラの特殊用紙使っても7トンとかになるぜ。
ないない。
ないよね?
Re: (スコア:0)
紙の書類共有はリスクがあるから「普通」はそうするはずです。
契約でスキャン不可というところもあります。
だからうちはカメラで撮影して、スキャナで取り込みはしていません(マテ
というか今どきのスキャナは投票集計などの大掛かりなものを除けば
進化が止まっているので、カメラ撮影のほうが速度上も優れているかもしれません。
アフィン変換などで歪み補正するといいかんじ。
そもそも2人1組手入力なら間違っててもいい契約なの? (スコア:0)
そりゃ適当なモンしか納品されねぇだろ
Re: (スコア:0)
誰が誤入力を発見して指摘するのか……誰が素直に誤入力しましたと言うのか……。
むしろ2人目に、誤入力発見数ノルマを課した方が良さそう。
まあどんな契約をしたところで、守られないんだから意味ないけれど。
Re: (スコア:0)
Re: (スコア:0)
それだと3個/10003個になってしまう。
不良率で言うと0.03000%が0.02999%に、
日本人はそんないい加減な仕事はしない。
Re: (スコア:0)
ノーチェックでデータ提出とか、完全にナメられてる感あるねw
Re:そもそも2人1組手入力なら間違っててもいい契約なの? (スコア:1)
大抵のチャイナはこの程度
元記事には「中国の業者が行った作業には入力ミスなどは無かったとのこと。 」とありますが?
Re: (スコア:0)
「誤入力はN件以下」かどうかを判定するには全数チェックが必要なのですが、その辺のコスト構造などについての考察をプリーズ
Re:そもそも2人1組手入力なら間違っててもいい契約なの? (スコア:2)
やるとすりゃ別会社に発注じゃないですかねぇ
効率いい気はしないなぁ
Re: (スコア:0)
正しく読み取るのが困難なダミーデータを混ぜておいて、そいつの誤答数に応じてペナルティを与えるとか
Re: (スコア:0)
サンプリングって言葉も知らんのか。
だいたいの誤入力数は推定値出せるよ。
勝手な推察だが (スコア:0, 荒らし)
ミス排除のために人力入力が入札のじょうけんだったんじゃないかな
んでそんな時代錯誤なコストを掛けられるのはこの業者だけで落札
正直発注側との癒着もあったんじゃないの
Re:勝手な推察だが (スコア:1)
正直発注側との癒着もあったんじゃないの
無茶な安値だから、という理由で他の業者に頼んだら、それこそ問題になるでしょうに。
Re: (スコア:0)
この業者しか実質無理だったというのは記者会見や記事でもあったと思う。
OCRはもっと普及発展すべき (スコア:0)
ペーパーレス化のためには最重要なものだと思う
むしろ使用を推奨すべきじゃね
Re: (スコア:0)
過去の記録はともかくとして、紙で申請したのを業者が電子化って手順がおかしいんだよ。 昭和か!
あそこに金融機関並みの (スコア:0)
あそこに金融機関並みのコンプラとシステムを期待するのは
間違ってるのでしょうか。
カネを扱っているんですよね?
いっそどこかのメガバンクにまるまる委託しちまえばいいのに
ニュース見て (スコア:0)
最初から末端の方で専用ソフト等で入力していれば
こんな自体にならなかったのではと
申請者が紙に書くのは良いが
それをそのまま送って入力を委託するって
無駄とは言わないが、それなら末端で最初からデータ入力して電子データとして扱えれば
幾らか楽ではと
あっちこっちから大量に紙媒体で集めれば入力する労力も相当だろうに
最初からフォーマットが決まってる電子データで送れば手続きを自動化出来ますし
そういうことが出来ない理由って何ですかね・・・
Re:ニュース見て (スコア:1)
電子データだと「なべ」が足りないのかも知れません。
渡る世間はナベばかり [livedoor.com]
このゲームに使ったフォントは一番多く「なべ」があったものだそうですが、すべての「なべ」が有った訳ではないとか。
結局、漢字は手書きの画像ファイルになってしまうかも。
Re: (スコア:0)
「IVD 2017-12-12 Moji_Johoコレクション」に登録されているものだけでも27文字あったんだったかな?
異体字廃止強制 (スコア:0)
異体字は、そもそも、手書きであったことによる1)誤字、2)造字が基本だからすべて廃止してしまえという強硬論者もいるようです。
Re:異体字廃止強制 (スコア:2)
手書きでどう書こうが自由
政府の書類に載ってるのは共通文字
じゃダメなんかねこういうの
何ぼ政府がフォントを用意しても個別の端末にはどうせ足りないんじゃないの
Re:異体字廃止強制 (スコア:3)
「コンピュータに都合がいい」んじゃなくて「整理しやすくなって人間に都合がいい」んですが、
コンピュータがそんなに怖いんでしょうか…
それはそれとして、登録できないぐらいでへにょるようなことならそこまでこだわるコタ無いんじゃないすかね?
どうせ書き間違いや無知が元になったものにそんなにコストて欲しくないですな。
建前の大事な方向けには「正字はこっち」という事で別添でビットマップぐらい用意してもいいかな
Re: (スコア:0)
もう、「わたなべ」さんは全て「渡辺」で処理するようにすれば良いのに。
それだと余りに乱暴すぎるというのなら
戸籍名の異体字を通常の漢字で置き換えた、行政処理用の名前を紐づけて
そっちを使って行政処理するようにすれば良いと思う。
Re:ニュース見て (スコア:1)
マイナンバーでええやん
NO.6さんの本当の名前が何だって行政処理上はどうでもいいことでしょ…
Re:ニュース見て (スコア:1)
Re: (スコア:0)
じゃ、あなたは存在しないことしますでFA。
Re: (スコア:0)
ではと
問題は3つ (スコア:0)
仮にも個人情報であり国民の生活に直結する金銭的データであるからして
外注するのは良いとしても、年金機構が発注元としての義務をしっかりと果たしていたか?
という点が非常に気になります。
1、外注における外注先の平常業務の定期的あるいは抜き打ちの視察のようなものは行われていたか
2、外注の成果物に対する検査、サンプリング調査などは行われていたか
3、著しくミスの多い成果物は、その具体的なS/N比などを明記し受け入れ拒否できるような契約になっていたか。
野党もマスコミも、財務省の書き換えより、こっちのほうがよほど重大ニュースなので
この件をもっと取り上げてほしい
ってかなんでこの業者デキンにならんのん? (スコア:0)
この手の不祥事を起こすと、例え業務がその業者にしかわからん内容になってたも
入れ替えされるのがふつうなのに、、、
Re:そもそも漢字がわからない問題 (スコア:1)
四月朔日さんとか一二三さんとか読めなくても入力するのに別に支障はないでしょ