OCR って取り残されている？ (#3383307) | 中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に

「中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に」記事へのコメント

記事ページを表示すべてのコメント取得

検索75コメント Log In/Create an Account

OCR って取り残されている？ (スコア:1)

by hinatan (24342) on 2018年03月27日 17時43分 (#3383307) 日記

CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のＡＩ技術には感心しきりですが、
OCR ってまだ役に立つレベルじゃないのかしら？
この業者が使っているソフトが古すぎなのか。
- Re:OCR って取り残されている？ (スコア:3, 参考になる)
  
  by Anonymous Coward on 2018年03月27日 18時46分 (#3383359)
  
  CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のＡＩ技術には感心しきりですが
  こういうのが10件に1件ぐらいエラー画像を吐き出しても「あはは、うまく行かないこともあるかー」で終わるが、事務処理だと誤認率10％とか役立たずの屑でしかないから。
  そして人間の認識力は、（よほど訓練を積んだ人でない限り）「10個に1個ぐらいランダムで混ざるOCRの誤認識」を適切に見つけ出せるほどセンシィティブじゃない。
  だから画像データから人間に手入力させたほうが、効率と精度のバランスは圧倒的にOCRに勝る。
  郵便番号と都道府県＋市区町村みたいにある程度の対比が取れるものなら、専用にOCRをチューニングすれば多少はいけるかもしれないが、人名とかはまず無理。
  
  シェア
  
  親コメント
  - Re:OCR って取り残されている？ (スコア:1)
    
    by hinatan (24342) on 2018年03月27日 20時54分 (#3383447) 日記
    
    そうですね。文脈からの類推って大きいんですが、人名はそれが無理ですね。
    
    シェア
    
    親コメント
- Re:OCR って取り残されている？ (スコア:2)
  
  by manmos (29892) on 2018年03月27日 17時49分 (#3383311) 日記
  
  多分、年金データは元が手書き。
  人間の場合は、読めなかったら相談するんだけど、OCRは「読めたこと」にすることが多いからねぇ。
  
  シェア
  
  親コメント
  - Re:OCR って取り残されている？ (スコア:1)
    
    by shige_318 (35387) on 2018年03月27日 18時16分 (#3383333) 日記
    
    “正認識率”を上げるために「認識不能」の閾値を甘くしてると、ある程度“誤認識”は出てくるからなぁ
    “誤認識率”を下げるためにはその数倍の「認識不能率」を許容しなきゃだし
    というか、ユーザーサイドでそのへんの調節ができる手書きOCRってあるのかなぁ?
    
    シェア
    
    親コメント
  - Re:OCR って取り残されている？ (スコア:1)
    
    by hinatan (24342) on 2018年03月27日 18時36分 (#3383347) 日記
    
    なるほど。でもAIの最高人材があれば
    今なら手書きだって、かなり解釈しそうな勢い・・・。
    汚い字でも人間だと読めますものねー。
    くせ字を学習したり、なんか類推するのだろう。
    
    シェア
    
    親コメント
    - Re:OCR って取り残されている？ (スコア:2)
      
      by manmos (29892) on 2018年03月27日 19時04分 (#3383371) 日記
      
      手書き文字のdeep learningって人間はこの画像はこう読んだよってデータを積み重ねることだよね。
      この業者が「中国で」作ったリスト（ちゃんと人間が読んだやつ）はいいデータだな。
      ま、他で利用したらシャレになんないデータだけどね。
      
      シェア
      
      親コメント
      - Re:OCR って取り残されている？ (スコア:1)
        
        by hebereke.na.hito (47696) on 2018年03月28日 12時19分 (#3383816)
        
        日本の漢字のデータって中国語にも応用出来るもんなのかな？まぁ、それでも日本のどこかに売り込むとか出来そうだけど、出自がグレーな奴を買うところってあるんだろうか。
        
        シェア
        
        親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      綺麗な草書体でかかれてれば、手書きでも認識できるようになるかもしれないけど、
      単に汚い字や誤字脱字の類は難しいよ。
      （点や横棒が一個多いとか少ないとか、点を打つ位置がおかしいとか、それこそいくらでも）
      最後は行間を読む仕事になるから、んなもん学習でどうにかなるわけない。
      ＃いるんだよなあ。AIに夢見すぎな人って。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        いやあ、むしろこの手の認識こそ、機械学習が活きてくる分野だと思いますけどね。
        膨大なサンプルデータがあれば、「人間が考える認識方法」を軽く上回ってくることもありうるわけで。
        ただ、こと「日本人の名前」に関しては、文字種が多すぎることの方が問題じゃないかな。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        よくある間違いから生まれた異体字と、同じ間違いを犯した文字はどう区別するのか、て時点で完全な認識はどだい不可能なんですよ。
        崩れすぎた文字から癖を読み解き書こうとしていた文字を復元するとか、人間には難しい部分の補完が出来る可能性はあるけれど、やはり限界がある。
- かなり進んでいる (スコア:2, 参考になる)
  
  by Anonymous Coward on 2018年03月27日 18時43分 (#3383354)
  
  > OCR ってまだ役に立つレベルじゃないのかしら
  一番わかりやすいのは、古文書のくずし字の読み取りかな。これはすでにかなりのレベルに到達している [mynavi.jp]。
  これに限らず、ディープラーニングのOCRへの適用は流行していて、「OCR ディープラーニング」でググれば、商用・研究とりまぜて無数にヒットします。認識率は、（現代の）手書きの漢字・ひらがな・カタカナで90%超は軽々といくみたい。
  
  シェア
  
  親コメント
  - Re:かなり進んでいる (スコア:1)
    
    by Anonymous Coward on 2018年03月27日 19時38分 (#3383391)
    
    9割って、名前だけでもニ、三人に一人間違うわけじゃん。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      活字で90%だとPC用ソフトでも20年前の水準だけど、手書きじゃしょうがないのでは？
      人間だって、崩されて読めないとか、読めてもどの異形字か分からないとかあるだろうし
  - Re:かなり進んでいる (スコア:1)
    
    by hinatan (24342) on 2018年03月27日 20時55分 (#3383448) 日記
    
    情報ありがとうございます。ググってみますね。
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に More ログイン

「中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に」記事へのコメント

OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:3, 参考になる)

Re:OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:2)

Re:OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:1)

Re:OCR って取り残されている？ (スコア:2)

Re:OCR って取り残されている？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

かなり進んでいる (スコア:2, 参考になる)

Re:かなり進んでいる (スコア:1)

Re: (スコア:0)

Re:かなり進んでいる (スコア:1)

スラド