パスワードを忘れた? アカウント作成
3124614 story
入力デバイス

Microsoft、PC 内蔵のスピーカー&マイクだけでジェスチャー検知する技術を完成 37

ストーリー by reo
何をしてるかお見通し 部門より

taraiok 曰く、

Microsoft Research は、Washington 大学と協力して、潜水艦のソナーと同様の方法で、物体検出やジェスチャー認識を行う技術を開発した。この技術では同社のゲーム用のジェスチャーセンサーである Kinect は使用せず、PC に内蔵されたマイクとスピーカーだけで物体認識が可能だという (EXTREME TECH の記事本家 /. 記事より) 。

このサウンドウェーブと呼ばれる新技術では、音質が距離によって変化するドップラー効果を使用する。具体的には、コンピュータの内蔵スピーカーから 18 〜 22 KHz の音波を出し、人物の手や体の動きで変化する音をマイクで拾い、その差分によってジェスチャーを検知する仕組み。

このシステムの利点はハードウェアの追加が不要なことだがその半面、ひと組のスピーカーとマイクだけで検知するので Kinect などのような精度の高い 3D センシングは出来ない。それでも手の上げ下げで画面スクロールしたり、左右に手をはたくだけで横スクロールなどを行うことは十分に可能だ。暗騒音の多い室内環境でも 90 〜 100 % の精度でジェスチャーを検知するとしている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • ハードウェアは得意 (スコア:4, すばらしい洞察)

    by mhexanon (16193) on 2012年05月10日 12時21分 (#2150405) 日記

    マイクロソフトって、ハードウェアに関しては良い仕事しますね。
    今回は解析ソフトがキモなんでしょうけど、まあハードウェア
    絡みってことで。

    • Re:ハードウェアは得意 (スコア:5, すばらしい洞察)

      by Anonymous Coward on 2012年05月10日 12時31分 (#2150415)

      これは完全にソフトの話でしょう。
      > このシステムの利点はハードウェアの追加が不要なこと

      なんだから。
      入出力信号の解析に関するお話かと。

      親コメント
    • by Anonymous Coward

      MSの基礎研究部門はたまに良い仕事をしますよね。

  • 混雑 (スコア:2, 興味深い)

    by Anonymous Coward on 2012年05月10日 11時30分 (#2150367)

    この手のシステムが普及したりすると隣のマシンの出してる探査用音波と干渉して結局使えないとかならないんでしょうか?
    また、偽の信号を流されて邪魔されたりとか。

    #教えてエロい人!

  • by Limbodot (42869) on 2012年05月10日 11時59分 (#2150387) 日記

    防犯目的では昔からありますが、これはソフトと併せて人体のスケルトンを把握できるんでしょうか。
    人体とそれ以外、もしくは操作者本人とそれ以外の人を区別できないとウーンな気も。
    何より赤外線照射を敢えて捨てることにはどんな理由があるんだろう。
    そんなにコスト変わる時代とも思えないけど。

    • by YF19 (12943) on 2012年05月10日 15時04分 (#2150527) 日記
      >何より赤外線照射を敢えて捨てることにはどんな理由があるんだろう。

      既存のハードウェアをそのまま流用出来るというのは大きいかもしれませんね。

      iPhoneの音声認識機能のSiriはiPhone4S以降が必要ですが、それが既存の3Sや4で動かせるのと同じようなものかと?

      #たとえがおかしいとは思いますが(苦笑)
      親コメント
    • by Anonymous Coward

      ジェスチャーの取り込み程度のお話で、認識の為の基礎技術の一つ。
      という訳で、最低コストなら赤外線なんか使わないだろうし、場合に拠っては併用して更に高精度にって使い方もするでしょう。
      kinectとは別の話ですよね。
      別に赤外線を捨てるって意味でも無いでしょうし、そもそも赤外線センサー内蔵のPCって見たことが無いですし。

      Sonyや富士通がタブレットでジェスチャーコントロールしている様なのが、カメラ無しの普通のノートPCにも入れられるかもって所でしょう。

  • by soltiox (25610) on 2012年05月10日 12時50分 (#2150431) 日記

    これまでは、コンピュータの操作が上手いこといかない時には、
    頭をかきむしったり、キーボードに八つ当たりとかしてきたけど、
    これからは、コンソールの前で延々と謎の踊りを繰り返すことになるのか

    胸が厚くなるな!

    • by SteppingWind (2654) on 2012年05月10日 13時03分 (#2150440)

      胸が厚くなるな!

      パワーリスト着用で効果倍増.

      # 肩の筋肉の方が効果がありそう

      親コメント
    • by Anonymous Coward on 2012年05月10日 15時27分 (#2150535)

      これからは、コンソールの前で延々と謎の踊りを繰り返すことになるのか

      soltioxはふしぎなおどりをおどった!
      コンピュータはこんらんした!
      コンピュータはこんらんしている…

      コマンド?

      # *** 戦闘終了後 ***
      # soltioxはレベルがあがった!
      # soltioxのむねが1あつくなった
      # soltioxのむねが1あつくなった
      # soltioxのむねが1あつくなった

      親コメント
    • by Anonymous Coward

      タイトルだけ見てバルマーの話かと思ってしまった。
      MSネタだし。

    • by Anonymous Coward

      ないないノシ

      #「了解。システムを終了します」「え?」

  • PCだとマイクまでそろえない人もいるから、
    やるとしたらスマフォかな。

    不用意に音楽の流れ出すサイトが増えるかもかも。

    • by Anonymous Coward

      ノートパソコンだと、マイクどころかカメラまで付いているものもありますから、本気で閲覧者の性別&容姿判定できる可能性があります。

      #Skypeにセキュリティホールがあったら、やりたい放題?

  • http://www.b-soccer.jp/ [b-soccer.jp]壁があっても靴音とかの変化でわかるというけど。
  • ステレオスピーカーとモノラルマイクを結ぶ平面に直交する方向はどうやって取るんだろう?
    左右にパラで効く成分でわかりそうだけど、マイクがスピーカの中央辺りに配置されていると上か下かの特定はかなりきつい気が。
    動画見た感じでは遠近一軸しかとってないように見える。

    #音質が距離によって変化するドップラー効果って。ぴゅあおーでぃおを釣るネタ?

    • by epgrec (43527) on 2012年05月10日 12時45分 (#2150426)

      左右は、2つのスピーカーから出る音の位相を変えるとか、周波数を変えて
      断続的に出すといった方法で取れそうですけど、上下はぱっと思いつかないですね。
      現物合せでキャリブレーションを行えば、PCの形状とスピーカー、マイクの位置関係
      から上下方向も検出できるかも、でも難しそう。

      # モデリングは出来ないとあるけど、出来るようになったらすごい。というかなんか悪用できそうな
      # 気も。

      親コメント
    • パソコンによって、マイクやスピーカの配置も違うし、
      キャリブレーションはどうするんでしょうかね?
      MSの認証とれた機器でのみサポートとか、
      Kinectみたいに専用デバイスのリリースとかのような気もしますけど

      親コメント
    • by Anonymous Coward on 2012年05月10日 12時02分 (#2150390)

      最近のノートPC(主にWebカメラ内蔵)では、アレイマイク内蔵で、音声もステレオで取れますよ。

      まあ、どちらにしても上下方向に関しては、キーボード面からの反射量の差で検出するとは思いますけど…

      動画見た感じでは遠近一軸しかとってないように見える。

      上下にスクロールしてませんでしたか?

      親コメント
    • by Anonymous Coward

      ドップラー効果を使ってことは、動いてるものだけを検知するの?
      何が検知できるのか、よくわからない。誰かおしえてー

    • by Anonymous Coward

      スピーカーが最下点に位置してるから、上下じゃなく遠近を取ってるだけかもしれませんね。
      ステレオで左右座標、左右座標が同一な遠近を画面上の上下としてるだけかも

    • by Anonymous Coward
      「竿の先端が音速を超えました」の方の動きは検知できそうでしょうか。
    • by Anonymous Coward

      実際に計算してみたら、理論上は意外に単純でした。

      単純化するために、手に音源を付け、マイクに向かって移動させたと仮定すると、20kHzの音源を0.1m/s(=10cm/s≒A4短辺を2秒で移動)で移動させると、5.8Hz上にシフトします。(ドップラー効果)

      5.8Hzの差をFFT等で分析する場合、48kHzでサンプリングして、約8300サンプルあれば識別できます。(実際には16384ポイントかな?)

      聴感上は区別付きにくいかも知れませんが、コンピュータなら識別可能な差になります。

      また、音源&マイク固定で移動体を検出する場合、その移動速度の最大約2倍の周波数シフトが起きますので、より検出しやすくなります。

  • by Anonymous Coward on 2012年05月10日 11時35分 (#2150370)

    腹部超音波検査とかでしょうか。

    赤ちゃんとか肝臓とか膵臓とか。

    • by Anonymous Coward

      潜水艦のソナーって超音波エコー(反射)を見てるだけ
      だからドップラー効果関係ないんじゃないか?

      対速度を測るドップラーレーダーもあることはあるけど。

    • by Anonymous Coward

      イルカやコウモリを思い出しましたよ

  • by Anonymous Coward on 2012年05月10日 11時41分 (#2150372)

    >コンピュータの内蔵スピーカーから 18 〜 22 KHz の音波を出し

    若い人にはこのあたりの周波数は聞こえてしまうんじゃないかな?

  • by Anonymous Coward on 2012年05月10日 11時52分 (#2150381)

    PC「(ピーーーー)」
    犬「ワンワン(うるせぇよ)」
    人「静かにしろよ」

  • by Anonymous Coward on 2012年05月10日 12時02分 (#2150389)

    応用して体型から人物を特定して「ボスがきた」ボタンの自動化ができるかもねー

    • by Anonymous Coward

      そんなことしなくても足音で判別したほうが早いかと・・・
      (あと呼吸音や心音も?)

      #いまの潜水艦のソナーって船のスクリュー音だけで相手を識別できてたはず

      • by Anonymous Coward

        スクリュー音どころか、原子炉を自然対流冷却したときのフローノイズも識別してるといううわさが。

  • by Anonymous Coward on 2012年05月10日 17時23分 (#2150585)

    ハッキングしてPCから高周波を出してそのPCのある室内の状況を確認するとか。
    スパイやハッカーとかが喜んで使いそうな技術だ。
    マイクが2つあれば、もっと正確な情報を得られそう。
    立てこもり現場とかでも使えそうだが、それなら単にPCじゃなく防犯カメラをハッキングすればいいだけだし。

typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...