特長・機能

リアルタイムで3D骨格検出

VisionPoseは、赤外線などによる深度センサつきカメラを利用せず、汎用的なWEBカメラのみで深度を加味したリアルタイムな骨格検出が可能です。赤外線による深度センサは、下記のようなデメリットがいくつかありますが、VisionPoseはそれらの課題を解決し、従来では実現が難しかった様々なユースケースへの対応が可能となりました。

また、製品版に同梱されているアプリケーション「VP Analyzer」を利用すると動画・静止画からの骨格検出も開発なしで簡単にお使いいただけます。

赤外線センサ付きカメラによくあるデメリット

  1. 正面の骨格しかとれず、背面を認識すると正面として誤認識してしまう。
  2. 正面から背面へ切り替わるタイミングで左右の逆転が起こり、真横からの視点で骨格が乱れてしまう。
  3. 真上から骨格がとれない。
  4. 赤外線によるDepthマップのみの認識(カラーを使わない)のため、障害物と人の区別がつきづらく、体の一部が隠れたりモノを持つ動作に弱い。
  5. 赤外線のため屋外の認識が難しい。
  6. 赤外線を吸収する服装などに弱い。…など。
  7. ※2018年現在調べ

これらのデメリットをVisionPoseが解決いたします。

VisionPoseを含めた3つの骨格検出システムでリアルタイム検出の精度を比較してみました。 ※精度比較のため、性能差による遅延をなくしてます。

左:既存の深度センサ/右:VisionPose

既存の深度センサ付きカメラでは認識が難しい屋外でのリアルタイム精度比較動画です。

左:既存の深度センサ/右:VisionPose

既存の深度センサ付きカメラとリアルタイムでの骨格検出を比較しました。従来の深度センサ付きカメラでネックだった、クロスの動作や足の検出などに強い傾向があります。

カメラ1台で3D推論!より手軽な
VisionPose Single3D開発中

Single3Dは当社が提供するVisionPoseシリーズの1つであり、WEBカメラとAI(ディープラーニング)を利用して人間の骨格座標を検出するシステムです。 同シリーズのVisionPoseと比べると、カメラ1つで3D座標の検出が可能なため、より手軽な利用が可能です。 カメラ1台しか用意できないケースや、スマートフォンへの搭載時などにオススメです。

<提供方法>
PC版とiOS版をそれぞれSDKとして提供します。

PC版→C#/C++向けのライブラリ
iOS版→Swift向けのライブラリ
※Unityサンプルコードあり

スマートフォンで全身をモーションキャプチャし、3Dキャラクターに反映。カメラ1つで骨格座標を3D解析しています。

骨格検出は30箇所、追加も可能

VisionPoseはデフォルトで体の各部位の関節(25箇所)と顔パーツ(5箇所)の合計30箇所(※VisionPose Single3Dは17箇所)の骨格を検出できます。さらに、お客様のご相談次第で新たに測定箇所の追加も可能です。例えば全ての指の動きや、動物・工業用ロボットの関節など一部に特化した検出ができます。

骨格可視化のためのサンプルソースBodyAndColor

カメラから取得した骨格の座標データを元に部位ごとに色分けされた線で骨格を可視化します。 リアルタイムでPC画面にカメラプレビューと骨格を表示します。 VisionPoseはSDKであるため、取得結果を手軽に確認できるEXEファイル版と、開発にもご利用いただけるようサンプルプログラムも同梱しています。

  • 右目左目
  • 右耳左耳
  • 右肩肩中央左肩
  • 右肘左肘
  • 右手首左手首
  • 右手左手
  • 右親指左親指
  • 右手先左手先
  • 背骨中央
  • 右尻腰中央左尻
  • 右膝左膝
  • 右足首左足首
  • 右足左足

かかとの高い靴を履いていても骨格を検出することが可能です。

動画は学習中のデモですが以前は簡易的に求めていた背骨の位置を、学習によって背骨の曲がり具合が取れるようになりました。

追加学習で骨格検出の精度をチューニング・ブラッシュアップ可能。

VisionPoseは汎用的に使っていただくため、日常生活でとるような姿勢を中心に学習させています。 しかし、例えばヨガのポーズやアクロバティックな動作など生活していてあまり取らない姿勢を検出したい場合、デフォルトの学習済モデルだけでは不十分な可能性があります。 そこで当社ではVisionPoseに追加学習機能を搭載し、さらに特定動作の教師データを作成するアプリケーション『アノテーションツール』をご用意しています。こちらを利用することで、特定の動きに特化させたVisionPoseをご利用いただくことが可能です。
※アノテーションツールはオプション機能となります。まずはご相談ください。

複数人の骨格検出が可能

複数人でもリアルタイムでトラッキングし、人物の骨格を検出することができます。 団体スポーツなど、一つの映像内に収まっている複数人を個別に切り抜く必要がなく、まとめて検出が可能です。

1人だけでなく複数人でもリアルタイムでトラッキングし、人物の骨格を検出できます。

複数人で深度検出を試した際の動画です。現在さらなる速度・精度向上に向けて開発を進めています。 ※動画の数字はカメラからの距離を表しています。(m単位)

動画・静止画から骨格検出できるアプリケーション
VP Analyzer

リアルタイム版に加え、手持ちの動画・静止画を利用し、開発なしで手軽に骨格検出ができるアプリケーション『VP Analyzer』をVer. 1.1より同梱いたしました。コマンドラインツールを利用し、プログラムなしで実行することができます。

当アプリケーションを利用すると、赤外線で骨格を認識するセンサではできなかった動画・静止画の事後推論が可能な上、リアルタイム性に囚われないため、ご用意いただく素材の解像度が高い場合でも推論にかけることができます。 また、解像度が高い方が検出の精度が高くなる傾向があるため、今まで研究用に撮影した映像・画像データなど『骨格検出にリアルタイム性が必要なく、より精度が高いデータが欲しい場合』にオススメです。

  • 利用できる静止画ファイル:[入力]JPG・PNG・BMP [出力]JPG・PNG
  • 利用できる動画ファイル:[入力]AVI・MP4・WMV・MOV [出力]AVI

マルチデバイス対応開発中

現在、VisionPoseはPC専用ですが利便性を向上させる為、Cloud版、低スペックのハードウェア、スマートフォンからも利用できるよう開発中です。

下記動画は、VisionPoseをiPhone XR(iOS12)で動かしたデモです。 スマートフォンで動かすことができれば、野外で手軽に利用できたり、撮りだめた写真から特定のポーズの写真を検索したり、VTuberのような3Dキャラクターを動かす場合など、さまざまな用途でお使いいただけます。今後のリリース情報をお待ちください。 ※Androidへも近日搭載予定です。

iPhone XR(iOS12)にのせてスマートフォン上で試しに動かしてみました。

日本の住宅事情でカメラに全身が映る距離を部屋の中に確保することは難しいこともあり0.6倍の広角レンズを利用したところ、カメラとの距離が85cm程度あれば全身を映して骨格を検出することができました。※広角レンズ特有の四隅の歪みがないタイプのレンズを利用しています。 ※カメラ画像から骨格を判断してるため歪みがあるレンズだとおそらく難しいです。

VisionPoseの購入

※現在、個人ユーザー様の受付・販売は行っておりません。
今後のリリース情報をお待ちください。