VisionPose

深度センサーを使わない、高精度AI骨格検出システム

深度センサーを使わない、高精度AI骨格検出システム「VisionPose(ビジョンポーズ)」︎を開発

ヒートマップ解析によるジョイント検出およびグループ化技術を応用した
ボーン検出システム「VisionPose(ビジョンポーズ)」を開発しています。

従来のKinectや他の深度センサー付きカメラに頼らず、ディープラーニング(深層学習/DeepLearning)を使用し、WEBカメラ(RGBカメラ)のみで人間の骨格や深度情報を検出することが可能です。
販売中止になったKinectの代替案としての利用が期待できます。

現在はスマートフォン上(CoreMLなど)でも動作できるようにモデルの軽量化(Knowledge Distillation)を行い軽量高速化を図っています。今後は一般ユーザーでも使用できるよう、クラウド上からのサービスも検討しています。

ボーン検出の精度が低い場合の対策は?(アノテーションツール)

VisionPoseを使用してボーン検出をしたものの、ボーンの関節位置がズレてしまう場合、デフォルトの学習データだけでは不十分であることが1つの原因として考えられます。 しかし、全ての動作に対応すると途方も無い時間と労力がかかってしまうため効率が良くありません。

そこで当社では、VisionPoseの開発と並行し特定動作の学習用データを作成するツール(アノテーションツール)を開発しています。 検出が必要な特定動作の学習をピンポイントで強化する仕組みを作ることで、効率良く精度の高い学習データを作ることが可能です。
必要な素材は精度を上げたい動作の動画のみです。VisionPoseで一度ボーンを検出して、関節がずれている箇所を微調整します。 微調整後の学習データをVisionPoseに学習させることで、ボーン検出が必要な動作の精度向上が期待できます。

学習スピードを向上させて効率よく学習する(マルチノードシステム)

通常学習データは多ければ多いほど精度は高くなります。しかし、多くの学習をするには多くの時間が必要です。
そのため効率のいい学習システムを構築することが必要不可欠となります。

当社では学習させる際に生まれる学習速度の問題を、AWS上にマルチGPU・マルチマシン(マルチノードシステム)を構築することで学習スピードの向上に取り組んでいます。
また、クラウド上にデータを置きたくないお客様向けに、ローカルでマルチGPU・マルチマシンの構築も検討しています。

動画実例

複数人の深度(カメラからの距離)を検出。

複数人で深度検出を試した際のデモ動画です。現在さらなる速度・精度向上に向けて開発を進めています。
※動画の数字はカメラからの距離を表しています。(m単位)

野球、ゴルフ、テニス、ボクシングなど様々なスポーツの動作に対応可能。

開発中のVisionPoseで様々なスポーツの動作を行った際のデモ動画です。

フィギュアスケートや体操競技などは、審判の目に判定が委ねられます。
しかし判定基準は個々によって微妙に異なるため、いくら厳正な審査といっても人である以上ミスもありえます。

そんな時VisionPoseを導入することで、人為的なミスを防ぎ、より公平なジャッジを期待できます。
また、野球やゴルフ、テニスなどフォームが重要なスポーツは、プロ選手のフォームのボーンデータと練習時のボーンデータを比較することで、ズレを可視化することが可能です。
この情報を参考にどの部分を重点的に強化したら技術の向上に繋がるかなど、様々な対策にお役立ていただけます。

工場での様々な動作に対応可能。

開発中のVisionPoseで様々な工場の動作を想定して行った際のデモ動画です。

多くの機械を扱う工場の現場では常に危険がつきまといます。また、単調作業の多い現場では人為的ミスを完全に0にすることは容易ではありません。
VieionPoseを使用すると人の流れや動作をチェックし、その様子をVisionPoseに学習させることで、品質の向上や危機管理(リスクマネージメント)に役立てることが可能です。

食事中の様々な動作に対応可能。医療現場や介護施設などにも。

開発中のVisionPoseで様々な食事シーンの動作を想定して行った際のデモ動画です。

VisionPoseは食事シーンなど座った状態でもボーンを検出することが可能です。
例えばリハビリや健康維持を目的とした身体を使ったミニゲームなどにもご利用いただけます。
リハビリに励む患者にご利用いただき、そのデータをわかりやすく提示することで、今後のプランに役立てたり、利用者の意欲向上に期待ができます。

車椅子の様々な動作に対応可能。

開発中のVisionPoseで様々な車椅子の動作を想定して行った際のデモ動画です。

VisionPoseはベッドに横たわった状態や車椅子に座った状態でもボーン検出が可能なため、患者に負担をかけることなくデータを取得できます。
動作や姿勢を検知しデータを蓄積することは、医療機器や車椅子など様々な分野の開発や研究で、今後どのように改善に努めていくかのヒントを得るための重要な参考資料となることでしょう。

VisionPoseの特長は?

  1. 圧倒的な精度の高さ。類似製品よりもボーンのブレが少ない。
    ディープラーニング(深層学習/DeepLearning)を使い骨格を推定することで従来のセンサー付きカメラでの骨格検出よりも精度の高い測定が可能です。
  2. 深度測定にも対応。
    WEBカメラのみで骨格情報を抽出可能のため、深度センサーに依存しません。
    ステレオカメラ(WEBカメラ2台)を使用して深度を測定することができます。
  3. 人数の制限なく複数人のボーン検出が可能。
    一回の処理で複数人まとめて骨格の検出を行なっているため、人が増えても処理速度が一定です。
    類似製品よりも複数人のボーン検出にかけては処理速度が上回ります。
  4. 用途制限なく、類似製品よりお求めやすい価格で提供予定。
    利用用途に応じて様々なライセンスでの提供を予定しています。
  5. 使いやすさ抜群。KinectライクなSDKでのご提供。
    KinectのSDKに近いインターフェースで提供予定です。特にKinectを使っている方にとってプログラムが作りやすい形で提供します。
  6. 赤外線を使用しないため、屋外での使用が可能。
    Kinectでは難しかった屋外での利用も可能です。太陽光に影響されません。
  7. 将来的にはCloud上やスマートフォン上でも利用可能に。
    スマートフォン上でも動作できるように現在モデルの軽量・高速化を行っています。

精度に優れた唯一の国産製品

従来の製品よりも、精度が高く複数人のボーン検出に秀でています。
屋外でも使用可能なためご利用シーンを選びません。国産製品のため、お気軽に様々なご相談に対応できます。

 

VisionPoseの詳しい情報は以下のブログ記事からどうぞ