VisionPose

深度センサーを使わない、高精度AI骨格検出システム

    ■深度センサーを使わない、高精度AI骨格検出システム「VisionPose(ビジョンポーズ)」︎を開発

    ヒートマップ解析によるジョイント検出およびグループ化技術を応用した
    ボーン検出システム「VisionPose(ビジョンポーズ)」を開発しています。

    従来のKinectや他の深度センサー付きカメラに頼らず、ディープラーニング(深層学習/DeepLearning)を使用し、WEBカメラ(RGBカメラ)のみで人間の骨格や深度情報を検出することが可能です。
    販売中止になったKinectの代替案としての利用が期待できます。

    現在はスマートフォン上(CoreMLなど)でも動作できるようにモデルの軽量化(Knowledge Distillation)を行い軽量高速化を図っています。今後は一般ユーザーでも使用できるよう、クラウド上からのサービスも検討しています。

    アノテーションツールキャプチャ

    ■追加学習で精度を目的に合わせて調整!アノテーションツールで教師データを作成も

    骨格を検出したものの精度が悪かった場合、従来の深度センサーつきカメラでは特に手の打ちようがなかった問題ですが、VisionPoseはAI(DeepLearning)を利用しているため、追加学習をさせて検出精度を調整することが可能です。
    AI(人工知能)の学習に利用する教師データを、VisionPoseと並行して開発した『アノテーションツール』で作成し、その作成した教師データをVisionPoseに学習をさせることで、目的の動作に最適なVisionPoseをご提供できるようになりました。

    ※アノテーションツールはオプション機能となります。
    ※アノテーションツールの詳しいお話はこちらをご覧ください。

    ■リアルタイムだけじゃない!既存の動画・静止画から骨格検出できるツールを開発中

    左の動画は、今後販売予定の『動画・静止画推論ツール(仮)』のデモを使って骨格を検出した際の動画です。
    現在開発中のリアルタイム版に加えてお手持ちの動画・静止画を利用し骨格検出できるツールとして別途開発を進めています。

    当ツールを利用すると、赤外線で骨格を認識するセンサーではできなかった動画・静止画の事後推論が可能な上、 リアルタイム性に囚われないため、ご用意いただく素材の解像度が高い場合でも推論にかけることができます。
    また解像度が高い方が検出の精度が高くなる傾向があるため、今まで研究用に撮影した映像・画像データなど『骨格検出にリアルタイム性が必要なく、より精度が高いデータが欲しい場合』にオススメです。

    ※動画や静止画から検出可能な座標は2次元座標のみとなります。
    ※現在デモ版ではMP4・MOV・AVI・WMA・JPG・PNG形式に対応。

    動画・画像実例

    複数人の骨格(ボーン)を検出。

    WEBカメラで、人間の骨格を検出した際の動画です。 また、VisionPoseでは1回の処理で複数人まとめて骨格の検出が可能なため、人が増えても処理時間が一定です。 そのため類似製品よりも複数人の骨格検出が長けていることが特長となっています。

    複数人の深度(カメラからの距離)を検出。

    複数人で深度検出を試した際のデモ動画です。現在さらなる速度・精度向上に向けて開発を進めています。
    ※動画の数字はカメラからの距離を表しています。(m単位)

    野球、ゴルフ、テニス、ボクシングなど、さまざまなスポーツの動作に対応可能。

    開発中のVisionPoseで、さまざまなスポーツの動作を行った際のデモ動画です。

    フィギュアスケートや体操競技などは、審判の目に判定が委ねられます。
    しかし判定基準は個々によって微妙に異なるため、いくら厳正な審査といっても人である以上ミスもありえます。

    そんな時VisionPoseを導入することで、人為的なミスを防ぎ、より公平なジャッジを期待できます。
    また、野球やゴルフ、テニスなどフォームが重要なスポーツは、プロ選手のフォームのボーンデータと練習時のボーンデータを比較することで、ズレを可視化することが可能です。
    この情報を参考にどの部分を重点的に強化したら技術の向上に繋がるかなど、さまざまな対策にお役立ていただけます。

    工場での、さまざまな動作に対応可能。

    開発中のVisionPoseで、さまざまな工場の動作を想定して行った際のデモ動画です。

    多くの機械を扱う工場の現場では常に危険がつきまといます。また、単調作業の多い現場では人為的ミスを完全に0にすることは容易ではありません。
    VisionPoseを使用すると人の流れや動作をチェックし、その様子をVisionPoseに学習させることで、品質の向上や危機管理(リスクマネージメント)に役立てることが可能です。

    リハビリやヘルスケア分野に。食事中のさまざまな動作に対応可能。医療現場や介護施設のなどにも。

    開発中のVisionPoseで、さまざまな食事シーンの動作を想定して行った際のデモ動画です。

    VisionPoseは食事シーンなど座った状態でもボーンを検出することが可能です。
    例えばリハビリやヘルスケアを目的とした体を使ったミニゲームなどにもご利用いただけます。
    リハビリに励む患者にご利用いただき、そのデータをわかりやすく提示することで、今後のプランに役立てたり、利用者の意欲向上に期待ができます。

    車椅子のさまざまな動作に対応可能。

    開発中のVisionPoseで、さまざまな車椅子の動作を想定して行った際のデモ動画です。

    VisionPoseはベッドに横たわった状態や車椅子に座った状態でもボーン検出が可能なため、患者に負担をかけることなくデータを取得できます。
    動作や姿勢を検知しデータを蓄積することは、医療機器や車椅子など、さまざまな分野の開発や研究で、今後どのように改善に努めていくかのヒントを得るための重要な参考資料となることでしょう。

    バーチャルYouTuber(Vtuber)やMMD制作などエンタメ分野にも。

    開発中のVisionPoseで、3DCGのアバターを動かした際のデモ動画です。
    ユーザーインターフェース(UI)としての利用だけでなく、スポーツや医療(ヘルスケア・リハビリ)分野などの動作解析や、バーチャルYouTuberなどのアバターを動かす場合などモーションキャプチャ的な使い方も可能です。

    動画ではリグや回転の調整をまだ行なっていないため、あまり自然な動きとは言えないですが、今後更新していく予定です。

    VisionPoseの特長は?

    1. 圧倒的な精度の高さ。類似製品よりもボーンのブレが少ない。
      ディープラーニング(深層学習/DeepLearning)を使い骨格を推定することで従来のセンサー付きカメラでの骨格検出よりも精度の高い測定が可能です。
    2. 深度測定にも対応。
      WEBカメラのみで骨格情報を抽出可能のため、深度センサーに依存しません。
      ステレオカメラ(WEBカメラ2台)を使用して深度を測定できます。
    3. 人数の制限なく複数人のボーン検出が可能。
      一回の処理で複数人まとめて骨格の検出を行なっているため、人が増えても処理速度が一定です。
      類似製品よりも複数人のボーン検出にかけては処理速度が上回ります。
    4. 用途制限なく、類似製品よりお求めになりやすい価格で提供予定。
      利用用途に応じて、さまざまなライセンスでの提供を予定しています。
    5. 使いやすさ抜群。KinectライクなSDKでのご提供。
      KinectのSDKに近いインターフェースで提供予定です。特にKinectを使っている方にとってプログラムが作りやすい形で提供します。
    6. 赤外線を使用しないため、屋外での使用が可能。
      Kinectでは難しかった屋外での利用も可能です。太陽光に影響されません。
    7. 将来的にはCloud上やスマートフォン上でも利用可能に。
      スマートフォン上でも動作できるように現在モデルの軽量・高速化を行っています。

    精度に優れた唯一の国産製品

    従来の製品よりも、精度が高く複数人のボーン検出に秀でています。
    屋外でも使用可能なためご利用シーンを選びません。国産製品のため、お気軽に、さまざまなご相談に対応できます。

     

    VisionPoseの詳しい情報は以下のブログ記事からどうぞ