【2021年最新】ホネホネ技術って?WEBカメラだけで全身モーキャプできる姿勢推定AIエンジン『VisionPose』とは?【PoseEstimation】

シェアする?

visionposeまとめ

ネクストシステムは、AIやxR(VR、AR、MR)の最先端技術を活用したソフトウェア開発会社です。AIだけではなく、ARやVR、MRを組み合わせた開発を実現できるという点は国内でも珍しいかもしれませんね。

そんな弊社ではAIの中でも特に画像認識分野を得意としており、その技術を応用して独自に開発したホネホネ技術とも呼ばれる姿勢推定技術を利用したAIエンジン「VisionPose」は人間の骨格情報を検出できます。販売を開始して約1年たちましたが、ありがたいことに200社を超える企業様にご導入いただき、VisionPoseシリーズとして種類も3つに増えました。(2021年3月時点)

そこで、今回は改めて「VisionPose」についてまとめてみることにしました。

この記事を読み終える頃にはあなたもVisionPoseの可能性に興奮していること間違いなしです!笑

ホネホネ技術?姿勢推定AIエンジン「VisionPose」ってなに?

ホネホネ技術とも呼ばれる、姿勢推定(Pose Estimation)技術とは動画、画像から人物や動物の姿勢をマーカーレスで推定するAI技術です。VisionPoseは深度センサ付きカメラに頼らず、DeepLearning(深層学習)を使用し、WEBカメラだけで人間の骨格情報を検出することができます。

日常動作から、野球やテニスなどのスポーツ、赤ちゃんに至るまで骨格検出が可能です。
WEBカメラ映像からリアルタイムで骨格検出ができるだけでなく、お手持ちの動画や静止画からも骨格を検出することができます。

VisionPoseシリーズは用途にあわせて3種類をご用意

VisionPose SDKにはカメラ2台で3D推論を行う「Standard」と、カメラ1台で3D推論を行う「Single3D」があります。また、主に研究開発を目的として骨格情報を手軽に検出したい方向けのハード付きプラットフォーム「Nano」の3種類があります。

VisionPose Standard(SDK)

・一番オーソドックスなVisionPose
・カメラ2台で3D座標を30箇所検出、カメラ1台で2D座標を30箇所検出。
・Windows(C#,C++)、Linuxに対応
・3Dキャラクターを動かすなどの用途で3D座標を使う必要がない場合、Standardの2D座標だけで事足りるケースが多い。
・3D座標で30箇所の検出が必要な方や、2D座標での検出が必要な方におすすめ

▼価格など詳細はこちらから。

WEBカメラだけで3D解析を行うAI骨格検出システム「VisionPose(ビジョンポーズ)」は人間の動きを測定したい方のための唯一の国産SDKです。リアルタイム検出だけでなく動画や静止画からも骨格検出が可能。各種スポーツでのフォーム解析や監視システムへの組み込み、Vtuber配信など、さまざまなシーンでお使いいただけ...

Visionpose Single3D(SDK)

・カメラ1つで3D座標での骨格検出が可能。(17箇所)
・3Dキャラクターを動かすなどモーショントラッキング用途でご利用いただくことが多い。
・Windows Unity版とiOS版がある。
・UnityやiOSで利用したい方や、モーションキャプチャ用途に使いたい方におすすめ。

▼価格など詳細はこちらから。

UnityとiOS/iPadOSに対応!マーカレスの簡単モーションキャプチャ。カメラ1つで骨格検出できる、姿勢推定AIエンジン「VisionPose Single3D」。

VisionPose Nano(プラットフォーム)

・手のひらサイズのハードでAI骨格検出を利用可能。
・カメラ映像、動画、静止画からの骨格検出に対応。
・面倒なセットアップやインストールの必要がない。
・ハード込みで98,000円(税込:107,800円)の手軽さ。
・簡易的にAI骨格検出を利用したい方やVisionPoseの試用版としてご利用されたい方におすすめ。
※研究開発やVisionPoseの試用版を目的としており商用利用はできません。

▼価格など詳細はこちらから。

Webカメラで手軽に骨格情報を検出できるプラットフォーム「VisionPose Nano」シリーズに、高性能版の「Jetson Orin Nano」がハードウェア付属が149,800円(税抜)が新登場!リアルタイム映像の他、静止画・動画ファイルからAI(ディープラーニング)で測定データを書き出せます。

VisionPoseシリーズSDK比較

VisionPoseシリーズの中でも、商用でご利用いただけるSDKの特長を比較してみました。

VisionPose比較

詳しい比較は以下からご確認いただけるとわかりやすいです。

VisionPose(ビジョンポーズ)の利用料金や販売形態、推奨PCスペックなど各種製品仕様について紹介しています。環境設定がきちんとできるか不安。届いたらすぐに使いたい。使えるPCを探す手間を省きたい。これらの不安や設定の手間を当社の環境構築サービスにてサポートいたします。推奨するハードウェアの選定や購入、Visio...

VisionPoseの特長は?

骨格情報の検出箇所は業界最多の30箇所

VisionPoseは最大合計30箇所の骨格情報を3D座標で検出できます。(Single3Dは17箇所)

▼VisionPoseで取得できる30箇所
visionpose 検出できる30箇所

▼VisionPose Single3Dで検出できる3D座標17箇所(※2D座標では30箇所取得可能)
visionpose 検出できる17箇所

複数人の姿勢推定(PoseEstimation)ができる!

1人だけでなく複数人でもリアルタイムでトラッキングし、人物の骨格を検出することができます。 団体スポーツなど、一つの映像内に収まっている複数人を個別に切り抜く必要がなく、まとめて検出が可能です。

追加学習で骨格検出の精度をチューニング・ブラッシュアップ可能。検出箇所の追加も

VisionPoseは汎用的に使っていただくため、日常生活でとるような姿勢を中心に学習させています。 しかし、例えばヨガのポーズやアクロバティックな動作など生活していてあまり取らない姿勢を検出したい場合、デフォルトの学習済モデルだけでは不十分な可能性があります。

しかし弊社では自社に学習環境があるため、追加学習が可能です。(※)
追加学習をご利用の際は、学習用の教師データを作成するアプリケーション『アノテーションツール』を無償で提供させていただき、特化させたい動作の教師データのみお客様側でご作成いただいています。作成いただいた教師データをご共有いただき、弊社側で学習を実施することで特定の動きに対する精度を調整します。応用すると新たに測定箇所の追加も可能です。例えば動物・工業用ロボットの関節など一部に特化した検出ができます。
まずはご相談ください。

※追加学習はオプションサービスです。実施には条件があります。

開発時の参考になるサンプルアプリと、動画や静止画から骨格検出可能なツールが付属

1. リアルタイムカメラ映像解析サンプルアプリ『BodyAndColor』

VisionPoseSDKの使い方の参考用ソースコードとして、リアルタイムでカメラ映像から骨格を検出するサンプルアプリを2種ご提供しています。

・リアルタイム骨格可視化サンプルアプリ『BodyAndColor』
Standardでご提供。WEBカメラの映像から取得した骨格の座標データを元に部位ごとに色分けされた線で可視化できるサンプルアプリです。

・リアルタイムモーショントラッキングサンプルアプリ『BodyAndColor with MICHICO』
Single3Dでご提供。カメラから取得した動きをリアルタイムで3Dキャラクターに反映できるサンプルアプリです。

2. 動画・静止画から骨格検出が可能な『VP Analyzer』

VP Analyzerはお手持ちの動画・静止画から骨格情報の検出ができるツールです。
お手持ちの動画や静止画を本ツールに読み込ませると、以下のような骨格情報が付与された動画とCSVが出力が可能です。

当ツールを利用すると、赤外線で骨格を認識するセンサではできなかった動画・静止画の事後推論が可能な上、リアルタイム性に囚われないため、ご用意いただく素材の解像度が高い場合でも推論にかけることができます。解像度が高い方が検出の精度が高くなる傾向があるため、今まで研究用に撮影した映像・画像データなど”骨格検出にリアルタイム性が必要なく、より精度が高いデータが欲しい場合”にオススメです。

  • 利用できる静止画ファイル:[入力]JPG・PNG・BMP [出力]JPG・PNG
  • 利用できる動画ファイル:[入力]AVI・MP4・WMV・MOV [出力]AVI

マルチプラットフォームに対応

VisionPoseシリーズはさまざまなプラットフォームに対応しており、PCだけでもWindows(C#、C++)、Linux(Ubuntu)、 Windows Unityに対応し、VisionPose NanoではエッジデバイスにAI骨格検出システムを載せています。また、スマートフォンではiOSに対応しているため、スマホアプリにもご利用いただけます。
クラウド上での利用実績もありますので、さまざまなケースでご利用いただけます。

▼iPhone xR(iOS12)にのせてスマートフォン上で試しに動かすデモ

VisionPoseの今後は?

時系列データで行動認識開発中


弊社ではVisionPoseの応用事例として、時系列データに対応し、特定動作を検出させるシステム(行動認識システム)を開発中です。
上の動画では、「携帯使用中」の行動を検出しています。

ちなみにですが左側の図は簡単にいうと、人工知能が考えていることを可視化した図です。
それぞれの行動による特徴を点や曲線で表しており、行動が変わると変化します。

例えば、拾う動作と置く動作は同じような姿勢であるため、1フレームから判別することは容易ではありません。 対して時系列データとして扱うと、拾う動作と置く動作の識別が可能になります。

また、静的データのみで寝姿を見ると「寝ている状態」なのか、「倒れている状態」なのか姿勢だけで判別することは難しいですが、時系列データに対応すると 「立ち姿 → 寝姿 = 倒れている」というように因果関係から判断が可能になります。

VisionPoseを使った時系列解析での応用分野例

他にもシーン次第でいろいろな動作の検出に応用できます。

/status/1146601609675169792

1)工場作業員の動線見える化
・出荷前の車に傷があるが、どこで傷ついたかわからないので対策の方法がない
・AIで作業の効率化をしたいが人の行動を計測したデータがない

2)老人ホームや保育施設での異常検知
・長時間寝返りしていない
・床にうずくまったまま苦しんでいる
・転倒した
・介護員の不適切な行動を検出

3)工事現場での安全確認
・作業員以外の侵入
・落下防止の命綱の付け替えをカメラで監視

4)小売店(コンビニ・スーパーなど)不審者検出
・不審者
・バイトテロといわれる従業員の不適切な行動
・万引き

5)無人店舗の購買行動分析
・商品をとった
・商品を戻した
・商品をかごに入れた
・お店を出た

実際にどんなところで使われてるの?

VisionPoseが主にどのような業種で、どのような用途で利用を想定しているか調査した結果がこちら。主に業種は「産業」「スポーツ」「エンターテインメント」「医療・リハビリ」での利用が同じくらい多く、特に姿勢チェックやスポーツなどのフォームチェック用途で利用されることが多いようです。

▼VisionPose利用業種
VisionPose利用業種

▼VisionPose利用用途
VisionPose利用用途

用途の詳細は以下です。

【姿勢評価】:姿勢チェック、フォームチェック
【モーションキャプチャ】:Vチューバー配信、3Dキャラクターを動かす用途
【異常検知】:事故防止、品質担保、危険動作検出、動物の異常検知、不正利用、見守りシステム
【動作評価】:時系列データが必要そうなもの。コミュニケーションロボットを用いた店舗誘導、人流計測
【演出】:舞台演出,ライブ演出,ステージ演出
【ジェスチャーUI】:ジェスチャーで操作、遠隔操作、遠隔接客
【データ収集】:骨格データの収集
【コンテンツ制作の効率化】:CGキャラクター制作の効率化
【技能継承】:作業者のノウハウの継承

野球、ゴルフ、テニス、ボクシングなど、
さまざまなスポーツの動作に


さまざまなスポーツに関連した動作を行った際のデモ動画です。
例えば、フィギュアスケートや体操競技などは、審判の目に判定が委ねられます。
しかし判定基準は個々によって微妙に異なるため、いくら厳正な審査といっても人である以上ミスもありえます。

このような場合にVisionPoseを導入することで、人為的なミスを防ぎ、より公平なジャッジが期待できます。
また、野球やゴルフ、テニスなどフォームが重要なスポーツは、プロ選手のフォームの骨格データと練習時の骨格データを比較することで、ズレを可視化することが可能です。
この情報を参考にどの部分を重点的に強化したら技術の向上に繋がるかなど、さまざまな対策にお役立ていただけます。

工場・店舗で人の流れや動作をチェック


多くの機械を扱う工場の現場では常に危険がつきまといます。
また、単調作業の多い現場では人為的ミスを完全に「0」にすることは容易ではありません。
VisionPoseを利用し骨格情報から動作をチェックさせることで、品質の向上や危機管理(リスクマネージメント)に役立てることが可能です。
他にも、防犯カメラ(監視カメラ)システムにVisionPoseを組み込むことも可能です。怪しい動作をしている人物の検出や、無人レジの人物チェックなどにもご利用いただけます。

医療現場や介護施設のリハビリやヘルスケア分野に

VisionPose事例(車椅子)

VisionPoseは食事シーンなど座った状態でも骨格を検出することが可能です。
また、リハビリやヘルスケアを目的とした体を使ったミニゲームなどにもご利用いただけます。
ベッドに横たわった状態や車椅子に座った状態でも骨格情報の検出が可能です。検出の際に特別な機械を体へ装着する必要がないため、患者様に負担をかけることなくデータを取得できます。
実際にトヨタ自動車様での利用事例では、リハビリテーション支援ロボットにVisionPoseを組み込んでいただき患者様の歩行姿勢のチェックにご利用いただいています。

脳卒中などによる下肢麻痺のリハビリテーション支援を目的としたロボット「ウェルウォークWW-2000」にVisionPoseを活用させていただきました。

VTuberやMMD制作などエンタメ分野にも


体の動きを3Dキャラクターに反映するなど、モーションキャプチャのような使い方も可能です。
通常、モーションキャプチャを行う際はカメラを複数台用意し、対象にデバイスを装着する必要がありますが、VisionPoseは特別なデバイスを体に一切装着する必要はありません。

当社がVisionPoseシリーズの1つであるSingle3Dを利用して開発した、スマホだけで全身モーションキャプチャが可能なiOSアプリ「ミチコンPlus」を利用すると、カメラ1台で全身をモーションキャプチャすることも可能です。

▼ミチコンPlusについてはこちらから

スマホだけでVチューバー!マーカレスでリアルタイムの全身モーションキャプチャが可能なiOSアプリ「ミチコンPlus」。VRoid HubにUPしたキャラクターに変更したり、モーションデータの書き出しも可能
WEBカメラだけで3D解析を行うAI骨格検出システム「VisionPose(ビジョンポーズ)」は人間の動きを測定したい方のための唯一の国産SDKです。リアルタイム検出だけでなく動画や静止画からも骨格検出が可能。各種スポーツでのフォーム解析や監視システムへの組み込み、Vtuber配信など、さまざまなシーンでお使いいただけ...

大手企業に技術提供も

VisionPoseはトヨタ自動車様エイベックス・マネジメント様のような誰もが知っている大手企業様をはじめ、さまざまな企業でご導入いただいています。

おわりに

工場や小売店での動作チェック、リハビリ施設やスポーツなどでのフォームチェックなどVisionPoseの応用範囲は幅広く、さまざまなケースでご利用いただいています。

これまで弊社ではVisionPoseの技術を利用して、さまざまな製品開発を行なってきました。弊社はこれからも自社で、もしくは企業さまと連携し、VisionPoseを利用した製品開発を行なうことで日本だけでなく世界でこの技術を発信していきたいと考えています。VisionPoseはまだ始まったばかりですが、これから社会にどんどん浸透していき、皆さんの身近なところでこのVisionPoseが使われる日がそう遠くない未来にきたら嬉しいです。

▼VisionPoseの利用用途についてはこちらから

姿勢推定とは? ホネホネ技術とも呼ばれる姿勢推定とは、人物の関節をはじめとした特徴点を座標データで検出する技術です。近年ではディープラーニ...

ネクストシステムお問い合わせ

ネクストシステムは、AI(人工知能:DeepLearning)・VR(仮想現実)・MR(複合現実)・AR(拡張現実)・iPhone・Android開発を得意とする東京・福岡のシステム開発会社です。開発のご相談はお気軽にお問い合わせください。
トップへ戻る