YouTubeを使って音声データファイルから自動で文字起こしをする方法が簡単かつ無料でおすすめだった話

シェアする?

youtubeで解決する文字起こし方法

みなさんこんにちは。ネクストシステムの広報担当の田中です。

突然ですが、音声データの文字起こしって面倒じゃないですか??

先日弊社の社員が登壇するイベントがありまして、当日私は会場に行けなかったのですが後日音声ファイル(mp3)を頂いたんですね。

せっかくだから、これを元に登壇レポート記事を書こう!と思ったんです。

が!!

音声データから文字を書き起こすの超めんどくさい・・・

文字から書き起こす

音で聴くよりも文章で概要をざっと把握したい派の私は、
音源ファイルをぶち込むだけで、簡単に文章として文字を書き起こしてくれるツールが欲しいのです。

というわけで『文字起こし 音声ファイル』『自動書き起こし ツール』『音声データ 書き起こし』などで検索を試みてみたんですが、出てくるのは、

・マイクから拾った音声を文字に変換するツール
・音声再生しながら手打ちで入力するための便利ツール

みたいなものばかり。

手打ちはどう考えても大変そうですし、
大音量で音源を流してPCのマイクで拾ってもらうのは他の社員に迷惑がかかりそう。
かといってイヤホンで聞いた音声を復唱してマイクから音声認識をさせるのも、社内だと結構恥ずかしそうです。

違うんだ・・・私が欲しいのは、

音声ファイルから自動で音声認識して文字を起こしてくれるツール

なんだ・・・。

そしてできれば、ソフトダウンロードするの面倒だから、ブラウザでやりたいし、概要把握したいだけだからできればフリーがいい・・・。

そんなわがままなお年頃。(アラサー)

・・・とも言ってられないので検索で出てきた音声聞きながら手打ちで入力するための便利ツールを使って手打ちでやってみたんですが、タイピングが追いつかなすぎて序盤で匙を投げました。はいはい無理無理。

そんなわけでしばらく放置していたのですが、ふとした瞬間にあっけなく解決しちゃいました。

その解決方法とは、

YouTubeの字幕機能を使うこと!!

YouTubeに自動で字幕をつけてくれる機能があるのご存知ですか?
実はこの機能を使うと、文字起こしも超簡単。さすが天下のGoogleです。困った時にいつも助けてくれるGoogle先輩大好きです、結婚しよ。

というわけで使い方を簡単に解説します。

使い方は?

①Googleアカウントを用意します。

Googleアカウントを持っていない方は、Googleアカウントをこちらから作成してください。

②GoogleアカウントでYouTubeにログインします。

YouTubeにログインしてください。

③.MP4や.MOVなどのファイル形式に変換してYouTubeにアップします。

YouTubeは通常動画コンテンツを配信する場所なので、.MP3などの音声データをアップすることはできません。(参考:YouTubeでサポートされているファイル形式

音源のみである場合、.MP4や.MOVなどのファイル形式に変換してから、YouTubeにアップしてみてください。

また、動画を一般ユーザーに公開したくない場合、『限定公開』を選択する事でURLを知っているユーザーしか動画を見ることができなくなります。

限定公開の方法

④数時間待ちます。

動画をアップしたらあとは放っておくだけで、自動で字幕を作ってくれます。

字幕が作成されると、動画下にある[ … ]下記画像のような形で『文字起こしを開く』という選択が表示されるようになります。

youtubeの画面

私が試した際は1時間ほどで字幕ができてました。

⑤字幕をコピペする。

手順④の[ 文字起こしを開く ]というボタンを押すと、動画の右側に文字起こしされた文章が表示されます。

デフォルトはタイムスタンプが表示されていますが、このままコピペするとタイムスタンプまでコピペされてしまいます。

タイムスタンプを表示せず、文章だけコピペするためには、
文字起こし画面の右上にある[ ⋮ ]から[タイムスタンプの表示を切り替える]を選択しましょう。

文字起こし画面

これでデータファイルから自動で文字起こしした文章をコピペすることができました。

ネクストシステムは、AI(人工知能:DeepLearning)・VR(仮想現実)・MR(複合現実)・AR(拡張現実)・iPhone・Android開発を得意とする東京・福岡のシステム開発会社です。開発のご相談はお気軽にお問い合わせください。

精度は?

声が遠かったりすると、かなり破天荒な文章になります。
下図もその1例ですが、マイクが遠かったのもあり全体的に文章が暴れん坊将軍

中でも驚いたのは、社名である『ネクストシステム』を糞システムと誤読していたことです。

シンプルな悪口。

これは酷い

お前・・・なんてことをいうんだ・・・。

当然といえば当然ですが、しゃべっている人が1人で、聞き取りやすい声量で、はっきりと話している方がうまくいきます。

比較的うまくいったのがこちらの動画です。(YouTubeページに飛んで字幕を表示してみてください)

このくらいなら一応話の概要を掴む事くらいはできそうですね。多分。

【社内勉強会】TDD(テスト駆動開発)がもたらした予想外の恩恵

ちなみに面白かったのでもう少し誤読について書くと、他にも

『誰か星とかいらっしゃるんですか』
『あっああぁああ』
『魔法の言葉ですねうん』

っていう謎の会話が並んでいたり、

休日前特価リリース枚とか結合テスト平成になって
バグがあるよとかなったらすごくめんどくさいですね残業もしないといけないし
90周銀貨音楽祭ですそれは嫌です

私も残業しないといけない90周銀貨音楽祭は嫌ですし、

『もう一つ気になることがあります好きな食べ物がメイクってあるんですけどメイクって幅広くないか』

え、そっち?突っ込むところそっち??

ってなる会話など、心がかき乱されて概要を掴むどころではなくなりますので

やはり動画の質には気をつけたほうが良さそうですね。

ざわざわ

肉と言っていたところがメイクと誤読されてた。

まとめ

タイピングでの文字書き起こしはやはり時間がかかります。
YouTubeの字幕機能を使うことで、簡単に効率化することができました。
天下のGoogleさん系列のツールですし、現状ではこれ以上精度が高いツールをお見かけすることは難しいんじゃないかなと思ってます。今後の精度アップに期待したいですね!

この方法を見つけた時とても感動して勢いで書き上げたんですけど、「YouTube 書き起こし」で調べたら、めちゃくちゃ2番煎じでした。
ただ、私が「音声データ 自動文字起こし」などの検索ワードで結構調べた時に出てきてくれなかったので、私のような迷える子羊が無駄な時間を過ごさないためにも、そんなワードでも引っかかりやすくするためにアップします。

ご参考になれば幸いです。

あ、登壇のレポート記事は、私が上げるまでもなく主催者の株式会社ギークスさんから素敵なレポート記事が上がってたので早々に諦めました。

以前エンジニアの好奇心を満たす出会いが見つかるリアルイベントとして、株式会社ギークスさま()主催の『TECH VALLEY』に登壇させていただいた際のイベントの様子がITクリエイターのための気軽な情報収集メディア『ギークスマガジン』に掲載されました。今回のイベントのテーマは、『最新のAI/AR/VR技術動向と最新技術体...

この記事とは全然関係ないのですが、一応ご紹介しておくと
ネクストシステムでは、カメラだけで人間の骨格情報を検出できる姿勢推定AIエンジン「VisionPose」など、AI、xR(AR/VR/MR)をはじめとした先端技術開発を行っています。

いろいろやってますので一度弊社のWEBサイトを見てみてくださいね!

ネクストシステムは、AI(人工知能:DeepLearning)・VR(仮想現実)・MR(複合現実)・AR(拡張現実)・iPhone・Android開発を得意とする東京・福岡のシステム開発会社です。開発のご相談はお気軽にお問い合わせください。
WEBカメラだけで3D解析を行うAI骨格検出システム「VisionPose(ビジョンポーズ)」は人間の動きを測定したい方のための唯一の国産SDKです。リアルタイム検出だけでなく動画や静止画からも骨格検出が可能。各種スポーツでのフォーム解析や監視システムへの組み込み、Vtuber配信など、さまざまなシーンでお使いいただけ...

便利なものは積極的に紹介したいネクストシステムへのお問い合わせはこちら!

ネクストシステムお問い合わせ

トップへ戻る