Disrupt Berlin 2018のスポンサーであるOtter Voice Notesは、AIを使用してライブで検索可能なトランスクリプトを作成します。

Disrupt Berlin 2018のスポンサーであるOtter Voice Notesは、AIを使用してライブで検索可能なトランスクリプトを作成します。

Disrupt Berlinで展示された製品の中でも、特に印象深かったのがOtter Voice Notesです。これはAISense社が開発した、人工知能を搭載したライブ文字起こしサービスです。プレゼンテーション、会議、インタビュー、その他あらゆる音声フィードから検索可能なアーカイブを作成し、音声録音と同期した文字起こしテキストを配信します。音声には、話者識別情報とキーワードメタデータが付与されます。

この製品は、今週のDisrupt Berlin 2018カンファレンスでは、聴覚障害のあるユーザーにライブディクテーションを提供する、ステージ横のアクセシビリティディスプレイを動かすために使用されていたため、見逃すことはできませんでした(上)。

このサービスは、Disruptカンファレンスの議事録をセッションごとに整理し、無料のOtter Voice Notesアプリに自動配信しました。編集作業は一切不要で、このサービスは音声を口述し、生のテキストフィードを各発言者ごとにブロックに分割するという素晴らしい仕事をしています。ある程度の編集作業と発言者の手動識別を行うと、システムは誰が話しているかを学習し、パネルディスカッションを脚本のような形に自動的に変換します(下図はブラウザからアクセス可能な簡略化された表示です)。

手動で吹き出しをいくつか識別すると、このサービスは今後その発言者を識別できるよう学習します。これにより、ビジネス会議やその他の議論の記録が整理されます。記録は、Slackメッセージングアプリの音声生成版のようなインターフェースを使用して、ユーザーが確認したり、チーム間で共有したりできます。会話はグループごとに整理されます。議論されたトピックは、タグ付けされたキーワードまたはトピックで検索でき、自動生成されたワードクラウドを見れば会議の要点をすぐに把握できます。

Otter Voice Notes モバイル クライアントは Android と iOS の両方で動作しますが、iOS バージョンには、ローカル カレンダーと連絡先の統合、ダーク モードのサポート、AirPrint、Touch/Face ID 会話ロック、ワンタッチ ウィジェット記録、Siri ショートカットなどの追加機能のサポートが含まれています。

高評価のアプリは無料で、サービスも最初の600分間の音声処理は無料でご利用いただけます。AISenseは、毎月6000分の文字起こしに加え、優先メールサポートと音声再生速度の向上が含まれたプレミアム版を9.99ドルで提供しています。学生と教師向けの4.99ドル版もご用意しています。

モバイルアプリはカメラアプリとの連携もサポートしており、録音中に撮影した写真を自動的にインポートし、ディクテーションされた会話に挿入できます。また、Zoomの電話会議クラウド録画とも連携し、ウェブキャストをOtter Voice Notesアカウントにトランスクリプトとして保存できます。これにより、録音済みの通話を検索可能なアーカイブとして簡単に作成できます。

ユーザーからAmazon AlexaやGoogle Homeなどの製品との統合について質問された同社の代表者は、「企業が音声機器を使うことは考えられません」と答えたが、これはこれらの製品の背後にある「音声優先」のメディア論が現在の現実からかけ離れていることを思い起こさせる。

実際、音声が驚異的なコンピューティング インターフェースであるというよりも、Otter Voice Notes のような製品や、Apple 独自の Visual Voicemail を含むその他のディクテーションの使用法は、視覚的なユーザー インターフェース内の検索可能で読み取り可能なテキストによって、後で確認するのが難しく時間のかかる情報を明らかにできることがよくあるということを示しています。

AISenseは、Otterと電話通話の連携も計画しており、「近日公開予定」としています。ライブ録音やZoomとの連携に加え、OtterではMP3、AAC、M4A、WMAオーディオ、MP4、AVI、MOV、WMV、MPGビデオなど、様々なソースからオーディオをインポートできます。iOSでは、OtterのiOS Share Sheetをインストールすることで、どのアプリからでもオーディオを共有できます。

このサービスは現在英語のみに対応していますが、Disruptでは英語を母国語としない、あるいは独特の地方訛りを持つ幅広いスピーカーに対して(完璧ではないものの)かなりうまく機能しているようでした。中には私よりもスピーカーの話を理解できる人もいました。Otterに間違いがあった場合は、トランスクリプトを編集して録音された音声を聞き、実際に何を言ったのかを確認することができます。

Otter Voice Notesは、AISense社が2月にMobile World Conferenceで初めて発表した製品で、同社はその認識技術を「Ambient Voice Intelligence」と呼んでいます。シリコンバレーに拠点を置くこのスタートアップは、Google、Facebook、Yahoo、Nuance出身の博士号取得者と音声エンジニアリングの専門家で構成されたチームを擁しているとしています。

ノキアのマッピング部門の売却により誕生したHERE Technologiesは、開発者に地図、ジオコーディング、ルーティング、場所データを提供するための新しいフリーミアムモデルのプロモーションのために来場した。

同社はまた、Appleの標準搭載マップ(およびGoogleマップ使用時のプライバシー問題)の代替となる無料アプリ「Here WeGo」にも注目を促した。Here WeGoは、1,300都市以上の公共交通機関情報を提供し、データ通信が不安定な場合に利用できるオフラインマップのダウンロード(米国、オーストラリア、カナダ、英国、フランス、ドイツ、イタリア、スペイン、その他100カ国)をサポートしている。また、会話中に地図を呼び出して住所を共有できるiMessageアプリ拡張機能も提供している(下記参照)。

Here WeGoにはiMessageアプリが含まれています

Disruptのもう一つのスポンサーであるUniverse Eventsは、イベント自体も利用しており、コンサート、クラス、フェスティバルなどの主催者向けにイベント管理サービスを提供しています。これには、参加者向けのチケット処理、Stripeとの連携によるイベントコーディネーターへの売上金リアルタイム提供、そしてチケット発行プロセスをウェブサイトに統合し、ユーザーが手続きのために外部サイトにリダイレクトされないようにする機能などが含まれます。

同社のUniverse Discoverアプリは、個人向けに地域イベントガイドを提供しており、ソーシャル機能により、ユーザーは友人やお気に入りのイベント主催者をフォローして今後のイベントを見つけることができます。ユーザーはApple Payでチケットを購入し、すぐにモバイル端末にバーコードチケットをダウンロードして入場できます。