音声文字変換の比較 - クラウドベースとデバイス上

音声文字変換の比較 - クラウドベースとデバイス上

iOS 18では、Appleのメモアプリとボイスメモアプリに新しい音声文字変換機能が追加されました。ここでは、音声文字変換の種類、それぞれの比較、そしてAppleの実装がもたらすメリットについて、知っておくべきことをすべてご紹介します。

Apple の最新のオペレーティング システムでは、ユーザーはインターネットに接続せずに、メモやボイスメモ内で直接音声をリアルタイムで書き起こすことができます。

iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1ではApple Intelligenceのサポートも導入されており、ユーザーはAIを通じて文字起こしを要約したり編集したりできるようになりますが、これは最新のデバイスに限られます。

これらの新機能の重要性と、サードパーティ アプリ市場への潜在的な影響をより適切に説明するには、音声文字変換全体と、存在するさまざまな種類の音声テキスト変換処理について基本的な理解を持つことが重要です。

録音された音声をテキストに変換するプロセスは、オーディオトランスクリプションと呼ばれます。これは、さまざまな分野や業界で広く使用されており、学者、ビジネス専門家、ジャーナリスト、学生など、さまざまなユーザーにとって不可欠なツールとなっています。

音声文字起こしにより、音声録音に含まれる重要な情報を簡単に見つけることができます。例えば、ジャーナリストはスピーチやインタビューの録音全体を聴く代わりに、文字起こしされた音声データを簡単に検索し、必要な詳細を見つけることができます。また、音声文字起こしによって、一般的なメモ作成も大幅に容易になります。

また、聴覚障害やその他の障害を持つユーザーを支援するため、アクセシビリティツールとしてもよく利用されています。教授の話を理解したり、講義についていくのが難しい学生は、録音した音声を後処理するよりも、リアルタイムの音声文字変換からより大きな恩恵を受ける可能性があります。

一般的に、音声文字変換にはデバイス内とクラウドベースの2つのアプローチがあります。それぞれに長所と短所があり、ユーザーは自分に適したアプリを選ぶ際にそれらを考慮する必要があります。

デバイス内音声文字起こしでは、音声はユーザーのハードウェア上でローカルに処理され、外部サーバーに接続することなくテキストに変換されます。録音と文字起こしはどこにも送信されないため、ユーザーのプライバシーは完全に保護されます。

クラウドベースの音声文字起こしは、音声ファイルをインターネット経由で専用サーバーに送信し、文字起こしソフトウェアをインストールすることで機能します。ファイルの文字起こしが完了すると、テキスト出力がエンドユーザーに返されます。このタイプの文字起こしはCPU負荷が低く、幅広いデバイスで利用できます。

音声文字起こしに関しては、ユーザーは複数のアプリやサービスから選択できます。デバイス上で音声処理を行うアプリもあれば、外部サーバーを介してリモートで音声文字起こしを行うウェブベースのサービスもあります。結局のところ、それぞれのアプローチには長所と短所があり、デバイス上での文字起こしとクラウドベースの処理にはそれぞれ独自のユースケースがあります。

オフライン文字起こし — その用途と理由

オフラインでの文字起こしは、機密性の高い情報を含む音声録音に最適です。例えばジャーナリズムにおいては、機密事項について報道機関に話す個人の個人情報を保護するのに役立ちます。

デバイス上で音声を文字起こしするということは、文字起こしのプロセス中に機密情報を誤って送信する可能性が事実上なくなることを意味します。

理論上は、権限のない第三者がこれらの録音を盗聴したり、転写されたファイルを閲覧したりすることはできませんが、アクティブなインターネット接続を必要とする転写サービスでは、それが可能になる可能性は残っています。

ビジネス会議の録音には、企業計画、マーケティング、ブランディング、投資戦略、製品開発の詳細など、機密情報が含まれる可能性が高くなります。そのため、デバイス上での文字起こしは、こうした種類の録音に最適な選択肢となります。

セラピーセッションや医療記録などの医療情報を含む記録には、明らかに個人情報や機密情報が含まれています。デバイス上で処理することで、関係者全員のプライバシーが確保され、特に著名人や著名人にとって有用となるでしょう。

さらに、オフライン音声文字起こしは日記にも活用できます。インターネット接続のない遠隔地や田舎を訪れる場合、音声処理はデバイス内蔵の文字起こしツールでしか行えません。ネットワーク関連の要件がないため、オフライン音声文字起こしを使えば、汎用的なメモ作成も容易になります。

リアルタイム音声文字起こしの重要性、クラウドベースのアプリが便利な理由

Otter.aiのようなオンライン専用の音声文字起こしサービスは、音声をリアルタイムで処理できます。つまり、会議、電話会議、講義、ライブストリーミング、ポッドキャストなどを、その場で文字起こしできるのです。

歌詞の書き起こしを表示するメモアプリ画面。要約キーワードがハイライト表示されます。左パネルにはユーザー情報とアプリのナビゲーションが表示されます。右パネルにはチャットと要約セクションが表示されます。

Otter.ai は、会議の内容をリアルタイムで書き起こし、発言者を識別することもできるクラウドベースのサービスです。

ジャーナリズムにおいて、リアルタイムの文字起こしは特にライブイベントに役立ちます。これには、記者会見、授賞式、スピーチ、企業や政府関係者による発表、製品発表イベント、特定の企業の四半期決算説明会などが含まれます。

このようなイベントでは、ジャーナリストはイベントのキーとなる一文、つまり重要な統計やデータポイントを含む記事を書くという任務を負うことがあります。タイミングが極めて重要であるため、リアルタイムの文字起こしが不可欠です。

学生など、他のタイプのユーザーは、講義中に効率的にメモを取るために、リアルタイムの文字起こしが必要になる場合があります。個々の単語や重要な文章がすぐに文字起こしされるため、講義の中で注目すべき核となる概念、アイデア、フレーズを見つけやすくなります。

多くのオフライン文字起こしアプリは、リアルタイムの音声文字起こしを提供できません。一方、AppleのiOS 18は、まだベータ版ではありますが、内蔵のメモアプリにオフラインでのリアルタイム文字起こし機能を導入しました。これにより、一部のクラウドベースの音声文字起こしサービスの潜在的な競合となる可能性があります。

Apple のオフライン音声文字変換はさまざまなプラットフォームで利用できますが、当然ながら Apple ブランドのシステムと同社の最新ソフトウェアでのみ利用可能です。

Otter.aiのようなWebベースの製品はクロスプラットフォームで利用できます。つまり、スマートフォン、ノートパソコン、タブレットなど、最新のWebブラウザを搭載したあらゆるデバイスで、リアルタイムに音声を文字起こしできます。

OpenAIのWhisperをベースにしたアプリなど、多くのサードパーティ製オフライン文字起こしアプリは、単一のプラットフォームに限定されています。Mac専用のアプリもあれば、WindowsまたはiPhoneのみで利用可能なアプリもあります。

OpenAIのWhisperモデルとデバイス内文字起こしへの活用

近年の人工知能(AI)の普及により、音声、動画、画像、テキストファイルを処理できるアプリケーションや生成AIモデルがますます増えています。OpenAIのWhisperのように、デバイス上で音声文字起こしを行うAIモデルも存在します。

2022 年 9 月 21 日にリリースされた、英語の音声認識において人間レベルの堅牢性と精度を実現するニューラル ネット Whisper をご紹介します。リンクをクリックすると、論文、コード、モデル カードにアクセスできます。

OpenAIのWhisperモデルは2022年に導入され、オープンソースです。画像出典:OpenAI.com

2022年にリリースされたWhisperは、AIを活用した文字起こしソフトウェアの中でも特に人気があります。Whisperはオープンソースであり、そのAIモデルはOpenAIのGitHubページから無料でダウンロードして誰でも利用できます。

このソフトウェアは68万時間以上の音声で学習されており、複数のAIモデルを搭載し、様々な精度と速度で文字起こしを生成します。Whisperは99の言語に対応しているため、翻訳にも使用できます。

WhisperのAIモデルは、インターネット接続なしでもデバイス上で音声を完全に書き起こすことを可能にします。ただし、WhisperのAIモデルは最大2GBのサイズになるため、ストレージ容量を犠牲にすることになり、256GBのようなストレージ容量の少ないコンピューターでは多すぎると言えるでしょう。

ただし、OpenAIのGitHubページからWhisperを直接インストールするのは、GUIタイプのmacOSアプリをインストールするほど簡単ではないことに注意してください。ターミナルコマンドなどを使用する必要があるため、一部のユーザーにとっては面倒に感じるかもしれませんが、まさにその理由から、開発者たちはWhisperをアプリに組み込んでいます。

サードパーティアプリがOpenAIのWhisperを使用する理由、収益の上げ方、そしてメリット

多くの企業が、よりユーザーフレンドリーなエクスペリエンスを実現するために、OpenAIのWhisperを活用したmacOSおよびiOS向けのGUIアプリケーションを開発しています。MacWhisperやWhisper Transcriptionといった製品がこれに含まれ、Whisperは77ドルのAudio Hijackといった既存のオーディオ関連アプリにも搭載されています。

「1、2、3」の文字起こしとAI機能搭載MacWhisper Proへのアップグレードプロンプトを表示するソフトウェアインターフェース。プロンプトとオプションは右側のサイドバーに表示されます。

OpenAIのWhisperを搭載した多くのサードパーティ製アプリケーションは、AIを活用したテキスト編集ツールを提供している。

Whisper を搭載したアプリの多くは、小規模な Whisper AI モデルへのアクセスを提供することで、基本的な文字起こし機能を無料で提供しています。これらのモデルは迅速な文字起こしを実現しますが、より大規模で複雑な AI モデルを使用して作成された文字起こしほど正確ではない場合があります。

一般的に、これらのタイプのアプリは、それぞれの GUI 環境内でより大きな Whisper モデルの使用料を請求したり、AI による要約やドラフト作成などの追加機能を追加したりすることで利益を上げています。

OpenAIのWhisperモデルを搭載したサードパーティ製の文字起こしアプリケーションは、エンドユーザー向けの追加機能を提供する場合があります。例えば、音声の文字起こしだけでなく、一部のサードパーティ製アプリでは、文字起こしに基づいてブログ記事、メール、ソーシャルメディア投稿の下書きを作成できる場合もあります。

しかし、これらの追加機能の欠点は、多くの場合、動作にインターネット接続が必要になることです。Whisperを利用したテキスト編集機能を備えたほとんどのアプリでは、追加のトランスクリプト編集は、同じくOpenAIが開発したChatGPT-4oに接続して使用することで行われます。

OpenAIのWhisperモデルに基づくデバイス内文字起こしアプリ

Whisperをベースにした多くの音声文字起こしアプリケーションは、より大規模なWhisper AIモデルの利用に対して料金を請求します。一部のアプリでは、OpenAiのChatGPTを搭載した文字起こし編集ツールや下書き作成ツールも提供していますが、こちらは追加料金がかかります。

例えば、macOS版Whisper Transcriptionでは、より大規模なWhisper AIモデルとChatGPTベースの機能を利用するには月額サブスクリプションが必要です。アプリには3つのサブスクリプションオプションがあります。

  • 週プランは4.99ドル
  • 月額プランは8.99ドル
  • 1年間の購読料は24.99ドル

また、59.99 ドルの 1 回限りの料金でアプリのすべての機能に無期限にアクセスできる生涯購入オプションもあります。

macOS向けの音声文字起こしアプリ「MacWhisper」も、より大規模なWhisper AIモデルの使用とChatGPTとの連携には料金がかかります。個人利用の場合、MacWhisper Proライセンスは39.99ユーロ(44米ドル)の一括払いで購入できます。ジャーナリスト向けには50%割引もありますが、開発者([email protected])にメールを送信する必要があります。

MacWhisperを複数のマシンで同時に実行する必要があるビジネスユーザーは、MacWhisper Proライセンスを5個、10個、または20個まで購入できるパッケージをご購入いただけます。価格は以下のとおりです。

  • MacWhisper Proライセンス5個で125ユーロ(138米ドル)
  • MacWhisper Proライセンス10個につき200ユーロ(USD 221)
  • MacWhisper Proライセンス20個で300ユーロ(331米ドル)

しかし、真の愛好家であれば、いつでも OpenAI の GitHub から Whisper の無料 CLI (コマンドライン インターフェイス) バージョンをインストールして、前述のより大規模な AI モデルにアクセスすることができます。

つまり、MacWhisperやWhisper Transcriptionといったアプリは、OpenAIのWhisperをより手軽に利用できる方法を提供し、場合によってはAIを活用した追加機能も提供しています。これがユーザーにとって魅力的な点です。

現在市場に出回っているクラウドベースの文字起こしアプリ

Whisper を搭載したデバイス内文字起こしツールやアプリの多くは、リアルタイム文字起こしに対応しておらず、音声録音のみに対応しています。そこで、イベントをリアルタイムで文字起こしできるクラウドベースのアプリやサービスが役立ちます。

クラウドベースの音声文字起こしアプリには、様々な選択肢があります。OpenAIのWhisperをベースにしたような、デバイス上で処理する文字起こしアプリと同様に、クラウドベースのアプリにも様々なサブスクリプションオプションが用意されています。時間単位の料金体系を採用しているサービスもあります。

Speechmaticsインターフェースには、ライブ入力、ライブ文字起こし、ライブ翻訳の3つのセクションが表示されています。シモーネ・バルラームのパラリンピック世界記録に関する文字起こしと翻訳。

Speechmaticsのウェブサイトでは、リアルタイム音声文字起こしのライブデモを公開しています。

Otter.aiなどのサービスは、イベント発生時にリアルタイムでトランスクリプトを作成し、その場ですぐに確認できます。Otterは録音にタイムスタンプを付与したり、個々の話者を特定したりできるため、ビジネスアプリケーションに最適です。

Otterの無料版では、1録音あたり30分、月300分の文字起こしが可能です。有料版には、以下の2つの月額サブスクリプションオプションがあります。

  • 月間1200分の文字起こし(1会話あたり90分)で8.33ドル
  • 月間6000分の文字起こし(1会話あたり4時間)で20ドル

Otter.aiと同様の機能を提供するZoomも、独自のバーチャルミーティングの文字起こしサービスを提供していますが、Pro(月額14.99ドル)、Business(月額21.99ドル)、またはEnterpriseライセンスでのみ利用可能です。また、Zoomでクラウドレコーディングを有効にする必要があります。

Speechmaticsは、クラウドベースのAI搭載音声文字起こしサービスで、リアルタイムで結果を提供します。同社のウェブサイトのトップページには、BBCの生放送の音声を書き起こすこの機能のデモも掲載されています。

Speechmaticsの無料版では、月間8時間分の音声文字起こしが可能です。有料版をご利用のお客様は、Speechmaticsのウェブサイトで、音声文字起こしサービスの時間単位の料金プランをご確認いただけます。

同社は、リアルタイムの音声文字変換と音声録音の処理の両方において、さまざまなレベルの音声文字変換精度を提供しています。

録音済みオーディオの場合、料金は次のとおりです。

  • 「ライトモード」の文字起こしは1時間あたり0.30ドル
  • 標準精度の転写の場合、1時間あたり0.80ドル
  • 精度の高い転写には1時間あたり1.04ドルかかります

ライブ音声を書き起こすには、ユーザーは料金を支払う必要があります。

  • 標準精度の転写の場合は1時間あたり1.04ドル、または
  • 精度の高い転写には1時間あたり1.65ドルかかります

Speechmaticsをサブプロセッサとして使用するMAXQDAは、さまざまな種類のテキスト、文献、インタビューなどを分析できる定性分析プログラムです。このアプリは、ユーザーがソフトウェアを購入し、MAXQDA AI Assistライセンスを保有している場合、音声の書き起こし機能も提供しています。

同社は、書き起こし音声の1時間あたりの料金を請求します。個人顧客の場合、MAXQDAの料金は以下の通りです。

  • 2時間分の音声(書き起こし済み)23.80ユーロ(USD 26.27)
  • 5時間分の音声(書き起こし済み)58.31ユーロ(64.37米ドル)
  • 10時間分の音声(書き起こし済み)92.82ユーロ(102.47米ドル)
  • 20時間分の音声(書き起こし済み)178.50ユーロ(USD 197.05)

VoicePenは、OpenAIのWhisper APIまたはサーバー上にデプロイされたWhisper AIモデルを介して、クラウドベースの音声文字起こし機能を提供するメモアプリです。また、Mac版Whisper Transcriptionと同様の、オンラインのみで動作するAI搭載の文字起こし編集ツールも搭載されています。

このアプリでは、ライブトランスクリプション、ChatGPT-4oによるAIによる書き換えなど、様々な機能にアクセスできるサブスクリプションオプションを提供しています。ユーザーは以下からお選びいただけます。

  • 週購読料4.99ドル
  • 月額9.99ドル
  • 年間購読料44.99ドル

OpenAIのWhisper AIモデルを搭載したものなど、デバイス上で音声を処理する音声文字変換アプリと比較すると、クラウドベースのサービスには深刻な欠点がしばしばあります。しかし、メリットももちろんあります。

クラウドベースの処理と比較したWhisperのオンデバイスAIモデルの利点

OpenAIのWhisperモデルは、デバイス上で使用する場合、他の文字起こしサービスと比較して複数の利点があります。Whisperとその多くのアプリ型サービスは、プライバシーを保護しながら、わずかなコストまたは無料でデバイス上で文字起こしを行いながら、許容できるレベルの精度とパフォーマンスを実現します。

テキストエディタに、木々が生い茂る美しい山の風景が重ねて表示されています。エディタ画面に表示されるテキストは歌詞です。下部にはオーディオファイルと再生バーが表示されています。

OpenAIのWhisper AIモデルは、Whisper TranscriptionなどのmacOS用の文字起こしアプリで見つけることができます。

OpenAIのWhisperとは異なり、クラウドベースの文字起こしサービスの無料版には通常、様々な制限や制約が設けられています。多くの場合、こうしたアプリケーションやウェブサイトでは、ユーザーが文字起こしできる音声の量や文字起こし回数に制限を設けたり、音声ファイルの最大再生時間に制限を設けたりしています。

価格設定も検討すべき重要な問題です。クラウドベースの文字起こしサービスは時間単位またはサブスクリプションモデルで運営されています。つまり、文字起こしされた音声の1分ごと、または文字起こしが完了したごとに料金が発生します。一方、OpenAIのWhisperはオープンソースであり、誰でも無料で利用できます。

クラウドベースの文字起こしサービスを提供する多くの企業は、サブスクリプションモデルを長期にわたって利益を生み出す理想的な方法と見なしています。消費者の中には、おそらく一度きりの料金、あるいは全く支払いたくないと考える人もいるでしょう。

OpenAIのWhisperは、サポート言語の数においてもクラウドベースのサービスよりも優れています。Whisperは99言語をサポートしていますが、例えばOtter.aiは英語のみをサポートしています。

データのプライバシーとセキュリティに関する懸念の高まりは、クラウドベースの文字起こしサービスを悩ませる新たな問題となっています。多くの企業は、音声録音のファイル転送を暗号化し、データが第三者と共有されないと主張していますが、エンドユーザーにはこれらの主張を検証する簡単な方法がありません。

ハードウェアがインターネットに接続していない状態でも音声を文字起こしできるデバイス上のアプリケーションとは異なり、クラウドベースの文字起こしサービスやアプリに関しては、悪意のある行為者の影響が残る可能性があります。

クラウドベースの音声文字変換サービスの利点

クラウドベースの文字起こしアプリケーションにも独自のメリットがあります。中でも最も重要なのは、リアルタイムの音声文字起こし、クロスプラットフォーム対応、そしてスタンドアロンのデバイス搭載モデルに比べてアプリの機能が充実していることです。

ライブ文字起こし機能、会議の文字起こしの例、サービスを無料で試すか営業部に問い合わせるかのオプションを紹介する Otter.ai の Web ページのスクリーンショット。

Otter.aiはリアルタイムの音声文字変換機能を提供しており、ウェブブラウザから利用できます。画像クレジット:Otter.ai

一部の文字起こしサービスはWebベースのユーザーインターフェースを備えているため、Webブラウザを搭載したあらゆるデバイスで利用できます。つまり、macOSなどの特定のプラットフォームに限定されたアプリよりも便利です。

クラウドベースの処理を活用する文字起こしアプリは、ユーザーのストレージ容量を節約できます。クラウドベースの文字起こしアプリは、音声をリモートで処理することで、デバイスにAIモデルを保存する必要がなくなり、最大2GBのストレージ容量を節約できます。これは、Whisper AIモデルの容量に相当します。

クラウドベースの文字起こしアプリはサーバー上で音声を処理するため、デバイス上のモデルほどCPUを消費しません。クラウドベースのアプリは音声の文字起こしに必要な電力が少ないため、デバイス上の文字起こしモデルを頻繁に使用するよりもバッテリー寿命が長くなる可能性があります。

結局のところ、文字起こし関連のアプリの大半では、プライバシーとセキュリティ、またはリアルタイムのオーディオ処理とクロスプラットフォームの可用性の間のトレードオフに行き着きます。

Appleの音声文字起こし機能は、iOS 18のメモアプリにリアルタイムで動作するオフライン音声文字起こし機能が搭載されていることから、長期的には市場に影響を与える可能性があります。これにより、Wi-Fi接続の必要性がなくなり、ユーザーデータのセキュリティも確保されます。

iOS 18におけるAppleの音声文字起こしへのアプローチ

これらすべてを考慮すると、AppleがiOS 18、iPadOS 18、macOS Sequoiaの主要アプリ内でデバイス内音声文字変換機能を提供することを決定したことは驚くべきことではありません。同社は、特にユーザーデータに関しては、プライバシーとセキュリティを重視する伝統を持っています。

タブレットの画面には、録音されたテキスト、再生ボタン、および 00:03.16 を示すタイマーを備えた文字起こしアプリが表示されます。

AppleのiOS 18とiPadOS 18では、メモアプリでリアルタイムの音声文字変換がサポートされるようになりました。

6月10日に開催されたAppleの年次世界開発者会議(WWDC)で、同社は、メモ、電話、ボイスメモの3つの主要アプリ内でデバイス上の音声文字変換が利用できるようになると発表した。

Appleの文字起こし機能はメモアプリ内から追加のダウンロードが必要ですが、リアルタイムの文字起こしはデバイス上で完全に実行されます。この機能は、同社の最新オペレーティングシステム(iOS 18、iPadOS 18、macOS Sequoia)の現在の開発者向けベータ版ですでに利用可能です。

音声文字起こし機能はこれまでPodcastなどの他のアプリでも利用可能でしたが、メモ、ボイスメモ、電話アプリに追加されたことで、新たな活用方法が複数実現可能になります。また、Appleは同様の機能を提供する既存のサードパーティ製品やサービスとの競争にも参入できるようになります。

Appleがメモとボイスメモに音声文字変換機能を追加した理由

Appleのメモアプリは、音声文字起こしだけでなく、音声録音、画像、リンク、テキストなど、あらゆるものを1つのメモに埋め込むことができます。そのため、学生にもビジネスパーソンにも、このアプリは真の強力なツールとなっています。

新しい文字起こし機能は内蔵の Notes アプリケーション内に搭載されており、学生はこれを活用して講義を録音し、ホワイトボードの画像や追加のテキストなどでその録音を補足することができます。

Apple Intelligenceを使用すると、ユーザーは書き起こした音声の要約を作成したり、Writing Toolsでテキストを編集したりできるほか、テキストに関連するAI生成画像を追加できるようになる。

Appleは、こうした機能を追加することで、既存のサードパーティ製のメモ作成および文字起こしアプリに対抗すると同時に、Apple Intelligenceを通じてAI分野で激化する競争にも取り組んでいきたいと考えている。

iOS 18がサードパーティの文字起こしアプリ市場に及ぼす潜在的な影響

iOS 18は執筆時点ではまだベータ版であるため、メモとボイスメモ内のデバイス内音声文字変換機能は、ほとんどのユーザーのデバイスではまだ利用できません。そのため、Appleの機能が文字変換アプリ市場に与える影響を評価するのはやや困難です。

A tablet screen displays a note about teaching holistic health, focusing on the mind-body connection and an exercise called box breathing.

Apple Intelligenceを使用すると、ユーザーは書き起こした音声を要約したり、ライティングツールを使ってテキストを編集したりできますが、これは新しいAppleデバイスでのみ可能です。

それでも、VoicePenのティムール・カイルリン氏のようなサードパーティ製の文字起こしアプリの開発者は自信を保っている。カイルリン氏はAppleInsiderに対し、Appleの文字起こし機能は前向きな進展だと述べ、「AppleのiOS 18アップデートは市場を拡大するだけだ」と語った。

「ユーザーに新しい行動様式を導入し、時間の経過とともに普及が進む。これはAppleが得意とするところだ。同時に、一歩先へ進みたいユーザーのニーズに応えるアプリの市場は常に存在する」とカイルリン氏は述べた。

VoicePenの開発元は、サードパーティ製の文字起こしアプリケーションの価値は追加機能にあると主張しています。サードパーティ製のアプリは、音声文字起こしとAIを活用したテキスト編集・下書き作成ツール、複数の音声フォーマットのサポート、そして特定の市場を念頭に開発された機能を組み合わせることがよくあります。

AppleはiOS 18でデバイス上での音声文字起こしをスタンドアロン機能として提供していますが、文字起こしの編集や要約のためのツールはApple Intelligenceによって提供されています。つまり、ライティングツールやテキスト要約などのAI機能は、最新のiPhone 15 ProとiPhone 15 Pro Max、またはM1以降のチップを搭載したiPadとMacでのみ利用できます。

代替案として、クラウドベースの文字起こしアプリはChatGPTを活用した機能を提供しています。つまり、古いデバイスのユーザーは、ハードウェアがApple Intelligenceをサポートしていなくても、文字起こしを編集したり、ブログ記事、メール、ソーシャルメディア投稿の下書きを作成したりすることができます。

AppleInsiderとの会話の中で、VoicePenの開発者は、文字起こしアプリケーションは多くの場合、異なる市場やユースケースをターゲットにしていると主張しました。例えば、Khairullin氏は、Otter.aiはVoicePenのように音声からテキストへのメモを取るのではなく、会議などのライブイベントの文字起こしに主に焦点を当てていると主張しています。

Appleのデバイス内音声文字変換機能とApple Intelligenceを組み合わせることで、強力な機能を実現できますが、サードパーティ製の文字変換アプリ市場に真に匹敵したり、市場を脅かしたりするほどではありません。クラウドベースとオフラインの両方の文字変換サービスは、より幅広い機能を提供したり、古いデバイスをサポートしたりすることで、現在の地位を維持する可能性が高いでしょう。