GoogleはML Kitと呼ばれる新しい機械学習SDKをリリースした。これは開発者がAndroidおよびiOSアプリに機械学習ベースの機能を追加する方法を提供するもので、Googleの新しいフレームワークはAppleが同様のCore MLプラットフォームを導入してからほぼ1年後にリリースされた。
火曜日のGoogle I/Oで発表されたML Kitは、開発者がアプリに組み込むことができる多数のAPIで構成されており、機械学習に関する事前の知識はほとんど必要ありません。これらのAPIはすべてGoogleによって提供され、徹底的なトレーニングを受けているため、開発者は独自のモデルを構築し、適切なトレーニングにリソースを費やす必要がなくなります。
GoogleがML Kitで提供する既存のモデルは、テキスト認識、顔検出、画像のラベル付け、ランドマークの認識、バーコードスキャンなどが可能で、これらはすべてデバイスのカメラから取得される画像データに基づいています。今後、メッセージにスマート返信を追加するAPIや、画像に画像処理効果を加えるのに役立つ顔検出API用の高密度顔輪郭検出機能などが追加される予定です。
ML Kit APIは2つのバージョンで提供されており、それぞれにトレードオフがあります。クラウドベースバージョンはインターネット接続が必要ですが、高い精度を提供します。一方、デバイスオンバージョンは精度が低く、デバイスの処理能力に依存しますが、オフラインでも使用できます。
例えば、オフライン版では写真に写っている犬を特定できますが、その動物のより詳細な情報を把握することは難しいでしょう。オンライン版に切り替えると、APIは写真に写っている犬の品種を提案することもできます。
開発者には両方のAPIバージョンが提供されますが、デバイス上で動作するバージョンのみが完全に無料となります。クラウドベースのAPIを利用する開発者は、GoogleのモバイルおよびウェブアプリケーションプラットフォームであるFirebaseを使用する必要があり、こちらは有料となります。
Google は当初、限定的な早期プレビューで API へのアクセスを提供していますが、ML Kit の使用を開始するためのドキュメントはすでに提供しています。
ML Kit のクロスプラットフォームな性質は、Apple 独自の Core ML (WWDC 2017 で発表された機械学習フレームワーク) と競合することになります。性質は似ており、開発者は API を使用することで機械学習を使用してアプリを改良できます。これには、Metal や Accelerate などの Apple の低レベル技術を活用したさまざまなモデル タイプが含まれます。
Core MLで提供される初期APIには、顔追跡・検出、ランドマーク検出、テキスト検出、バーコード検出、オブジェクト追跡、画像登録といったコンピュータービジョン要素が含まれていました。また、言語識別、トークン化、レマタイズ、固有表現抽出機能などを提供する自然言語処理APIも利用可能です。