スマホの超高精度音声認識をPCへ転送!「VoiceToPC」でPC音声入力が新時代へ

目次

世界最高精度(※)のPC音声入力アプリ「VoiceToPC」がGoogle Playに登場

有限会社パオ・アット・オフィスは、Androidスマートフォンの高精度な音声認識をPCへの文字入力として活用できるアプリ「VoiceToPC」をGoogle Playにて公開しました。このアプリは、Google PixelやGalaxyといったスマートフォンの持つ優れた音声認識能力をPCの入力手段として「そのまま」利用することを可能にします。

VoiceToPC 利用イメージ

なぜ「世界最高精度」と言えるのか

「VoiceToPC」が「世界最高精度」を謳う背景には、その技術的な仕組みがあります。アプリ自体が音声認識を行うのではなく、Google Pixel 7以降に搭載されたGoogle TensorチップやSamsungの音声認識エンジンといった、スマートフォンが内部で完結させる超高精度・超高速なオンデバイス音声認識をPCへ転送する「橋渡し」の役割を担っています。

これにより、クラウドに音声データを送ることなく、話した瞬間にテキストに変換されるスマートフォンの驚異的な音声入力精度を、PCで直接利用できるようになります。これは、Windows標準の音声入力や既存の有料サービスと比較しても、高い精度と速度を実現するとされています。

(※)汎用的なPCへの音声入力用途において。スマートフォンのオンデバイス音声認識をPC入力に転用する仕組みにより実現。

VoiceToPC スマホ画面

音声入力の時代に対応する「キラーアプリ」

現在のAIブームの中で、音声入力は重要な技術の一つとして注目されています。AIへの指令、メール作成、文書の下書きなど、キーボード入力から音声入力へと移行するユーザーが加速度的に増えている現状において、「VoiceToPC」はまさにこの時代のニーズに応えるアプリと言えるでしょう。

開発のきっかけは、開発者自身が愛用していた有料音声入力サービスが、客先のネットワークセキュリティやリモートデスクトップ環境で利用できないという課題に直面したことでした。その経験から自ら開発した「VoiceToPC」は、既存の有料サービスを凌駕する精度と速度を実現したと語られています。

セキュリティを犠牲にしない設計

「VoiceToPC」の設計において、セキュリティは重要な要素として考慮されています。音声データはクラウドに一切送信されず、スマートフォン内部で完結する音声認識の結果(テキスト)のみがPCに送信されます。この通信経路は、RSA 2048ビットの鍵ペアとX.509証明書によるTLS 1.2暗号化で保護されています。

これにより、セキュリティが厳しい企業環境でも安心して利用できる設計となっており、クラウド型音声入力サービスが利用できない環境での活用が期待されます。

スマホからPCへのテキスト転送イメージ図

究極のシンプルさと裏側の技術力

アプリの操作画面は一つのみで、接続ボタンを押してPCを選び、あとは話すだけという究極のシンプルさを実現しています。このシンプルさの裏側には、KDE Connectプロトコル(バージョン8)の独自実装や、UDPブロードキャストとポートスキャンによるPCの自動発見、SSL/TLSハンドシェイク後のIdentityパケット再交換など、高度な技術が凝縮されています。

接続の安定性にも配慮されており、5秒間隔の接続モニターがTCPの生存を常にチェックし、異常を検知すれば即座に自動再接続を試みます。スリープからの復帰時やアプリ再起動後も接続を維持・復元する設計で、ストレスなく利用できます。

テキストは一度スマートフォンに蓄積され、ユーザーのタイミングでPCへ送信可能です。PC側で他のウィンドウに移動していても、送信ボタンを押した瞬間にアクティブなウィンドウにテキストが入力されます。

「VoiceToPC」の使い方

利用方法は非常にシンプルです。

  1. PC側にKDE Connectをインストールします。

    • https://kdeconnect.kde.org/download.html

    • 常駐アプリとして動作させない場合、起動しておく必要があります。

    • スマートフォンにVoiceToPCをインストールします。
    • 接続ボタンを押して、PCを選択します。
    • 話すだけで音声入力が可能です。

PCとスマートフォンが同じWi-Fiネットワーク上にあれば、PCは自動的に発見されます。有線LAN環境でも、同社が提供する「Pao.Hotspot」(有線LANのPCをWi-Fiルーター化するアプリ)と組み合わせることで、高精度な音声入力環境を構築できます。

対応言語と料金体系

日本語、英語、中国語、韓国語に対応しており、スマートフォンのネイティブな音声認識を活用するため、どの言語でも高精度な入力が可能です。アプリのUIも4言語に対応し、端末の言語設定から自動判定されます。

料金体系は、一定回数(30回以上)まで無料で利用でき、それを超えた場合に月額300円のサブスクリプションとなります。サブスクリプションをキャンセルしても、利用ができなくなるわけではありません。まずは無料でダウンロードし、その精度と速度を体験できます。

スマホ画面キャプチャ(接続完了→音声入力中の画面)

製品詳細

開発元

有限会社パオ・アット・オフィス

「VoiceToPC」は、音声入力の精度が仕事や生活の質を大きく左右する現代において、その最高峰を目指すアプリと言えるでしょう。まずはGoogle Playからダウンロードし、その速度と精度を体験してみてはいかがでしょうか。

コメント

コメントする

CAPTCHA

目次