Компания вступает в конкуренцию с такими игроками, как Wispr Flow, Willow и Superwhisper, которые также предлагают приложения для диктовки и транскрипции на различных платформах. Speechify заявила, что приложение для Windows обрабатывает голосовые данные полностью на устройстве на компьютерах Copilot+ (с NPU от AMD, Intel и Qualcomm) и других ПК с Windows 11, оснащенных GPU от Intel и AMD. В приложении задействованы три модели, работающие на устройстве: нейронная система преобразования текста в речь, обнаружение голосовой активности в реальном времени и транскрипция на базе Whisper. Пользователи могут настроить приложение для переключения на облачные модели или даже изменять их во время использования. Компания, насчитывающая более 50 миллионов пользователей, отметила, что VITS Neural может генерировать аудио на семи различных скоростных пресетах, позволяя пользователям слушать документы или веб-страницы. Для обнаружения голосовой активности компания использует модель с открытым исходным кодом Silero.
«Более миллиарда человек на планете используют Windows. С запуском нашего приложения на Windows мы гарантируем, что чтение и теперь написание не станут барьером, независимо от того, какое устройство вы используете или как предпочитаете работать. Мы особенно рады возможности в корпоративном сегменте, учитывая, сколько профессионалов просили о Speechify на своих ПК», — заявил Клифф Вайцман, основатель и генеральный директор Speechify, в своем заявлении.
В прошлом месяце компания запустила функцию транскрипции встреч, подобную Granola, но эта функция была ограничена встречами в браузере. Теперь, когда у компании есть приложения на различных платформах, вероятно, эта функция будет добавлена в нативные приложения для транскрипции встреч в любом приложении или браузере. До недавнего времени Speechify в основном фокусировалась на использовании преобразования текста в речь, например, для чтения статей и электронных писем, а также создания подкастов из документов. В последнее время компания стремится стать полноценным голосовым приложением для пользователей, запуская функции диктовки, транскрипции встреч и голосового помощника.