На Github з’явився безплатний ШІ-інструмент Ecoute — він генерує транскрипцію будь-якого прямого ефіру і швидко видає відповіді на щойно озвучені питання.
На Github розміщено відео, на якому включена симуляція співбесіди. ШІ розпізнає мову, перетворюючи її в текст та в окремій вкладці генерує відповідь.
Відповідно, користувач може зачитати відповідь на тестове завдання своєму потенційному роботодавцю.
Якщо FFmpeg не інстальовано, то спочатку потрібно встановити Chocolatey, менеджер пакетів для Windows. Після цього — відкрити PowerShell з правами адміна і виконат таку команду:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Після встановлення Chocolatey ви можете встановити FFmpeg, виконавши таку команду в PowerShell:
choco install ffmpeg-full
Переконайтеся, що ви запускаєте ці команди у вікні PowerShell з правами адміністратора. Якщо під час інсталяції у вас виникнуть проблеми, ви можете відвідати офіційні веб-сайти Chocolatey і FFmpeg для вирішення проблем.
Клонуйте репозиторій
git clone https://github.com/SevaSk/ecoute
Перейдіть до ecoute
папки:
cd ecoute
Встановіть необхідні пакети:
pip install -r requirements.txt
Створіть keys.py
файл і додайте ключ OpenAI API:
echo 'OPENAI_API_KEY = "API KEY"' > keys.py
Замініть API KEY
справжнім ключем OpenAI API.
Запустіть основний сценарій:
python main.py
Тепер Ecoute почне транскрибувати вхідний сигнал із мікрофона та динаміка в режимі реального часу та надасть запропоновану відповідь на основі розмови. Може знадобитися кілька секунд, щоб розігрітися, перш ніж транскрипція стане в режимі реального часу.
Незважаючи на те, що Ecoute надає транскрипцію в реальному часі та пропонує відповіді, є кілька відомих обмежень його функціональності.
Ecoute наразі налаштовано на прослуховування лише мікрофона та динаміка за замовчуванням у вашій системі. Він не виявить звук з інших пристроїв або систем. Якщо ви хочете використовувати інший мікрофон або динамік, вам потрібно буде обрати його як пристрій за замовчанням у налаштуваннях.
Застосунок використовує «крихітну» версію моделі Whisper ASR через низьке споживання ресурсів і швидкий час відгуку. Однак ця модель може бути не такою точною у транскрипції певних типів мовлення, зокрема наголосів або незвичайних слів.
Модель Whisper, яка використовується в Ecoute, налаштована на англійську. Як наслідок, вона може неточно транскрибувати неанглійські мови чи діалекти.
Зазначимо, нещодавно українські розробники створили ШІ-інструмент дубляжу 70 мовами.
Читайте також:
Projector запустив чат-бот, який допомагає обрати професію в IT
Без СhatGPT та «попси»: 12 інструментів ШІ та платформ, що допоможуть знайти роботу в IT
Google запустить ШІ для кодування: він працюватиме на новій моделі PaLM 2 та розумітиме українську
Розробник Ендрю Ярос продемонстрував веб-емулятор оригінальної операційної системи Lisa OS, яка є першою графічною ОС…
Експерти відділу безпеки Cisco Talos розкрили оператора шкідливих програм як послуги (Malware-as-a-Service, MaaS), який використовував…
У першій половині 2025 року було викрадено понад $2,17 млрд у криптовалюті, що більше, ніж…
Компанія OpenAI представила агента ChatGPT, який позиціонується як інструмент, що може виконувати роботу від імені…
Користувачі інструменту командного рядка Claude Code неочікувано зіткнулися з обмеженням лімітів використання, в тому числі…
Intel планує звільнити ще 5000 працівників на додачу до 20 000, яких скоротили цього року.…