На Github з’явився безплатний ШІ-інструмент Ecoute — він генерує транскрипцію будь-якого прямого ефіру і швидко видає відповіді на щойно озвучені питання.
На Github розміщено відео, на якому включена симуляція співбесіди. ШІ розпізнає мову, перетворюючи її в текст та в окремій вкладці генерує відповідь.
Відповідно, користувач може зачитати відповідь на тестове завдання своєму потенційному роботодавцю.
Якщо FFmpeg не інстальовано, то спочатку потрібно встановити Chocolatey, менеджер пакетів для Windows. Після цього — відкрити PowerShell з правами адміна і виконат таку команду:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Після встановлення Chocolatey ви можете встановити FFmpeg, виконавши таку команду в PowerShell:
choco install ffmpeg-full
Переконайтеся, що ви запускаєте ці команди у вікні PowerShell з правами адміністратора. Якщо під час інсталяції у вас виникнуть проблеми, ви можете відвідати офіційні веб-сайти Chocolatey і FFmpeg для вирішення проблем.
Клонуйте репозиторій
git clone https://github.com/SevaSk/ecoute
Перейдіть до ecoute
папки:
cd ecoute
Встановіть необхідні пакети:
pip install -r requirements.txt
Створіть keys.py
файл і додайте ключ OpenAI API:
echo 'OPENAI_API_KEY = "API KEY"' > keys.py
Замініть API KEY
справжнім ключем OpenAI API.
Запустіть основний сценарій:
python main.py
Тепер Ecoute почне транскрибувати вхідний сигнал із мікрофона та динаміка в режимі реального часу та надасть запропоновану відповідь на основі розмови. Може знадобитися кілька секунд, щоб розігрітися, перш ніж транскрипція стане в режимі реального часу.
Незважаючи на те, що Ecoute надає транскрипцію в реальному часі та пропонує відповіді, є кілька відомих обмежень його функціональності.
Ecoute наразі налаштовано на прослуховування лише мікрофона та динаміка за замовчуванням у вашій системі. Він не виявить звук з інших пристроїв або систем. Якщо ви хочете використовувати інший мікрофон або динамік, вам потрібно буде обрати його як пристрій за замовчанням у налаштуваннях.
Застосунок використовує «крихітну» версію моделі Whisper ASR через низьке споживання ресурсів і швидкий час відгуку. Однак ця модель може бути не такою точною у транскрипції певних типів мовлення, зокрема наголосів або незвичайних слів.
Модель Whisper, яка використовується в Ecoute, налаштована на англійську. Як наслідок, вона може неточно транскрибувати неанглійські мови чи діалекти.
Зазначимо, нещодавно українські розробники створили ШІ-інструмент дубляжу 70 мовами.
Читайте також:
Projector запустив чат-бот, який допомагає обрати професію в IT
Без СhatGPT та «попси»: 12 інструментів ШІ та платформ, що допоможуть знайти роботу в IT
Google запустить ШІ для кодування: він працюватиме на новій моделі PaLM 2 та розумітиме українську
Google оголосила, що бібліотека адаптивних макетів Compose 1.2 офіційно переходить у бета-версію. Вона надає розробникам…
Опитування Dice, проведене серед понад 200 IT-працівників, виявило широке розчарування автоматизованою перевіркою резюме. Багато респондентів…
Зловмисники використовують Grok, вбудований у X помічник на основі штучного інтелекту, щоб обійти обмеження на…
На GitHub виклали оригінальний вихідний код інтерпретатора BASIC 1.1 для процесора MOS 6502. Microsoft датує…
Компанія OpenAI оголосила, що функція Projects стала доступною для безкоштовних користувачів ChatGPT. Проекти дозволяють каталогізувати…
Міністерство цифрової трансформації оголосило конкурс для бажаючих взяти участь у розробці та навчанні української великої…