«яндекс» научил «алису» читать с выражением электронные книги

Содержание:

Аналитика по телефонным звонкам для бизнеса
Переводчики с озвучкой
- translate.google.com
- Яндекс Переводчик
Балаболка – бесплатная программа для озвучивания (Windows)
Пример на Python
Работа с файлами телефонных звонков
Интеграция 1С с ГИИС ДМДК
Что такое синтезаторы речи
Подготовимся. Настройка профиля CLI
- Активация аккаунта на облаке
- В облака – через командную строку
Мобильные синтезаторы
Достоинства
Приложения для чтения книг голосом
Программы для озвучки текста
Reviews
Как подключаться к сервисам Яндекса
Если вам позвонили из Yandex. Эти загадочные токены
Настраиваем доступ

Аналитика по телефонным звонкам для бизнеса

Что может принести бизнесу распознавание телефонных звонков?

Во-первых, это увеличение закрытых сделок. Если разработать скрипт разговора совместно с продажниками, с HR-менеджерами, с руководством, и контролировать, как менеджер по этому скрипту разговаривают, это поможет увеличить количество закрытых сделок.
Во-вторых, можно искать вхождение слов. Допустим, менеджер при разговоре с клиентом произносит несколько раз слово «Заказ», «Сделка», «Доставка» – потом по этим словам можно сделать отбор, найти в справочнике все звонки, где эти слова встречались, и, допустим, перезвонить клиенту еще раз, либо передать в доставку. Это позволит не потерять эту сделку.
В-третьих, в конце месяца можно посмотреть количество минут, проговоренных каждым из менеджеров, и скоррелировать это с зарплатой – это еще один KPI для менеджеров.
В-четвертых, это проверка ошибок. Руководство может посмотреть, кто первый предложил предоставить скидку – это сделал менеджер либо это попросил клиент. Также можно делать разбор конфликтов. Я считаю, что для бизнеса это нужно и позволяет увеличить прибыль.

Переводчики с озвучкой

Подобные решения незаменимы при изучении иностранных языков. Новички в начале своего обучения не могут нормально читать транскрипции слов. В этом случае переводчики с функцией синтеза речи помогут быстрее освоить иностранный язык. Самые популярные решения в этой сфере – Google Translate и Яндекс.Переводчик. Оба сервиса доступны, как с ПК, так и со смартфонов.

translate.google.com

В переводчике от Google доступно 108 языков. Пользователь может вручную выставить язык оригинального текста и перевода или воспользоваться функцией автоматического определения языка. С помощью этого онлайн-переводчика можно озвучить как оригинальный, так и иностранный текст. Для этого нужно кликнуть по кнопке «Прослушать».

После этого откроется страница с переведенным текстом. Запустить чтение перевода нельзя.

Яндекс Переводчик

Переводчик от Яндекса обладает интерфейсом схожим с Google Translate. В одно окошко вставляется исходный текст, а в другом появляется его перевод. При нажатии на кнопку звука нейросеть зачитывает введенные пользователем слова.

Данный сервис также предоставляет пользователям возможность бесплатно перевести сайты, документы, надписи на изображениях.

Балаболка – бесплатная программа для озвучивания (Windows)

Балаболка – настольная программа, использует встроенный речевой синтезатор Speech API. Работает на платформе Windows (XP/7/8/10). Для ее работы, как правило, не требуется установка дополнительных языковых или звуковых пакетов. Скачиваете, устанавливаете и пользуетесь. К слову, есть портативная сборка “Балаболки” – она не требует даже установки и умеет запускаться с флешки.

Отметим особенности этой “говорилки”:

Переключение между Speech API 4, 5 и Microsoft Speech Platform: в зависимости от версии ОС, может использоваться тот или иной речевой синтезатор.
Настройка скорости, высоты звуков и громкости.
Чтение текста из различных источников: буфер обмена, документ, текстовый файл, загруженный через меню “Балаболки”.; текст, набираемый на клавиатуре.
Проверка орфографии, учет знаков препинания.
Дробление текста на фрагменты, сравнение файлов.
Использование в качестве программы для озвучивания книг. Поддерживаются различные форматы электронных книг и документов: AZW, CHM, DjVu, DOC, DOCX, EPUB, FB2 и прочие.
Конвертация текста в аудио (форматы – WAV, MP3, MP4, OGG и WMA) и наоборот.

В общем, “Балаболка” – отличная и к тому же бесплатная программа, которая дает фору онлайн-сервисам. В ней нет раздражительной рекламы, а интерфейс очень понятен и привычен более-менее осведомленному Windows-пользователю.

Пример на Python

Код на Python 3.8 для озвучивания текста. Для примера я взял текст А.С. Пушкина из Повестей Белкина, потому что он уже в public domain и на него не распространяются авторские права. Текст я сохранил в кодировке и немного почистил от сносок. Так же оставил только русские переводы французских фраз, так как SpeechKit не поддерживает французский язык.

Я заметил, что несмотря на то, что поддерживается синтез звука по отрывкам текста длинной до 5000 тыс знаков, лучше работает с небольшими кусками. Поэтому я поделил текст на отдельные предложения и озвучивал их.

У SpeechKit есть мужские и женские голоса и теоретически, женские реплики можно было бы озвучить отдельно другим голосом, но для этого пришлось бы дополнительно разметить текст, а я хотел сделать максимально простой пример.

Размер выбранного произведения — 22 тыс. знаков. Озвучивание его при помощи премиального голоса Филипп обошлось в 27₽.

Этот скрипт побьет текст на предложения, озвучит их в SpeechKit и потом склеит результат при помощи .

Как установить ffmpeg на ваш компьютер можно посмотреть тут.

Весь код примера на гитхаб.

Кстати если вам хочется получить вместо Ogg Opus файла обычный MP3, то сделать это можно при помощи того же .

Для этого нужно выполнить следующую команду

ffmpeg -i out/output.ogg -acodec libmp3lame out/output.mp3

После этого в терминале вы увидите примерно следющее

ffmpeg version 4.3.1 Copyright (c) 2000-2020 the FFmpeg developers  built with Apple clang version 12.0.0 (clang-1200.0.32.28)  configuration: --prefix=/usr/local/Cellar/ffmpeg/4.3.1_9 --enable-shared --enable-pthreads --enable-version3 --enable-avresample --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libbluray --enable-libdav1d --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-librtmp --enable-libspeex --enable-libsoxr --enable-videotoolbox --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack  libavutil      56. 51.100 / 56. 51.100  libavcodec     58. 91.100 / 58. 91.100  libavformat    58. 45.100 / 58. 45.100  libavdevice    58. 10.100 / 58. 10.100  libavfilter     7. 85.100 /  7. 85.100  libavresample   4.  0.  0 /  4.  0.  0  libswscale      5.  7.100 /  5.  7.100  libswresample   3.  7.100 /  3.  7.100  libpostproc    55.  7.100 / 55.  7.100Input #0, ogg, from 'out/output.ogg':  Duration: 00:25:40.29, start: 0.006500, bitrate: 85 kb/s    Stream #0:0: Audio: opus, 48000 Hz, mono, fltp    Metadata:      encoder         : Lavf57.56.100Stream mapping:  Stream #0:0 -> #0:0 (opus (native) -> mp3 (libmp3lame))Press  to stop,  for helpOutput #0, mp3, to 'output.mp3':  Metadata:    TSSE            : Lavf58.45.100    Stream #0:0: Audio: mp3 (libmp3lame), 48000 Hz, mono, fltp    Metadata:      encoder         : Lavc58.91.100 libmp3lamesize=   12039kB time=00:25:40.29 bitrate=  64.0kbits/s speed=87.9x    video:0kB audio:12039kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.001922%

Как видно наш исходный поток был пережат в mp3 с параметрами .

Удачных экспериментов.

Работа с файлами телефонных звонков

Какая ситуация с телефонией у нас была на предприятии:

У нас аналоговая АТС – аналоговые линии.
Дополнительно мы докупили комплекты SPRecord – можно перейти на сайт SPRecord, посмотреть, что это за устройство. Оно вешается параллельно аналоговой линии, записывает разговор и преобразует его в цифру – все звуковые файлы у него хранятся в формате *.wav без сжатия.

Соответственно, то, о чем я рассказываю, подходит для старых телефонных сетей. В новых цифровых сетях это уже решается гораздо проще – например, у MANGO есть отдельный сервис расшифровки телефонных звонков и отправка их на на почту.

Итак, у нас на фирме была аналоговая АТС, и все звонки записывались в формате *.wav.

Начинали мы это делать еще в 2017 году, и за это время по текущую дату записано 118 тысяч звонков.

Объем файлов за месяц занимает примерно 5 гигабайт (по данным марта 2020 года).

Что нужно сделать, чтобы как-то обработать эти файлы? Я использовал бесплатную кросс-платформенную утилиту Sox Sound eXchange. Она вызывается из командной строки и с ее помощью можно прямо из 1С выполнить следующие действия:

получить длительность аудио – по команде
sox —i -d input.wav > output.txt
поменять дискретизацию – по команде
sox —i -r » input.wav > output.txt
обрезать файл – по команде
sox input.wav output.wav trim 20

Обрезку я использовал для исходящих звонков, где у нас обычно 20 секунд занимает дозвон – эти 20 секунд можно спокойно обрезать, чтобы сэкономить на расшифровке звонка.

У Яндекса расшифровка кратна 15 секундам, соответственно даже если вы отправляете одну секунду, вы платите за 15. Обрезав 20 секунд мы экономим на одном такте распознавания.

С аналоговой телефонии мы снимаем файлы в несжатом виде, в формате *.wav, а в Yandex их нужно отправлять в специальном формате OggOpus.

Соответственно, используем бесплатную консольную конвертацию с помощью утилиты opensenc, которую можно скачать с сайта https://opus-codec.org/

Команда выглядит так:

На входе даем wav-формат, и получаем сжатые аудиоданные.

Интеграция 1С с ГИИС ДМДК

ГИИС ДМДК — единая информационная платформа для взаимодействия участников рынка драгоценных металлов и драгоценных камней. с 01.09.21 стартовал обязательный обмен данными с Федеральной пробирной палатой (ФПП) исключительно через ГИИС. А постепенно — с 01.01.2022 и с 01.03.2022 — все данные о продаже драгоценных металлов и камней должны быть интегрированы с ГИИС.
У многих пользователей возникает вопрос как автоматизировать обмен между программой 1С и ГИИС ДМДК.
В настоящей статье ВЦ Раздолье поделится своим опытом о реализации такого обмена.
Автор статьи — Мордовин Антон — архитектор систем на базе 1С Внедренческого центра «Раздолье».

Что такое синтезаторы речи

Синтезатор речи — это программное обеспечение, которое превращает текст в голос. Процесс преобразования проходит в несколько этапов:

Подготовка текста: перевод чисел в слова, расшифровка сокращений, разделение на фразы.
Составление фонетической конструкции на основании словарей, встроенных в систему.
Расчет данных для достижения плавного перехода и создания правильной интонации.
Воспроизведение звука.

Синтезаторы речи поддерживают разные языки, что позволяет их использовать в том числе для переводов. С их помощью можно научиться правильно произносить слова на иностранных языках, создавать аудиокниги, озвучивать видеоролики, презентации, документы, а также просто воспроизводить вслух любые тексты на родном языке, если есть проблемы с речью или зрением.

Работа синтезатора занимает доли секунды — стоит только набрать текст, как робот готов прочитать его вслух.

Синтезаторы превращают массивы текста в аудиопоток, воспроизведением которого можно управлять: ставить на паузу, перематывать, менять громкость и скорость чтения.

Подготовимся. Настройка профиля CLI

Активация аккаунта на облаке

Для использования сервиса YSK у вас должна быть почта на Yandex. Если у вас её нет, то самое время завести.

Будьте готовы к тому, что вам потребуется еще подтвердить свой номер мобильного телефона. Без этого, увы, сервисы будут недоступны.

Почта есть. Теперь самое время перейти на cloud.yandex.ru. Перейдя в консоль надо активировать пробный период пользования сервисом. Для этого надо привязать платежную карту. Как только вы это сделаете вам будет доступен грант на 60 дней.

В облака – через командную строку

Для понимания, как работает распознавание и синтез, мы потренируемся в командной строке. Например, в iTerm.

Для отправки запросов на API через командную строку установим утилиту cURL. Перед установкой проверьте, возможно, она у вас уже есть ($ curl —version):

Теперь настроим Интерфейс Яндекс.Облака для командной строки (CLI). Запустим скрипт:

Перезапустите командную оболочку. В переменную окружения PATH добавится путь к исполняемому файлу – install.sh.

Теперь нам нужно, чтобы в CLI заработало автодополнение команд в bash:

Если у вас еще нет менеджера пакетов Homebrew, установите его. Он вам не раз пригодится, обещаю.

Затем ставим пакет bash-completion:

и посмотрим, что изменилось в файле ~/.bash_profile:

Примечание: ~/.bash_profile используется для пользовательских настроек, в частности – для определения переменных окружения.

Видим, что в конце bash_profile добавились новые строчки:

Выше новых строк вставьте эту:

Набираем команду:

и получаем приветственное сообщение:

Вам предложат выбрать облако (скорее всего у вас оно единственное):

Далее по желанию выберете Compute zone. Пока пользователь один – этим можно пренебречь.

Посмотрим, как выглядят настройки профиля CLI:

Мы в шаге от старта. Осталось добыть второй ключ (в настройках профиля он не будет отображаться):

Полетели!

Мобильные синтезаторы

Синтезатор речи Google

Собственное мультифункциональное приложение Google для перевода текста в речь. Именно оно отвечает за озвучивание текста в переводчике и чтение аудиокниг в Google Play, а также во многих других программах Play Маркета.

SpeechText

Это приложение в первую очередь для тех, кто хочет узнать правильное произношение иностранных слов. Не лучший вариант ввиду ограниченности функционала. Но в качестве подспорья при изучении языка его вполне хватает.

Болтун

Удобное приложение для устройств на Андроиде. Может озвучить текст SMS, электронное письмо, статью в браузере – любые тексты, которые вы скопируете в буфер обмена или введете прямо в приложение.

Voice Aloud Reader

Еще одно приложение, которое можно скачать в Google Play. Программа работает с загруженными текстовыми файлами и сохраненными текстами. Русский язык поддерживается. Можно выбирать интонацию и скорость чтения.

Достоинства

Во вложении обработка Yandex speech в которой реализована функция проверки новых звуковых wav файлов в каталоге SpRecord , подгрузка их в 1С, далее получение доп. информации о длительности и номерах из SpRecord и далее нарезка файлов по 55 секунд и распознавание их в Yandex SpeechKit Cloud.

В обработке нужно:

— заполнить идентификатор каталога Yandex SpeechKit Cloud

— заполнить идентификатор OAuth

— путь к каталогу SOX.

— в каталог SOX установить дополнительно opusenc и cURL

— В функции ПолучитьМенеджера необходимо задать соответствие номера линии SpRecord и номера телефона менеджера.

— КаталогСФайлами путь к звуковым файлам разговоров программы SpRecord.

— СтрокаСоединения задать свои параметры подключения к SQl серверу

Приложения для чтения книг голосом

Чтобы выбрать лучшую программу для озвучивания текста, нужно перебрать разные варианты читалок. Каждая из этих программ получила свою аудиторию – кому-то нравится оформление, а другим универсальность и малое потребление ресурсов ПК. Прежде чем скачивать и ставить приложение на свой компьютер рекомендуют предварительно просмотреть подробную информацию по наиболее популярным.

Acapela

Речевой синтезатор, который может воспроизводить голосом текст из файлов разного формата. Пакет насчитывает больше 30 языков, среди которых присутствует и русский. Программу Acapela можно купить у разработчика – ее распространяют только на коммерческой основе. Для озвучивания книги на русском языке, пользователь может выбрать один из 2 предустановленных вариантов – устаревший мужской голос «Николай» и обновленный женский «Алена». Программу выпускают под управлением таких систем:

Windows;
Mac;
Linux;
Android;
iOS.

Такое широкое распространение позволяет использовать Acapela любому пользователю. Сама программа не занимает много места на устройстве и устанавливается очень быстро. Для предварительной оценки, пользователи могут включить онлайн-версию приложения. Но, количество текста ограничено 300 знаками, поэтому включить книгу не получится, только краткий отрывок для проверки качества озвучки.

Ivona Reader

Программа для озвучивания текстов под управлением Windows, с реалистичным звучанием. Основной голос, который можно поставить на это приложение – «Татьяна». Может зачитывать текстовые файлы в любом формате, в том числе интернет страницы и RSS ленты. Разработчики также включили возможность преобразования текста в аудио-файл MP3 формата, поэтому книгу можно записать и сбросить на смартфон.

ICE Book Reader Professional

Программа, которая знакома пользователям компьютеров Windows уже давно. Она поддерживает большую часть текстовых форматов и проста в управлении. Для использования функции чтения и преобразования текста в аудиозапись, обязательно установить какой-либо голосовой движок. ICE Book Reader – относят к категории приложений с лицензией Freeware – ее можно получить бесплатно и пользоваться всеми функциями.

ToM Reader

Эта программа для компьютеров под управлением операционных систем Windows – аналог ICE Book Reader. Работает сходным образом – открывает книги в разных текстовых форматах и может озвучивать только после установки одного из голосовых движков. Для улучшения качеств воспроизведения есть возможность добавлять словари, по которым ориентируется синтезатор.

Программы, которые способны озвучивать текст голосом, становятся распространенней – при активном ритме жизни, не у каждого человека найдется время на чтение обычного буквенного формата. Но, в таких ситуациях можно не только скачивать заготовленные аудиокниги – установив читающую программу и голосовой движок, такой файл можно подготовить самостоятельно или озвучить интересующую информацию в потоковом режиме. Современное ПО синтеза речи, по звучанию приближено к реальному голосу.

Программы для озвучки текста

Если вам нужно постоянно озвучивать большие объемы текста из электронных документов, то самый удобный вариант — установить специальные приложения, которые умеют работать с файлами разного формата.

Балаболка

Балаболка — бесплатная программа озвучки для Windows от российских разработчиков. Она поддерживает работу с любыми голосовыми движками, установленными в системе. В ее интерфейсе есть стандартные инструменты для управления воспроизведением: пауза, остановка, перемотка, изменение скорости и громкости.

«Балаболка» умеет читать вслух текст из буфера обмена, произносить набираемые на клавиатуре фразы, озвучивать содержимое редактора или загруженных в нее файлов в форматах AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, WPD, XLS, XLSX.

Результат обработки «Балаболка» сохраняет как аудиофайл в форматах WAV, MP3, MP4, OGG и WMA. У нее также есть возможность сохранения текста внутри файлов MP3 для дальнейшего отображения в виде субтитров в медиапроигрывателе.

Govorilka

Govorilka — ещё одна программа для озвучки с минималистичным интерфейсом. Поддерживает голосовые движки устаревшего стандарта SAPI 4, в том числе на иностранных языках.

По умолчанию Govorilka озвучивает текст голосом стандартного движка Microsoft. В ее составе есть инструменты управления, традиционные для программ такого типа: воспроизведение, пауза, остановка, изменение скорости, громкости и высоты голоса. Одновременно в ней можно открыть до 8 вкладок с разными фрагментами текста.

Несмотря на простоту и устаревший интерфейс, «Говорилка» всё еще актуальна. Она умеет распознавать текстовые документы в разных форматах объёмом до 2 Гб и сохранять результат обработки в MP3 и WAV.

eSpeak

eSpeak — бесплатная программа для озвучки текста, доступная на Windows, macOS, Linux и Android. Она использует голосовые движки, установленные в системе, а также добавляет к ним несколько своих.

Версия этого приложения для Windows имеет максимально простой интерфейс и управление. Текст, который нужно прочитать, достаточно вставить в поле посредине окна, а затем нажать “Speak”.

Максимальный размер текста здесь явно не определен, но приложение справляется с большими объёмами. Также у него есть возможность читать тексты из файлов с расширением TXT, другие форматы не поддерживаются.

Для управления скоростью чтения в eSpeak используется ползунок Rate. Если вы хотите сохранить прочитанный текст в аудиофайл, нажмите на кнопку «Save to .wav» и задайте имя записи.

В мобильной версии приложения для Android аналогичная функциональность, разве что нет возможности сохранить текст в аудио.

Acapela TTS

Acapela Group разрабатывает программы для всех популярных операционных систем: Windows, macOS, Linux. Android, iOS. Среди главных достоинств этого софта — поддержка большого количества языков и отличное качество голоса. Мощные движки хорошо обучены и имеют развёрнутую справочную базу, которая позволяет им говорить правильно и выразительно.

Однако все продукты Acapela коммерческие. Установить приложение на компьютер или телефон можно бесплатно, но без купленного голосового движка в них нет никакого смысла. Стоимость одного пакета — 3,99 евро. Прежде чем оплачивать покупку, вы можете прослушать демо голоса с произвольным текстом, чтобы определить, подходит ли вам такое звучание.

ICE Book Reader Professional

Если вы ищите программу, которая будет озвучивать целые книги, то попробуйте ICE Book Reader Professional. Это приложение поддерживает различные форматы текстовых документов: TXT, HTML, XML, RTF, DOC и DOCX, PALM (.PDB и .PRC), PSION/EPOC (.TCR), Microsoft Reader (.LIT), Microsoft HELP files (.CHM) и FictionBook файлы (все версии) (.FB2, .XML). А для чтения в нем используются голосовые движки стандарта SAPI 4 и 5.

Программа умеет превращать книги в MP3/WAV-файлы. Это значит, что вы можете из любого произведения, доступного в текстовом формате, сделать аудиокнигу.

Скорость преобразования текста в голос в этом приложении увеличивается за счёт одновременного использования нескольких модулей синтеза речи.

Reviews

http-equiv=»Content-Type» content=»text/html;charset=UTF-8″>lass=»plugin-reviews»>

I’ve tried several text-to-speech services and found Speechkit to be the best. It’s easy to set up and work with, the choice of voices is superior and the price is very economical.

I use it to «speechify» articles on my blogs to give readers an additional way to engage with the content.

I can recommend Speechkit without reservation.

SpeechKit — superb product and superb support.

As someone who does a lot of content marketing, I’m always looking for ways to get more mileage out of what I publish. When I heard about this, I was a little hesitant — since most text-to-speech audio is of such poor quality. Since I know podcasts are increasing in popularity, however, I finally decided to pull the trigger… and am so happy that I did. It’s VERY easy to set up, and customer support is off-the-charts. I ran into a snafu with something my web developer did, and a bunch of super old articles ended up in rotation. They were amazingly helpful in cleaning up the mess. And have been very responsive in answering questions that I’ve had along the way. This is a tremendous value, and I couldn’t be happier with my decision.

We’ve used this plugin on Irish Tech News since their beta days and have found it to be excellent. It creates automated versions of articles without any input needed and the audio files can be shared as a podcast too. There is a far larger selection of voices now that can be used and have become more natural. Keep up the great work!

We have been using Speechkit now for a few weeks and love it!! Works really well and is simple to implement and add to our pages. We have also managed to use the app within our directory of disabled listings so its versatile to use across our whole platform.

Followed installation instructions.

Published a test page. No widget shown.

Uninstalled.

Как подключаться к сервисам Яндекса

В Яндекс.Облаке очень много сервисов, я в своей работе использовал только два:

Yandex Object Storage – для хранения звуковых файлов;
Yandex SpeechKit – для преобразования звука в текст.

Вначале, в 2017 году, Yandex Object Storage был не нужен, мы использовали Yandex SpeechKit напрямую – отправляешь wav-файл, ждешь в режиме онлайн и получаешь в текстовом виде расшифровку.

Переходим к Яндекс.Облаку.

Чтобы работать с Облаком, нужно установить тоже командный интерфейс Curl, нужно зарегистрироваться и пройти авторизацию.

Сейчас я более подробно расскажу про каждый из пунктов.

Вначале ставим Curl – это кроссплатформенная служебная программа командной строки.

Ничего сложного тут нет – просто заходим по гиперссылке https://cloud.yandex.ru/docs/cli/quickstart, скачиваем и устанавливаем.

Это нам дает возможность прямо из 1С в командной строке вызывать системные функции для работы с Яндекс.Облаком.

Далее мы:

Регистрируемся, получаем имя пользователя и пароль
В 2017 году этого было достаточно, чтобы начать работать. Сейчас, чтобы начать распознавать аудио-звонки, нам нужно создать платежный аккаунт и закинуть туда определенную сумму денег – бесплатного распознавания уже нету.
Далее мы создаем сервисный аккаунт, это связано с безопасностью – с каталогами Яндекс.Облака нельзя работать под общим аккаунтом, там для каждого объекта создается свой сервисный аккаунт и ему назначаются нужные права конкретно на эти объекты. В принципе, это правильно, но это немного усложнило работу.

Когда мы зарегистрировались, получаем OAuth-токен.

Как было показано предыдущих слайдах, мы установили Curl, и с его помощью запускаем команду yc init, которая привязывает профиль CLI на данном компьютере к Облаку.

В этой команде мы задаем, куда привязать профиль:

к какому облаку;
к какому каталогу;
и в какой зоне доступности будут происходить наши вычисления – у Яндекса на данный момент есть три зоны доступности (Владимирская, Рязанская и Московская область), где происходит расшифровка звонков.

После того как мы получили OAuth-токен, мы в принципе можем начать работать.

На данном слайде показано, для чего нужно создавать сервисный аккаунт – сервисному аккаунту мы назначаем права на использование ресурсов и каталогов.

У Яндекса есть ограничение – с одного компьютера можно запускать не более 20 потоков.

Поскольку я укладывался во все лимиты Яндекс.Облака, у меня было:

одно облако;
один каталог;
и два ресурса – расшифровка звонков и хранение в Yandex Object Storage.

Если если вам нужна более масштабная расшифровка звонков, то необходимо поднимать, допустим, две виртуальных машины и на них на Яндексе регистрировать два облака – это позволит масштабироваться.

Итак, мы зарегистрировались, получили OAuth-токен, теперь нужно получить IAM-токен.

IAM-токен имеет ограниченное время жизни – не более 12 часов. Соответственно, 2 раза в сутки он меняется. Поэтому если он нужен при работе, допустим, в 1С, его можно получить программно вызовом команды

yc iam create-token > » + IAMtoken

Если вам позвонили из Yandex. Эти загадочные токены

Возможно, распознавать и синтезировать речь вам так понравится, что однажды вам позвонит милая девушка из Yandex и поинтересуется, все ли вам понятно в работе сервиса.

Продолжайте изучать документацию, и тогда вы узнаете, например, что iam_token живет не более 12 часов.

Чтобы быть вежливым, как наш дворецкий, и не перегружать сервера на Yandex, мы не будем генерировать iam_token чаще (при желании теперь стало можно генерить токен при каждом запросе). Заведите себе блокнотик и карандашик для записи даты генерации. Шутка.

Ведь у нас есть Python. Создадим функцию генерации. Снова используем requests:

Вызовем функцию и положим результат в переменную:

Карандишик и блокнотик не пострадали, а у вас появилась полезная переменная xpires_iam_token.

Специально для вас по мотивам этого материала я написала маленький кусочек проекта виртуального дворецкого Butler. Звуковые эффекты входят в комплект 🙂

Настраиваем доступ

Есть два способа работать с сервисом SpeechKit: через IAM-токен, который нужно запрашивать заново каждые 12 часов, или через API-ключ, который постоянный и менять его не нужно. Мы будем работать через ключ, потому что так удобнее.

Чтобы его получить, нам нужен сервисный аккаунт в «Облаке». Создадим его так.

1. Заходим в консоль управления и нажимаем на единственную папку в нашем облаке:

2. Выбираем «Сервисные аккаунты» → «Создать»:

3. Вводим имя (какое понравится), затем нажимаем «Добавить роль» и выбираем «editor»:

4. Заходим в сервисный аккаунт, который только что создали:

5. Нажимаем на кнопку «Создать новый ключ» и выбираем пункт «Создать API-ключ»:

Сервис спросит про описание — можно ничего не заполнять.

6. Сохраняем отдельно секретный ключ — он выдаётся только один раз и восстановить его нельзя. Выделяем, копируем и сохраняем в безопасное место: