Телеком в России

Искусственный интеллект пробует себя в озвучивании книг

Коммерсант | 23 января

Российские книжные сервисы и издательства начали активно внедрять технологии искусственного интеллекта (ИИ) для озвучивания аудиокниг. Как надеются участники рынка, в перспективе такие алгоритмы могут помочь в разы ускорить и удешевить производство в сегменте, увеличив продажи. Однако пока технология не может полноценно заменить диктора и подходит не для всех типов литературы.

К примеру, в 2022 году «ЛитРес» записал и выпустил около 6 тыс. книг, озвученных «живыми» голосами, но «авточтецы» озвучили сразу 3 тыс. книг всего за два месяца. Себестоимость озвучки одной книги с помощью ИИ составляет 400–700 руб., уточнил Евгений Селиванов, директор департамента по развитию контента: «Алгоритм позволяет производить в несколько раз больше книг за период, чем распределённая команда чтецов».

По его словам, «ЛитРес» планирует в 2023 году усовершенствовать процесс записи: «Пользователи очень благожелательно относятся к озвучке роботами, если не сталкиваются с проблемами неправильных ударений или интонаций, поэтому активное развитие книжной отрасли в этом направлении очевидно».

Книжный сервис «Строки» от МТС также в 2023 году планирует озвучить более 10 тыс. произведений с помощью искусственного интеллекта. Уже сейчас на первом этапе в работе находятся 600 произведений. Как рассказали в компании, книги будут записываться с помощью платформы Audiogram, в основе которой используются нейронные сети, машинное обучение и технологии обработки естественного языка (NLP). Она позволяет синтезировать речь, расставлять ударения и паузы, воспроизводить вопросительные, побудительные и другие интонации.

В МТС добавили, что сейчас более 90% книг на российском рынке не имеют аудиоверсии, а их трансформация в аудиоформат, по оценке компании, традиционным способом «заняла бы годы».

«На подготовку первоначальной версии аудиокниг с помощью ИИ уходит около 30–60 минут, тогда как студийная запись живым голосом занимает до нескольких дней с учётом технической обработки и монтажа». Кроме этого, расходы на озвучивание одной единицы контента за счет ИИ сокращаются «минимум в десять раз», так как работа диктора стоит от 50 тыс. руб. за книгу.

С ИИ экспериментируют и издательства. Президент «Эксмо-АСТ» Олег Новиков говорит, что группа использует ИИ в том числе для прогнозирования тиража допечаток, анализа потенциала рукописи на основе данных о прошлых продажах.

Руководитель аудиопроектов Alpina Digital (группа «Альпина») Николай Боронин рассказал, что компания озвучила 86 книг из своего портфеля с помощью ИИ: «Но нельзя сказать, что это стало регулярной практикой. Даже хороший искусственный интеллект не может полноценно заменить диктора. Такой голос несовершенен, что может негативно сказываться на продажах». Придирчивые слушатели могут избегать аудиокниг в исполнении ИИ из-за недостатка естественного интонирования, считает он.