Здравствуйте. Дано: некоторый объём (976 треков) начитанного текста. С разными интонациями и разной направленности. ...

понедельник, 29 октября 2012

14:10

все записи пользователя в сообществе Ryuzaki_rnd

Правильного ответа нет. Любой выбор приводит к жертвам, любое решение требует платы. | Лишь навык имеет значение.

Здравствуйте.

Дано: некоторый объём (976 треков) начитанного текста. С разными интонациями и разной направленности.
Необходимо: основываясь на данных треках сделать синтезатор речи. Чтобы тект набрать и тем голосом, что в треках, оно тебе читалось.

Собсно суть вопроса - с чего начать и с какой стороны к этому подступиться.
Просто с речевыми технологиями вообще не работал и поэтому даже не в курсе, с чего начать.

Заранее благодарю за консультацию.

upd: Звук и планируемый текст - на русском.

@темы: Работа со звуком

URL

Комментарии

29.10.2012 в 14:37

Dark Dragon

бинарный романтик

Ryuzaki_rnd, чем не устраивают существующие движки? Или просто есть задумка реализовать функционал, которого нет в существующих системах синтеза?

URL

29.10.2012 в 15:31

nio

この世界は。。。いいですか？

Как разработчик БД скажу, что нужна БД. На первом этапе тупо создать таблицу соответствий: какой кусочек звука какому слову соответствует. При этом пригодиться софтина, умеющая разрезать звуковые файлы на отдельные слова, и ещё более пригодится софтина, умеющая распознавать речь.
Далее добавить в БД варианты произношения в зависимости от положения слова в предложении, и от типа предложения. Плавающие ударения там, восходящий-нисходящий тон, интонации в вопросах, положительных и отрицательных ответах и т.д.

Далее понадобится движок, который будет текст анализировать и выбирать нужный вариант звучания.

Описание выглядит очень просто, но на самом деле задача архисложная, очень интересная... И судя по тому, что таких вещей ещё нет - очень ресурсоёмкая, в плане временных и денежных затрат.

URL

29.10.2012 в 15:42

Lennonenko

blah-blah-blah

Ryuzaki_rnd,
"имеется некоторое водорода, подскажите, как мне организовать термоядерный синтез"
если вы хотите создать новый движок TTS, то хочу вас заверить, что всё, что вы сделаете, будет хуже десятков уже имеющихся движков
если вы хотите просто так, для фана, позаниматься данной увлекательной задачей, то непонятен смысл вашего обращения сюда, интерес же должен быть как раз в самостоятельной работе

URL

29.10.2012 в 16:11

Dark Dragon

бинарный романтик

Lennonenko, чего непонятного? человек спрашивает, с чего ему начать.
И мне очень интересно, почему вы считаете, что ничего не получится?

URL

29.10.2012 в 17:47

Lennonenko

blah-blah-blah

Dark Dragon, начать с установки подходящего TTS
я не говорил, что ничего не получится, я сказал всего лишь, что сильно сомневаюсь в возможности одного человека с наскоку создать с нуля TTS-движок, удовлетворительный в сравнению с популярными имеющимися решениями, в том числе и бесплатными

URL

29.10.2012 в 18:26

Co0L

Крайне злопамятное хамло ;)

О, очередной велосипед!) Еще, наверное, надо чтобы работало под IE5.5 в Win98 :-D

URL

29.10.2012 в 18:43

Ryuzaki_rnd

Dark Dragon, чем не устраивают существующие движки?

Нормально "читающих" накопал только парочку, но они привязаны к своему "голосу". Другой подставить не получается.

nio, О, это полезное замечание, спасибо.

Co0L, Не поверите, желательно чтобы оно вообще без сети работало и уж тем более, без браузера)))

URL

29.10.2012 в 19:03

Dark Dragon

бинарный романтик

Ryuzaki_rnd, nio вам правильно посказал про создание базы данных. Однако, не стоит забывать, что при большом размере коллекции время поиска растет. Так что структура базы звука должна быть очеь быстрой для поиска и доступа.
В идеале же стоит отказаться от синтеза через набор готовых звуков, так как данный вид синтеза довольно ограничен. в частности идет ограничение на словарный набор и интонационный набор.
Синтез звука с нуля потребует знания высшей математики и умения моделировать колебательные системы.

Вобщем-то в любом случае задача нетривиальна. Могу порекомендовать покопаться в теории и видах речевых движков и поковырять опенсурс решения на предмет анализа кода.

А подстановка своего голоса в речевые движки, извините, просто так не делается. 6аверняка нужно подготовить звуковые данные в нужном виде и формате. Опять же, ковыряние чужого движка может помочь разобраться с этим вопросом.

URL

30.10.2012 в 09:59

ehlo_kitty

писать то на чём будете, на похапе ггг?

URL

30.10.2012 в 15:33

Ryuzaki_rnd

ehlo_kitty, Упаси боже)))) Пока не знаю, но у начальства требований нет особо, поэтому на чём буду клепать им сугубо в крапинку.

Я пока больше склоняюсь к мысли о донесении до начальства всей глубины так сказать "проблемы". Авось оно и передумает.

URL

30.10.2012 в 16:18

ehlo_kitty

а, вы ещё не уволились. ваше начальство с каждым часом дальше-больше, должен заметить.

URL

30.10.2012 в 17:23

Ryuzaki_rnd

ehlo_kitty, ваше начальство с каждым часом дальше-больше

Это да, но порой бывает очень интересно ^-^

URL


Запомнить

Помощь @экспертов – Хард и софт