14:10

Правильного ответа нет. Любой выбор приводит к жертвам, любое решение требует платы. | Лишь навык имеет значение.
Здравствуйте.

Дано: некоторый объём (976 треков) начитанного текста. С разными интонациями и разной направленности.
Необходимо: основываясь на данных треках сделать синтезатор речи. Чтобы тект набрать и тем голосом, что в треках, оно тебе читалось.

Собсно суть вопроса - с чего начать и с какой стороны к этому подступиться.
Просто с речевыми технологиями вообще не работал и поэтому даже не в курсе, с чего начать.

Заранее благодарю за консультацию.

upd: Звук и планируемый текст - на русском.

@темы: Работа со звуком

Комментарии
29.10.2012 в 14:37

бинарный романтик
Ryuzaki_rnd, чем не устраивают существующие движки? Или просто есть задумка реализовать функционал, которого нет в существующих системах синтеза?
29.10.2012 в 15:31

この世界は。。。いいですか?
Как разработчик БД скажу, что нужна БД. На первом этапе тупо создать таблицу соответствий: какой кусочек звука какому слову соответствует. При этом пригодиться софтина, умеющая разрезать звуковые файлы на отдельные слова, и ещё более пригодится софтина, умеющая распознавать речь.
Далее добавить в БД варианты произношения в зависимости от положения слова в предложении, и от типа предложения. Плавающие ударения там, восходящий-нисходящий тон, интонации в вопросах, положительных и отрицательных ответах и т.д.

Далее понадобится движок, который будет текст анализировать и выбирать нужный вариант звучания.

Описание выглядит очень просто, но на самом деле задача архисложная, очень интересная... И судя по тому, что таких вещей ещё нет - очень ресурсоёмкая, в плане временных и денежных затрат.
29.10.2012 в 15:42

blah-blah-blah
Ryuzaki_rnd,
"имеется некоторое водорода, подскажите, как мне организовать термоядерный синтез"
если вы хотите создать новый движок TTS, то хочу вас заверить, что всё, что вы сделаете, будет хуже десятков уже имеющихся движков
если вы хотите просто так, для фана, позаниматься данной увлекательной задачей, то непонятен смысл вашего обращения сюда, интерес же должен быть как раз в самостоятельной работе
29.10.2012 в 16:11

бинарный романтик
Lennonenko, чего непонятного? человек спрашивает, с чего ему начать.
И мне очень интересно, почему вы считаете, что ничего не получится?
29.10.2012 в 17:47

blah-blah-blah
Dark Dragon, начать с установки подходящего TTS
я не говорил, что ничего не получится, я сказал всего лишь, что сильно сомневаюсь в возможности одного человека с наскоку создать с нуля TTS-движок, удовлетворительный в сравнению с популярными имеющимися решениями, в том числе и бесплатными
29.10.2012 в 18:26

Крайне злопамятное хамло ;)
О, очередной велосипед!) Еще, наверное, надо чтобы работало под IE5.5 в Win98 :-D
29.10.2012 в 18:43

Правильного ответа нет. Любой выбор приводит к жертвам, любое решение требует платы. | Лишь навык имеет значение.
Dark Dragon, чем не устраивают существующие движки?

Нормально "читающих" накопал только парочку, но они привязаны к своему "голосу". Другой подставить не получается.


nio, О, это полезное замечание, спасибо.


Co0L, Не поверите, желательно чтобы оно вообще без сети работало и уж тем более, без браузера)))
29.10.2012 в 19:03

бинарный романтик
Ryuzaki_rnd, nio вам правильно посказал про создание базы данных. Однако, не стоит забывать, что при большом размере коллекции время поиска растет. Так что структура базы звука должна быть очеь быстрой для поиска и доступа.
В идеале же стоит отказаться от синтеза через набор готовых звуков, так как данный вид синтеза довольно ограничен. в частности идет ограничение на словарный набор и интонационный набор.
Синтез звука с нуля потребует знания высшей математики и умения моделировать колебательные системы.

Вобщем-то в любом случае задача нетривиальна. Могу порекомендовать покопаться в теории и видах речевых движков и поковырять опенсурс решения на предмет анализа кода.

А подстановка своего голоса в речевые движки, извините, просто так не делается. 6аверняка нужно подготовить звуковые данные в нужном виде и формате. Опять же, ковыряние чужого движка может помочь разобраться с этим вопросом.
30.10.2012 в 09:59

писать то на чём будете, на похапе ггг?
30.10.2012 в 15:33

Правильного ответа нет. Любой выбор приводит к жертвам, любое решение требует платы. | Лишь навык имеет значение.
ehlo_kitty, Упаси боже)))) Пока не знаю, но у начальства требований нет особо, поэтому на чём буду клепать им сугубо в крапинку.

Я пока больше склоняюсь к мысли о донесении до начальства всей глубины так сказать "проблемы". Авось оно и передумает.
30.10.2012 в 16:18

а, вы ещё не уволились. ваше начальство с каждым часом дальше-больше, должен заметить.
30.10.2012 в 17:23

Правильного ответа нет. Любой выбор приводит к жертвам, любое решение требует платы. | Лишь навык имеет значение.
ehlo_kitty, ваше начальство с каждым часом дальше-больше

Это да, но порой бывает очень интересно ^-^