14:08

...answers that can be questioned (c)
уже задавала здесь этот вопрос, извините за повтор, но тогда ничего нужного не удалось найти.
задача:
искать в текстах (рус и англ, приоритетно англ) самые частотные слова и сочетания слов, а также просто делать списки по заданным параметрам.
Поиск должен быть настраиваемым: например, исключать служебные слова, исключать имена и геогр названия , исключать слова короче или длиннее определенного. Также нужно искать например, все сочетания из двух слов где второе слово "on", или все сочетания, где первое слово кончается на "ed".

Возможно, есть какие-то инструменты онлайн, или приложения, или программы, подойдет любое решение.

Комментарии
25.02.2020 в 22:19

Уж тут не то что Боже мой. А просто мамочки мои (c)
А какова длина текста? Мой извращенный мозг придумал, как это сделать в экселе
26.02.2020 в 07:39

...answers that can be questioned (c)
О, надо посчитать . Но от 3 тысяч знаков и до 10ти... Вообще чем больше тем лучше, до 50ти наверное...
26.02.2020 в 19:50

Уж тут не то что Боже мой. А просто мамочки мои (c)
Darya_Who, а чего тогда мучиться? 10000 знаков это порядка 2-3 тыс. слов. Заливаем в Ворд, выделяем все, преобразуем в таблицу с одной колонкой (принимаем разделителем ячеек пробел). Полученную таблицу копипастим в эксель, а там развлекаемся хоть заменами, хоть сводными таблицами, хоть частотным анализом.
26.02.2020 в 19:57

...answers that can be questioned (c)
Chukcha2, о, тогда мне надо оставивать эксел...
там точно можно будет тогда искать словосочетания, если я разобью сразу (если пробеол разделитель ячеек, как прога потом узнает какие слова стояли вместе?). мне важны именно сложные задачи типа "найти все сочетания из трех слов где последнее заканчивается на ed" .
26.02.2020 в 21:40

Уж тут не то что Боже мой. А просто мамочки мои (c)
Ищем все слова, оканчивающиеся на -ed фильтром. Находим слова, находящиеся на 1 и 2 ячейки выше.
Ну, или формулой в соседнем столбце сцепить слова по три, потом фильтровать...
Сделать можно, если сильно заморочиться. У вас текстов много? Если десяток-два, то в принципе нормально. А если базу большую анализировать, то лучше найти кого-нибудь, кто напишет макросы.

Ну и опять же, это все для безвыходной ситуации, когда очень надо.
26.02.2020 в 21:43

...answers that can be questioned (c)
Chukcha2, это регулярная задача, и как раз хочется какогото простого и тупого решения, но чот пока не находится. А ведь это оч простой анализ текста, это стопудов в лингвистике сто раз стояла задача.