[ok] Доброй ночи! Мне нужна помощь с регулярными выражениями XML. Вопрос несложный, но я что-то запуталась... Я пиш...

среда, 16 ноября 2011

23:06

все записи пользователя в сообществе SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

[ok]

Доброй ночи!
Мне нужна помощь с регулярными выражениями XML. Вопрос несложный, но я что-то запуталась...

Я пишу парсер для логов. В файле строки вот такого типа

2011-10-25/01:20:36.538 [Thread-19] ERROR Connection with smpp://rogaikopyta@212.24.56.100:4442?deliveryReceipt=failure&numberingPlanIndicator=isdn&typeOfNumber=international was closed
2011-10-25/01:20:36.554 [Thread-19] INFO  Connected
2011-10-25/01:20:36.554 [Thread-19] INFO  Connected
2011-10-25/01:20:36.554 [Thread-26] INFO  Starting PDUReaderWorker with processor degree:1 ...

И мне нужно слепить выражение, которое будет их на колонки разбивать

<expressions>
<expression name="MyExp1" columns=”DateTime,Thread,Status,Message”> тут выражение </exprеssion>
</expressions>

Вот так правильно будет???

([0-9]{4}-[0-9]{2}-[0-9]{2}/[0-9]{2}:[0-9]{2}:[0-9]{2}.[0-9]{3}) (.*) (.*) (.*)

И еще, посоветуйте, пожалуйста, инструмент или прогу, с помощью которого можно проверять такие коды - ну то есть скармливать что-нибудь ему и смотреть, что получается, а то я в блокноте пишу и методом граблей по лбу на продакшн-сервере все проверяю...

И последнее, если я хочу отфильтровать только те строки где есть ERROR, регулярное выражение для тега filterin будет .*ERROR.* ? Или нет?
Заранее извиняюсь, я не программист))) Для меня это очень сложно.

Спасибо!

@темы: Программирование

URL

Комментарии

16.11.2011 в 23:11

Trotil

> Вот так правильно будет???

Нет, не правильно. Квантификатор * - обычно жадный.
Если язык позволяет, можно использовать *? или искать "все, кроме разделителя".

URL

16.11.2011 в 23:15

Trotil

> И последнее, если я хочу отфильтровать только те строки где есть ERROR,
> регулярное выражение для тега filterin будет .*ERROR.* ? Или нет?

Всё же, уточните язык. На perl это будет просто if ($m=~/ERROR/)

И да, для конкретно такой задачи намного эффективней использовать поиск подстроки, быстрее будет искать.

URL

16.11.2011 в 23:18

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

Если язык позволяет, можно использовать *? или искать "все, кроме разделителя".
эээ...а как? у меня не все строки в таком формате (exception'ы пишутся в несколько строк), поэтому я хочу выбрать только те, которые начинаются с таймстемпа тупо проигнорив все остальные, а для этого таймстемп нужно как-то выцепить. наверное. А что можно вместо * использовать?

URL

16.11.2011 в 23:21

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

Trotil, Хорошо, уточню... на всякий случай, а это может быть javasсript?

URL

16.11.2011 в 23:25

Trotil

([0-9]{4}-[0-9]{2}-[0-9]{2}/[0-9]{2}:[0-9]{2}:[0-9]{2}\.[0-9]{3}) (\[Thread-\d+\]) (\s+) +(.*)
Как-то так.

URL

16.11.2011 в 23:25

Trotil

> на всякий случай, а это может быть javasсript?

Вполне может.

URL

16.11.2011 в 23:27

--==SS==--

Sanctus Satanas

[0-9]{2}.[0-9]{3}
Точка же любой символ заматчит. Должно быть \.

URL

16.11.2011 в 23:32

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

Trotil, ааа, спасибище, вы гений!!!! ))))))

Я правда еще вот такой вариант строки нашла
2011-10-25/05:34:59.230 [DefaultMessageListenerContainer-1] WARN Execution of JMS message listener failed

тогда получится вместо (\[Thread-\d+\]) надо будет (\[\s+\]) написать ?

URL

16.11.2011 в 23:37

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

--==SS==--, мне вот принцип непонятен - то есть все символы, которые у нас 100% попадаются в строке на одних и тех же позициях (точки, двоеточия, скобки, тире) мы выделяем с двух сторон обратными слэшами ? или с одной? или как???

URL

16.11.2011 в 23:42

Trotil

> ааа, спасибище, вы гений!!!! ))))))

Это всё может быть неправда и не работать. Я не проверял.

> (\[\s+\])

Нет, (\[[\s\d]+\]), там еще цифры, а цифра (d), это не буква (s).
И я не знаю, работают ли в javasсript подобные сокращения (классы символов это называется). Но всегда можно написать множество, типа [0-9].

URL

16.11.2011 в 23:48

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

Trotil, ладно, завтра попробую серваку на работе скормить, посмотрю что получится)
все-таки мне кажется должен быть альтернативный вариант проверки, а то мне кажется я гвозди микроскопом забиваю))

URL

16.11.2011 в 23:57

--==SS==--

Sanctus Satanas

SmiLena, не-не-не. Суть не в этом. Просто символ «точка» означает «любой символ». Т.е. это просто специальный символ. Чтобы специальный символ стал обычным (то есть в данном случае просто точкой), он предваряется бэкслешем. И наоборот — в тех контекстах, где символ не является специальным (например, s — это обычно просто латинская буква «s» в нижнем регистре), при добавлении бэкслеша он может оказаться специальным.

Примеры:
.* — означает «любое количество любых символов» (обычно максимально возможное количество)
[.*] — это означает «один символ — точка или звёздочка»
\. — одна точка
\.* — любое количество точек (в том числе ни одной)
[0-9] — один любой символ в диапазоне от 0 до 9
[09-] — один символ — ноль, девятка или минус
\[0-9\] — строка «[0-9]»

URL

16.11.2011 в 23:59

Trotil

> все-таки мне кажется должен быть альтернативный вариант проверки,
Есть.
Заготовьте текстовый файл с логом, и проверяйте его какой-нибудь небольшой самописной программулиной.
Сложно сказать, что будет удобно именно для вас. Существует множество способов.Есть даже плагин для Firefox )))

URL

17.11.2011 в 00:11

smll

для javasсript:
www.pagecolumn.com/tool/regtest.htm
regexpal.com/

для остального:
www.google.ru/search?q=regexp+online

URL

17.11.2011 в 00:11

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

--==SS==--, спасибо огромное!!! все стало понятно))))
а то я на RSDN пыталась читать и ничего не поняла там :shy:

Trotil, и вам спасибо)

URL

17.11.2011 в 00:21

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

smll, и вам тоже)))))
там похоже свой язык на основе javasсript'а, но regexp для них совпадают

URL

18.11.2011 в 11:01

keinW

65 108 101 120 97 110 100 101 114

для работы с xml в своем время пользовал XML Spy.

URL

18.11.2011 в 16:44

SmiLena

Моё сознанье несется ракетой в сторону солнца!!!

([0123456789.:/-]{23}) (\[\w+-\d+\]) (ERROR|WARN) (.*)
вот такое я в итоге соорудила

URL

18.11.2011 в 16:45

--==SS==--

Sanctus Satanas

0123456789 — это же \d и есть. )

URL


Запомнить

Помощь @экспертов – Хард и софт