Показано с 1 по 4 из 4

Тема: Регулярные выражения и русскоязычный спам

  1. #1
    mil_alex
    mil_alex вне форума
    Участник
    Регистрация
    30.07.2003
    Сообщений
    25

    Регулярные выражения и русскоязычный спам

    Пытаюсь, как многие, избавиться от спама посредством фильтра selective downloads. Использую набор строк и режим kill, if any string match.

    Вот пример одной (из многих) строк в моем фильтре по теме письма:

    .*[Ппn][РрPp][ЕеEe][Дд][Лл][ОоOo][Жж][ЕеEe][НнH][Ииu].*

    Я предполагаю (прочтя хелп по regular expressions) что такая запись соответствует появлению слова "предложение" в любой фразе, в том числе и отдельно, в любой форме записи - с использованием букв латинского алфавита и обоих регистров.
    Таких строк у меня порядка четырех сотен (10 кбайт). Сегодня, по неочевидным причинам, письмо с темой Спецuальное предложенuе для корпоратuвных клuентов. M замечательно прошло сквозь фильтр. Я уже перепроверил несколько раз и не вижу ошибку у себя. Есть идеи?

    Попутно вопрос, как оттестировать фильтр selective downloads на пришедшем и проскочившем сквозь фильтр спаме (без почтового сервера)?

    BTW, я в курсе про настройку чувствительности к регистру в регулярных выражениях. Похоже, по умолчанию Бат (вопреки хелпу) различает регистр. Должен ли я в каждой строке фильтра указывать (?i) или что-то подобное, или достаточно в первой?

  2. #2
    hamster
    hamster вне форума
    Новичок
    Регистрация
    26.07.2003
    Сообщений
    5

    Re:Регулярные выражения и русскоязычный спам

    Во первых в какой кодировке правила ? в Win ?
    заголовок мог быть в KOIO-8, или вообще закодирован mime, тогда "Специальное предложение" выглядит так:
    =?Windows-1251?B?e/l9ujg6/zt7uUg7/Dl5Ovu5uXt6OU=?=
    Этот фильтр не возьмет

    ЗЫ: ставь spampal, или нечто подобное.

  3. #3
    mil_alex
    mil_alex вне форума
    Участник
    Регистрация
    30.07.2003
    Сообщений
    25

    Re:Регулярные выражения и русскоязычный спам

    Правила в Win1251, и заголовок в ней же, насколько я могу судить. При нажатии Ctrl+Shift+K тема письма видна в заголовке непосредственно как читабельная строка.

    Вообще, если я прав, The Bat сначала декодирует строку subject к общему знаменателю, а затем применяет фильтр. Такой вывод я сделал после просмотра заголовков где символы записаны как знак равенства и двухсимвольный шестнадцатиричный код за ним. У меня таких сигнальных строк нет, но сообщения были правильно помечены как спам по совпадению подстроки образца в Win1251.

  4. #4
    hamster
    hamster вне форума
    Новичок
    Регистрация
    26.07.2003
    Сообщений
    5

    Re:Регулярные выражения и русскоязычный спам

    Хм.. точно ;(
    оно даже кодировку преобразует к 1251

Похожие темы

  1. Сортировщик, регулярные выражения
    от Rem в разделе Архив первого форума
    Ответов: 1
    Последнее сообщение: 27.05.2002, 00:37
  2. Регулярные выражения - как?
    от Vladimirovich в разделе Архив первого форума
    Ответов: 1
    Последнее сообщение: 06.03.2002, 16:23
  3. Регулярные выражения
    от Kucherov Andrey в разделе Архив первого форума
    Ответов: 0
    Последнее сообщение: 25.12.2001, 09:12