Re: Re: поиск СПАМ фильтра с авторизацией отправителей

От: Andrey N. Oktyabrski <CGatePro_at_mx_ru>
Дата: Fri 10 Jun 2005 - 18:25:38 MSD

Vladimir A. Butenko wrote:
> On Fri, 10 Jun 2005 16:16:54 +0400
> "Andrey N. Oktyabrski" <CGatePro@mx.ru> wrote:
>

>>> статистику по доменам в текущей реализации - для этого мне всего лишь 
>>> надо сгруппировать мой серый список по доменам.
>>
>> Эффекта уменьшения количества записей в сером списке практически не 
>> наблюдается:
>> # ./greylist_export.pl db/greylist.db | wc -l      764
>> # ./greylist_export.pl db/greylist.db | perl -pe 
>> 's,^(\d+\.\d+\.\d+\.\d+)/.+\@(.+):.*$,$1/$2,' | sort | uniq | wc -l
>>      731
>>
>> А вот в белом списке - есть немного, в полтора раза (но, к сожалению, 
>> не на порядок):
>> # ./greylist_export.pl db/whitelist.db | wc -l     4663
>> # ./greylist_export.pl db/whitelist.db | perl -pe 
>> 's,^(\d+\.\d+\.\d+\.\d+)/.+\@(.+):.*$,$1/$2,' | sort | uniq | wc -l
>>     3013
>>
>> Это при TTL записи в белом списке 30 суток. Если меньше - эффект будет 
>> ещё меньше.

>
> Видите ли. Если у Вас есть M шариков, каждый из которых определенного
> цвета из набора в N цветов, то при M << N у Вас в вашем наборе будет
> около M разных цветов. А вот при M > N эффект будет другим: сколько бы M
> вы ни брали, у Вас все равно будет не более N разных цветов.
>
> Следующий вопрос, ессейсно, - как велико это число N (то есть число
> разных доменов). Попутно - можно попробовать хранить не просто доменную
> часть, а лишь доменную часть до второго уровня. Понятно, что при этом
> какой-нибудь bigcompany.com поимеет 30 адресов - для своих разных
> майлхостов. Но - 30, а доменов второго уровня в .com - cколько?
> По-моему, 50mln...
Если я правильно понял Ваши рассуждения, мне достаточно выяснить адреса, с которых возможна отправка почты с обратным адресом @bigcompany.com, а с остальных адресов почту с таким envelope-from не принимать. В точности то, для чего предназначен SPF. Или что-то не так понял? Такой пример:
# ./greylist_export.pl db/whitelist.db | perl -pe 's,^(\d+\.\d+\.\d+\.\d+)/.+\@(.+):.*$,$1/$2,' | sort -u | grep /mail.ru | wc -l

      107
# ./greylist_export.pl db/whitelist.db | grep '/.*@mail.ru' | wc -l

      140

Пропорция такая же, как и для общего количества записей. Только я не уверен, что у mail.ru столько машин, с которых почта выходит в Сеть. Значит, кто-то отправляет почту не с сервера mail.ru с обратным адресом mail.ru. Не принимать всю такую почту я не могу - если среди этого будет какая-то архиважная корреспонденция, моментально настучат мне по башке как администратору почтового сервера.

P.S. Кстати, mail.ru в данном случае оказался плохим примером - для доменов yandex.ru и rambler.ru разница именно на порядок: # ./greylist_export.pl db/whitelist.db | perl -pe 's,^(\d+\.\d+\.\d+\.\d+)/.+\@(.+):.*$,$1/$2,' | sort -u | grep /yandex.ru | wc -l

       43
# ./greylist_export.pl db/whitelist.db | grep '/.*@yandex.ru' | wc -l

      294
# ./greylist_export.pl db/whitelist.db | perl -pe 's,^(\d+\.\d+\.\d+\.\d+)/.+\@(.+):.*$,$1/$2,' | sort -u | grep /rambler.ru | wc -l

       16
# ./greylist_export.pl db/whitelist.db | grep '/.*@rambler.ru' | wc -l

      166

Сие наблюдение должно меня сподвигнуть более пристально изучить белый список и даже может быть написать для него какой-то анализатор... Эх, жаль, что кроме почты на меня столько всякой фигни навалено :-( Получено Fri Jun 10 14:23:22 2005

Этот архив был сгенерирован hypermail 2.1.8 : Tue 21 Feb 2006 - 03:16:30 MSK