Re: фильтрация спама в промышленных масштабах и наших измышлениях.

От: Andrew V.Statsenko <CGatePro_at_mx_ru>
Дата: Fri 05 Oct 2007 - 14:05:03 MSD

В Птн, 05/10/2007 в 08:06 +0400, Roman Prokhorov пишет:

[...]
>
> > Традиционно среднестатистические SMTP системы строятся по приблизительно
> > следующей схеме:
> >
> > [приём письма]-->[постановка в очередь к антиспам-фильтру &
> > антивирусу]-->[фильтрация]-->[постановка в очередь доставки на
> > backend]-->[доставка в ящик пользователю].
> >

[...]
> >
> > Минусы: такая схема имеет _радикально_ низкую производительность и в
> > случае операторского сегмента требуется закупать _весьма_ дорогое и
> > мощное оборудование и эксплуатировать его понимая, что бОльшая часть
> > ресурсов уходит на паразитную нагрузку в виде спам-трафика.
>
> Категорически не согласен - производительность у такой системы не хуже,
> чем у описанной вами ниже.

Есть мнение о том, что основное проблемное место у почтовых системы - диски. И с точки зрения нагрузки по I/O схема (грубо) с [0..1] write per msg, IMHO, производительнее схемы с [1..n] write per msg.

Разницу в стоимости систем работающих на 500 TPS vs. 3 000 TPS по дискам, думаю, что приводить не стоит.

[...]
> >
> > 4. Layer #4 - Bayes analyzer.
> >
> > Это уровень тоже работает после SMTP DATA, но _до_ выдачи финального 250
> > OK и у нас уже есть все mail body.
>
> Это значит, что ваша система должна быть настолько быстрой, чтобы
> уложиться в time-out SMTP.

Да, она относительно быстрая: 0.01-0.1 s (в зависимости от используемых алгоритмов и размера письма), а АFAIK SMTP timeout по RFC - 5 min.

> При этом способной анализировать сотни писем
> одновременно, ведь SMTP сессий одновременно может быть много.
Это не проблема, так как все анализаторы "живут" в процессе MTA. На стенде спокойно поднимал 4k сессий, хотя, конечно, пришлось немного потюнить тему конкурентного доступа к signatures & bayes storage.

> При разговорах о многочасовых очередях на SpamAssassin в это как-то не верится.

В нашем случае нет понятия "очередь". Письмо попадает в mail spool уже полностью обработанным.

P.S.
Немногие решения переплюнут SpamAssassin по качеству, но думается, что он уделает большинство по времени и объему потребляемых ресурсов :-)

--
С уважением,
Андрей Стаценко,
Наунет СП. Получено Fri Oct 05 10:05:09 2007

Этот архив был сгенерирован hypermail 2.1.8 : Fri 05 Oct 2007 - 16:14:53 MSD