strange helper death

От: Anton Golubev <CGatePro_at_mx_ru>
Дата: Thu 17 Nov 2005 - 23:57:12 MSK


Добрый день,

Помогите, пожалуйста, разобраться, почему хелпер в какой-то момент времени перестает работать.
Хуже - CGP не может его перезапустить по тайм-ауту. Возникает 1-2 раза в неделю. Как-то связано с нагрузкой, так как раньше (пол-года, год назад) с тем же самым ПО и версией почтового сервера таких проблем не было.

Выглядит обычно так:
1. На странице настроек хелперов сообщение, что helper response time out.
2. Очередь видит. Все треды Enqueuer в статусе appling server rules. 3. Процесс хелпера в выводе ps висит со статусом Z, и надписью в скобках defunct.
3. Установка-снятие флага "используемый" хелпер в настройках не приводит к его перезапуску.
4. Корректная остановка сервера не удаётся, service CommuniGate stop приводит к тому, что в логах появляются сообщения о закрытии тредов listener. Процесс CGGatePro продолжает висеть вместе во всеми порожденными процессами.
5. Только kill -9 помогает. После перезапуска живёт еще неделю или две.

Очередь за время таких простоев достигает чудовищных размеров.

Интересный факт - "основные" демоны хелперов (spamd для sa-cgp и ap-process-server для spamtest-cgpro-lite) не "ломаются". После перезапуска сервера, "свежие" хелперы прекрасно продолжают с ними работать. Сами хелперы, простейшие программы - посредники до демона, в которых мало чему ломатся.

Обычно в день случается 4-6 "корректных" рестарта опять же по причине таймаута. См. выдержки из журнала за последние 3 дня.

Предупреждая возможные вопросы - на фильтр идут только "локальные" письма (LOCAL(*)) и не более 500Кбайт.
Если включить All Info, то получается банальная картина - CGP в какой-то момент отправив запрос не получает на него ответа.

Помогите, пожалуйста! Пока решения не выработано, подскажите, как настроить trap или что еще для предупреждения о невозможности перезапуска хелпера.

TimeOut - 30 sec, Restart - 1 Min

/var/CommuniGate/cgpav
/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite
/var/CommuniGate/sa-cgp

09:18:31.61 2 EXTFILTER(SpamAssassin2) '/var/CommuniGate/sa-cgp -s 5000000' relaunching
23:37:20.88 2 EXTFILTER(SpamAssassin2) '/var/CommuniGate/sa-cgp -s 5000000' relaunching
23:55:05.36 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching

00:53:35.58 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 09:16:10.31 2 EXTFILTER(SpamAssassin2) '/var/CommuniGate/sa-cgp -s 5000000' relaunching
19:11:12.76 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 21:17:16.15 2 EXTFILTER(SpamAssassin2) '/var/CommuniGate/sa-cgp -s 5000000' relaunching

10:05:05.59 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 15:36:42.09 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 18:46:20.13 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 19:40:05.08 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 20:51:32.20 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching 21:15:00.86 2 EXTFILTER(SpamAssassin2) '/var/CommuniGate/sa-cgp -s 5000000' relaunching
23:46:39.54 2 EXTFILTER(SpamTest)
'/usr/local/ap-mailfilter/bin/spamtest-cgpro-lite' relaunching

[root@brain anton]# uname -a
Linux brain.engec.ru 2.4.27-rc1 #3 SMP Втр Июн 22 23:53:12 MSD 2004 i686
i686 i386 GNU/Linux

[root@brain anton]# cat /etc/redhat-release Red Hat Linux release 8.0 (Psyche)

Versions: 4.2.9, 4.2.10, 5.0c1, 5.0.1

smtpInputRecipientsAccepted	2352
Server Up-Time:	12h 6m 59s


-- 
С уважением,
Антон Голубев
ИНЖЭКОН
тел. +7 812 1185005 *7169
Получено Thu Nov 17 20:57:15 2005

Этот архив был сгенерирован hypermail 2.1.8 : Fri 24 Apr 2015 - 16:14:33 MSK