dsync I/O has stalled

Steffen Klein - rockenstein AG SK at rockenstein.de
Mi Apr 18 16:51:11 CEST 2018


Hallo,

ich habe 2 neue Server aufgesetzt:
(physikalisch mit jeweils eigenem storage)
debian 9.4

Dovecot aus dem dovecot repo:

dovecot-core (+pop3,imap,lmtp,sieve,psql....)
Installiert:           2:2.3.1-1

Der sync läuft (oder sollte) über eine direkt-verbindung über 10g Karten was über iperf und rsync auch funktioniert.

[  3] local xxx.xxx.xxx.xxx port 57210 connected with xxx.xxx.xxx.xxx port 5001
[ ID] Interval       Transfer     Bandwidth
[  3]  0.0-10.0 sec  10.1 GBytes  8.69 Gbits/sec


Server1 enthält alle mailkonten inkl daten (ca 1,4 tb).
Wird dir replikation auf Server 2 gestartet (one-way, server2 synct nicht auf server1 zurück, ein 2way-sync funktioniert scheitert auch mit gleichem fehler), startet das ganze und läuft auch eine ganze Weile durch, dann aber hängt es.
Folgender Fehler ist zu finden:

     Dsync I/O has stalled, no activity for 600 seconds (last sent=mail_change (EOL), last recv=mail_change)

Über einen strace auf die pid von dovecot/replicator erhalte ich folgendes ab dem Moment in dem alle Replizierungen stehen bleiben:

read(16, 0x55b11f76a092, 8190)          = -1 EAGAIN (Resource temporarily unavailable)
epoll_wait(12, [{EPOLLIN|EPOLLHUP, {u32=527719040, u64=94219225291392}}], 18, 12000) = 1

Berechtigungen sind auf beiden Systemen identisch gesetzt, während „Resource temporarily unavailable“ ist ping, ssh, iperf + scp von server1 auf server2 und umgekehrt möglich. Die Größe der „stalled“ mailkonten sind unterschiedlich (2 -x gb), allerdings sind konten mit 10gb und grösser schon erfolgreich synchronisiert.

Weiss jemand WELCHE Ressource da temporär nicht verfügbar ist oder wo ich noch auf Fehlersuche gehen könnte?

Vielen Dank

Gruß

Steffen




Mehr Informationen über die Mailingliste Dovecot