dsync I/O has stalled
Steffen Klein - rockenstein AG
SK at rockenstein.de
Mi Apr 18 16:51:11 CEST 2018
Hallo,
ich habe 2 neue Server aufgesetzt:
(physikalisch mit jeweils eigenem storage)
debian 9.4
Dovecot aus dem dovecot repo:
dovecot-core (+pop3,imap,lmtp,sieve,psql....)
Installiert: 2:2.3.1-1
Der sync läuft (oder sollte) über eine direkt-verbindung über 10g Karten was über iperf und rsync auch funktioniert.
[ 3] local xxx.xxx.xxx.xxx port 57210 connected with xxx.xxx.xxx.xxx port 5001
[ ID] Interval Transfer Bandwidth
[ 3] 0.0-10.0 sec 10.1 GBytes 8.69 Gbits/sec
Server1 enthält alle mailkonten inkl daten (ca 1,4 tb).
Wird dir replikation auf Server 2 gestartet (one-way, server2 synct nicht auf server1 zurück, ein 2way-sync funktioniert scheitert auch mit gleichem fehler), startet das ganze und läuft auch eine ganze Weile durch, dann aber hängt es.
Folgender Fehler ist zu finden:
Dsync I/O has stalled, no activity for 600 seconds (last sent=mail_change (EOL), last recv=mail_change)
Über einen strace auf die pid von dovecot/replicator erhalte ich folgendes ab dem Moment in dem alle Replizierungen stehen bleiben:
read(16, 0x55b11f76a092, 8190) = -1 EAGAIN (Resource temporarily unavailable)
epoll_wait(12, [{EPOLLIN|EPOLLHUP, {u32=527719040, u64=94219225291392}}], 18, 12000) = 1
Berechtigungen sind auf beiden Systemen identisch gesetzt, während „Resource temporarily unavailable“ ist ping, ssh, iperf + scp von server1 auf server2 und umgekehrt möglich. Die Größe der „stalled“ mailkonten sind unterschiedlich (2 -x gb), allerdings sind konten mit 10gb und grösser schon erfolgreich synchronisiert.
Weiss jemand WELCHE Ressource da temporär nicht verfügbar ist oder wo ich noch auf Fehlersuche gehen könnte?
Vielen Dank
Gruß
Steffen
Mehr Informationen über die Mailingliste Dovecot