Forum: >>> Magnum BBS <<<

Re: Grosse fatigue

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Fri Sep 23 10:10:02 2022

BERTRAND Joël <[email protected]> wrote on 23/09/2022 at 09:41:24+0200:

Bonjour à tous,

Ce matin, une fois de plus, systemd a cru bon tuer X et, incidemment, toutes les applications en cours (me contraignant à repartir de la sauvegarde de la nuit, je n'ai heureusement perdu qu'une heure de
travail). Ce ne serait encore pas trop grave s'il ne s'arrêtait pas au milieu du chemin, tuant X mais surtout pas les terminaux de contrôles dépendants de X :

top - 09:03:05 up 3 days, 53 min, 19 users, load average: 48,54, 25,93, 14,15
...
KiB Mem : 65562712 total, 5298100 libr, 24405232 util, 3078024 tamp/cache KiB Éch : 10066329+total, 71624128 libr, 29039160 util. 7755600 dispo Mem ...
76791 bertrand 20 0 10108 2468 1660 R 76,2 0,0 13:08.04
bash
2418 bertrand 20 0 9988 1792 1648 R 75,2 0,0 13:06.32
bash
79309 bertrand 20 0 9988 2432 1640 R 75,2 0,0 13:30.25
bash
307331 bertrand 20 0 9988 2604 1812 R 75,2 0,0 13:06.87
bash
422686 bertrand 20 0 10104 2564 1768 D 75,2 0,0 13:08.79
bash
475927 bertrand 20 0 10252 2508 1688 R 75,2 0,0 13:08.96
bash
477249 bertrand 20 0 10172 2460 1652 R 75,2 0,0 13:29.82
bash
2114 bertrand 20 0 10108 2016 1680 R 74,3 0,0 13:09.14
bash
2122 bertrand 20 0 10108 2056 1716 D 74,3 0,0 13:09.67
bash
3684 bertrand 20 0 9988 1808 1672 R 74,3 0,0 13:02.70
bash
4944 bertrand 20 0 9988 1892 1732 R 74,3 0,0 13:02.49
bash
77325 bertrand 20 0 9988 2580 1780 R 74,3 0,0 13:10.73
bash
103189 bertrand 20 0 10808 3064 1712 R 74,3 0,0 13:02.45
bash
309027 bertrand 20 0 9988 2496 1708 R 74,3 0,0 12:59.61
bash
429272 bertrand 20 0 10104 2532 1736 R 74,3 0,0 13:08.76
bash

en laissant des zombies partout, des fichiers à moitié ouverts et
corrompus ! Je ne vous ai pas mis toute la liste, la charge est
uniquement due aux bash qui tournent la poignée dans le coin sans rien
faire puisqu'ils ne sont plus associés à un terminal. Le swap de s'est rempli qu'_après_ que X a été tué par systemd.

Cette machine n'a aucun problème matériel. Je l'ai testée en long, en
large et en travers.

J'avoue que ça commence sérieusement à me fatiguer. systemd se permet
de tuer la session X sans aucune raison (rien dans les logs sinon un
truc du style systemd: kill X). Je tourne en testing à jour pour tout un
tas de raisons que je n'expliciterai pas ici.

Sur ces entrefaites, je passe ne console texte et je m'aperçois que trois paquets ne peuvent s'installer. Comment ça ? Pour mémoire, "unattented-upgrade" _N_'est _PAS_ configuré parce que j'ai une version
de KiCAD et une autre de FreeCAD en rolling releases (et
qu'accessoirement lorsque le truc décide de mettre à jour LaTeX, le
réseau rame durant plusieurs heures parce que la station de travail est diskless). La seule chose qui est faite, c'est un apt update la nuit.
Les mises à jour automatique mettent un bazar là-dedans et je préfère toujours les passer à la main quand je sais que je ne dérangerai personne.

Je tente donc un apt dist-upgrade et là, je vois que le truc veut m'installer usrmerge. Mais pour tout un tas de raisons, JE NE VEUX PAS
DE CETTE SALETÉ. Pourquoi ? Toute mon installation est diskless et/ou embarqué et usrmerge met un bazar incommensurable là-dedans. Pour une installation diskless, ça multiplie les latences (regardez un peu le
trafic sur un NFS/TCP, c'est effarant) et dans l'embarqué où / et /usr
ne sont pas sur les mêmes partitions, ça oblige à des contorsions pour espérer démarrer correctement jusqu'au bout.

Est-il possible de refuser usrmerge ? Ou faut-il que j'envisage de réinstaller cette machine sous autre chose, autre chose qui n'utilise ni systemd vus les dysfonctionnements du truc ni usrmerge ? D'ailleurs existe-t-il encore une distribution Linux sans usrmerge ?

À titre personnel, je ne comprends toujours pas que Debian cherche à imposer systemd vue la fiabilité de la chose dès lors qu'on n'est plus
sur un poste de travail avec un disque en local (la gestion des timeouts réseau ou des accès réseau concurrents au sens large est... rigologène pour rester poli et surtout non reproductible d'une version à l'autre). Quant à ursmerge, dans l'embarqué, on préférerais avoir un répertoire /rescue à la NetBSD et un /usr séparé pour toujours pouvoir démarrer un système minimal même lorsque la partition /usr est plantée (/ pouvant rester en lecture seule). Là, si /usr est corrompue pour une raison ou
pour une autre, on n'est même pas sûr de réussir à démarrer le système (sauf à se retrouver dans un shell embarqué dans le fumeux initramfs).

Merci pour toutes vos suggestions,

JKB

Une ligne de log, quelque chose qui montre que systemd a bien tué X et éventuellement pourquoi, ou bien on est juste sur yet another mail de
baseless FUD?

--
PEB

--=-=-Content-Type: application/pgp-signature; name="signature.asc"

-----BEGIN PGP SIGNATURE-----

iQJDBAEBCgAtFiEE5CQeth7uIW7ehIz87iFbn7jEWwsFAmMtaYgPHHBlYkBkZWJp YW4ub3JnAAoJEO4hW5+4xFsLbY4P+QHbr+sPJqh3j6Lq71i+pKzPoRu3PeR9pvMY x8l3JGfvpdlYOxAILk2Hwta33mBOxtp5pMpwKSu3aQmFAm0ZhVinXZYjDZx/h4hq j/MT9WD7+rfkZeGyr198sY3lnWbBEvoCpNvN/QjXcKThvM0PfoSfKsT+jQgnI/xE Ot4x66dLka4glrNOfDO6aINOAD0pyYK8GFBddnaNcswRedGWK3z9voZIHiH7ubUl H4dxS+lns8EIa/B1CrREmBpd/OgKVg29tppfS7NU02meZIOaysPOiklmb8UH3s8N G8cP1vnVpuit6SAX7m3UGyRXkqwbGJBgH2zl2O2/jUO9k/7Le6lfyjXnf7L1xKol dmf8JnEqC9FJHdKv+mpjLvUxRVydG2iqTQ6R/O2qxqOWasEyqjOZxzbu/Wd1A4N3 KRr2IIw2I0tICTa7OpjZa893w9HxIO9Qw7X18efA9/BgT2GDhPWaJsPnUV50pjvJ STU3jQheFlGyQ5CXwMuoMaHdyUcpUqyfBTdzxFO2DzygvPcgkJAqkhYyU848rXWb JUM3zRJFW67u8oXQ9k+mub7LmzD3xT+5Avzz2lD+WEpyZITWxlR+eH6Rc3902Z/E nCJJ8T28csb3IjyusHqyQMsRIYJjgAEOAptKe9g96j2tcCWSYlBVp2wX4e0P5KFk
WR++yO2g
=6QLU
-----END PGP SIGNATURE-----

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Michel Memeteau@21:1/5 to All on Fri Sep 23 10:30:01 2022

Bonjour ,

Je pensais que Systemd-OOM était désactivé sur debian ?

Le 23/09/2022 à 09:41, BERTRAND Joël a écrit :

Bonjour à tous,

Ce matin, une fois de plus, systemd a cru bon tuer X et, --

--------------------------
Michel Memeteau

Ekimia ( https://ekimia.fr )

Directeur

tel:+33(0)624808051

Address :
620 avenue de la roche fourcade
13400 Aubagne
France

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Erwann Le Bras@21:1/5 to All on Fri Sep 23 10:40:01 2022

This is a multi-part message in MIME format.
bonjour

je n'ai jamais constaté ce comportement :
sur mon ordi il arrive -rarement, mais je ne sais pas pourquoi- que
lightdm parte en vrille et je dois le redémarrer par 'systemctl restart lightdm' depuis la console locale en root.
Ma session utilisateur est fermée, et les les processus correctement stoppés.
("ps -fu /<utilisateur>/" ne retourne rien, rien de suspect dans
l'activité CPU/RAM au bout d'un instant)

Je peux me reconnecter sans soucis et relancer mes applis.
Certes, je perds le travail non sauvegardé mais je me suis habitué à sauvegarder souvent mon travail.

chez moi usrmerge n'est pas installé et Debian ne m'a jamais obligé à l'installer.
J'ai /usr dans /, je n'ai jamais vu l'intéret de les séparer

Je suis en Debian stable (11.5).

Ce matin, une fois de plus, systemd a cru bon tuer X et, incidemment,
toutes les applications en cours (me contraignant à repartir de la sauvegarde de la nuit, je n'ai heureusement perdu qu'une heure de
travail). Ce ne serait encore pas trop grave s'il ne s'arrêtait pas au milieu du chemin, tuant X mais surtout pas les terminaux de contrôles dépendants de X :

amitiés,

--

Erwann

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<p><br>
</p>
<div class="moz-cite-prefix">bonjour</div>
<div class="moz-cite-prefix"><br>
</div>
<div class="moz-cite-prefix">je n'ai jamais constaté ce comportement
:<br>
</div>
<div class="moz-cite-prefix">sur mon ordi il arrive -rarement, mais
je ne sais pas pourquoi- que lightdm parte en vrille et je dois le
redémarrer par 'systemctl restart lightdm' depuis la console
locale en root.</div>
<div class="moz-cite-prefix">Ma session utilisateur est fermée, et
les les processus correctement stoppés.</div>
<div class="moz-cite-prefix">("ps -fu <i><utilisateur></i>"
ne retourne rien, rien de suspect dans l'activité CPU/RAM au bout
d'un instant)</div>
<div class="moz-cite-prefix"><br>
</div>
<div class="moz-cite-prefix">Je peux me reconnecter sans soucis et

From didier gaumet@21:1/5 to All on Fri Sep 23 10:50:02 2022

Le 23/09/2022 à 10:31, Erwann Le Bras a écrit :
[...]

chez moi usrmerge n'est pas installé et Debian ne m'a jamais obligé à l'installer.
J'ai /usr dans /, je n'ai jamais vu l'intéret de les séparer

Je suis en Debian stable (11.5).

[...]

Bonjour,

De ce que je comprends, ce sera problématique en Stable à partir de
Debian 12 Bookworm:
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=978636
et en Unstable Sid, le support a déjà été abandonné ces jours derniers: https://lists.debian.org/debian-devel-announce/2022/09/msg00001.html

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From NoSpam@21:1/5 to All on Fri Sep 23 10:50:02 2022

Bonjour

Le 23/09/2022 à 10:31, Erwann Le Bras a écrit :
[...]

chez moi usrmerge n'est pas installé et Debian ne m'a jamais obligé à l'installer.
J'ai /usr dans /, je n'ai jamais vu l'intéret de les séparer

Je suis en Debian stable (11.5).

Si tu as fait un upgrade d'une version antérieure, pas d'usrmerge. Installation fraîche: usrmerge installé.

--
Daniel

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Erwann Le Bras@21:1/5 to All on Fri Sep 23 12:10:01 2022

This is a multi-part message in MIME format.

Bonjour

Le 23/09/2022 à 10:31, Erwann Le Bras a écrit :
[...]

chez moi usrmerge n'est pas installé et Debian ne m'a jamais obligé à
l'installer.
J'ai /usr dans /, je n'ai jamais vu l'intéret de les séparer

Je suis en Debian stable (11.5).

Si tu as fait un upgrade d'une version antérieure, pas d'usrmerge. Installation fraîche: usrmerge installé.

ah bah voilà. Ça doit être comme mes ports réseaux qui s'appellent
encore "lo0", "eth0" et "eth1" sur mon serveur.

sur le serveur c'est la même install depuis Debian 8, qui a changé de disques et de machine.

amitiés,

--

Erwann

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<p><br>
</p>
<div class="moz-cite-prefix"><br>
<br>
</div>
<blockquote type="cite"
cite="mid:[email protected]">Bonjour
<br>
<br>
Le 23/09/2022 à 10:31, Erwann Le Bras a écrit :
<br>
[...]
<br>
<blockquote type="cite">chez moi usrmerge n'est pas installé et
Debian ne m'a jamais obligé à l'installer.
<br>
J'ai /usr dans /, je n'ai jamais vu l'intéret de les séparer
<br>
<br>
Je suis en Debian stable (11.5).
<br>
</blockquote>
<br>
Si tu as fait un upgrade d'une version antérieure, pas d'usrmerge.
Installation fraîche: usrmerge installé.
<br>
</blockquote>
<p><br>
</p>
<p>ah bah voilà. Ça doit être comme mes ports réseaux qui
s'appe

From Erwan David@21:1/5 to All on Fri Sep 23 13:30:01 2022

Le 23/09/2022 à 12:42, antoine.valmer a écrit :

On Friday 23 September 2022 12:34:01 BERTRAND Joël wrote:

Attention, les ports sont renommés automatiquement sauf s'il y a des >> règles udev spécifiques. Cela fut rigolo au passage de l'ancien système >> au nouveau (et si j'ai pu récupérer eth1 et eth2, eth0 n'a rien voulu
savoir et se retrouve lan0).

Hello,
on peut tout à fait modifier le nom des ports eth, wlan...,
que ces noms abscons non explicites (ens...) attribués d'office par Debian et Ubuntu :
https://waytolearnx.com/2019/05/renommer-linterface-par-defaut-ens33-a-lancienne-eth0-sur-ubuntu-16-04.html

eth0, wlan0... c'est explicite, et pratique pour réparer un réseau défaillant.

Bonne journée.

Et au moins ça change pas sur une mise à jour de udev/systemd comme ça
m'est arrivé.

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Haricophile@21:1/5 to All on Fri Sep 23 15:00:01 2022

Le Fri, 23 Sep 2022 12:42:41 +0200,
"antoine.valmer" <[email protected]> a écrit :

eth0, wlan0... c'est explicite, et pratique pour réparer un réseau défaillant.

Le nouveau nommage est explicite aussi, c'est juste pas fait pour les
humains. Ce que je reproche n'est pas la logique du truc, mais ce fait
qui effectivement rend complexe ce qui était simple du point de vue de l'humain et du contrôle de ce qu'on fait. Je suppose que ça va
avec les automatisations, le branchement à chaud, les gros parcs et
toussa, mais il y a une perte de l'idée qu'on doit contrôler sa machine
et pas l'inverse. On se simplifie la vie en rendant les choses plus
complexes. C'est un paradoxe.

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Basile Starynkevitch@21:1/5 to All on Fri Sep 23 20:20:01 2022

On 23/09/2022 09:41, BERTRAND Joël wrote:

Bonjour à tous,

Ce matin, une fois de plus, systemd a cru bon tuer X et, incidemment, toutes les applications en cours (me contraignant à repartir de la sauvegarde de la nuit, je n'ai heureusement perdu qu'une heure de
travail). Ce ne serait encore pas trop grave s'il ne s'arrêtait pas au milieu du chemin, tuant X mais surtout pas les terminaux de contrôles dépendants de X :

Une suggestion en rapport est peut-être d'utiliser et d'améliorer mon https://github.com/bstarynk/misc-basile/blob/master/sync-periodically.c

Par ailleurs, je cherche des partenaires intéressés par
http://refpersys.org/ - contactez moi alors aussi sur mon mél
professionnel (au CEA, LIST): [email protected]

--
Basile Starynkevitch <[email protected]>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Sat Sep 24 22:50:01 2022

BERTRAND Joël <[email protected]> wrote on 23/09/2022 at 10:31:52+0200:

Pierre-Elliott Bécue a écrit :

Une ligne de log, quelque chose qui montre que systemd a bien tué X
et éventuellement pourquoi, ou bien on est juste sur yet another
mail de baseless FUD?

Sep 23 08:49:31 hilbert systemd[1]: Stopping User Manager for UID 0...
Sep 23 08:49:31 hilbert systemd[577146]: Activating special unit Exit
the Session...
Sep 23 08:49:31 hilbert systemd[577146]: Removed slice User Core
Session Slice.
Sep 23 08:49:31 hilbert systemd[577146]: Stopped target Main User Target.
Sep 23 08:49:31 hilbert systemd[577146]: Stopped target Basic System.
Sep 23 08:49:31 hilbert systemd[577146]: Stopped target Paths.
Sep 23 08:49:31 hilbert systemd[577146]: Stopped target Sockets.
Sep 23 08:49:31 hilbert systemd[577146]: Stopped target Timers.
Sep 23 08:49:31 hilbert systemd[577146]: Closed D-Bus User Message Bus Socket.
Sep 23 08:49:31 hilbert systemd[577146]: Closed GnuPG network
certificate management daemon.
Sep 23 08:49:31 hilbert systemd[577146]: Closed Socket to launch
DrKonqi for a systemd-coredump crash.
Sep 23 08:49:31 hilbert systemd[577146]: Closed GCR ssh-agent wrapper.
Sep 23 08:49:31 hilbert systemd[577146]: Closed GNOME Keyring daemon.
...
Sep 23 08:49:31 hilbert systemd[577146]: Reached target Shutdown.
Sep 23 08:49:31 hilbert systemd[577146]: Finished Exit the Session.
Sep 23 08:49:31 hilbert systemd[577146]: Reached target Exit the Session.
Sep 23 08:49:31 hilbert systemd[1]: [email protected]e: Deactivated
successfully.
Sep 23 08:49:31 hilbert systemd[1]: Stopped User Manager for UID 0.
Sep 23 08:49:31 hilbert systemd[1]: Stopping User Runtime Directory /run/user/0...
Sep 23 08:49:31 hilbert systemd[1]: run-user-0.mount: Deactivated successfully.
Sep 23 08:49:31 hilbert systemd[1]: [email protected]e:
Deactivated successfully.
Sep 23 08:49:31 hilbert systemd[1]: Stopped User Runtime Directory /run/user/0.
Sep 23 08:49:31 hilbert systemd[1]: Removed slice User Slice of UID 0.
...

Ok, donc systemd ne tue pas X. systemd met un terme à la session de
root. La raison est que systemd détermine au moment où il le fait que le dernier processus interactif (c'est-à-dire contrôlé par un utilisateur)
a terminé, et par défaut dans ce cas, il clos la session, et termine
donc tout programme lancé depuis cette session (logique, ça évite que
des trucs traînent ad-vitam comme résidus d'une session interactive).

Dans la mesure où tu as a priori une session graphique qui tourne, c'est effectivement surprenant, mais il est possible (vu que tu ne postes que
les logs qui t'intéressent, qui ne sont pas forcément les logs
pertinents) que ta session utilisateur meure pour une raison ou une
autre et qu'en conséquence, systemd considère qu'il n'y a plus aucun programme interactif qui tourne.

Il y a une façon d'éviter que systemd ferme une session en cas de fin de
tous les programmes interactifs d'un utilisateur, via "loginctl
enable-linger $username". Ici ça ressemble à du scotch sur une jambe de
bois car cela ne t'aidera pas à comprendre ce qu'il se passe
derrière.

Creuser les logs (un cron qui se lance? ton wm qui meurt/crashe?) serait
sans doute plus pertinent, voire activer certains debugs sur certains
progs. Après l'enable-linger peut aider à voir ce qu'il se passe et
trouver le nœud du problème si c'est effectivement un programme qui
meurt (puisque dans ce cas il mourra toujours mais le reste ne sera pas
buté).

Au passage, systemd va jusqu'à tuer ypbind :

Sep 23 08:49:46 hilbert systemd[1]: ypbind.service: Main process
exited

Non, systemd constate juste que ypbind a terminé, il ne le tue pas, et
n'a rien à voir avec son arrêt. C'est bien de critiquer, c'est mieux de
lire les lignes de logs que tu colles.

On se demande bien pourquoi.

Et il relance le tout comme si rien ne s'était passé (enfin, là, parce que par moment il tue ypbind sans le redémarrer, ce qui pose des problèmes amusants sur une machine diskless en NIS/NFS).

Il le relance parce qu'en cas d'arrêt inopiné, c'est ce que le service
est supposé faire.

De toute façon, la question n'est pas là. systemd décide pour une
raison inconnue de clôturer la session. Naturellement, il n'y a AUCUNE erreur avant la première ligne de log. Je veux donc me séparer à la
fois de cette saleté qui est une brique pour essuyer les plâtres et d'usrmerge.

Feel free to go elsewhere, mais ici le souci c'est avant tout que tu as décidé que c'était un bug ou un comportement inexplicable plutôt que d'essayer de comprendre ce qu'il se passe.

Tu auras donc d'autres problèmes sur d'autres systèmes, et tu trouveras
un autre outil à blâmer.

Je précise que ce genre de chose arrive tous les deux ou trois jours et que c'est gavant.

C'est sûr que ça doit l'être, mais c'est pas pour autant qu'il faut
devenir fainéant et juste rentrer dans le FUD. :)

--
PEB

--=-=-Content-Type: application/pgp-signature; name="signature.asc"

-----BEGIN PGP SIGNATURE-----

iQJDBAEBCgAtFiEE5CQeth7uIW7ehIz87iFbn7jEWwsFAmMvbF4PHHBlYkBkZWJp YW4ub3JnAAoJEO4hW5+4xFsLJNYQAJu+8f1++wnzqVBbTN5dfbW/3q7N6ZTA5REb Eo/HFvcFL2fnTDgmZDECzYYP6sYMiSR2Le4gqPKgJ6wuuH9Uy0DBTCFlCN5LMW3U pM22Jveo6WgablvsmQ+1vGOc8o3nh4ewzv9e3qnqE9iNI7JNfJYhzt7U1Ozn+FQq OTbO+9IxkyoLoziy0GQ2AorSgaVZNYWm0VW9XrVfdQlpK3bK1bR7SjcNJhu/LLeQ RYdhzrzDkUNqtEay8C7FRnTLawA2IaxTOaf215s6WdivCY6RyWgMCU524ty0lPF3 e7bhDZqgWXIM6iTMgGqCzSZ/m2UjlrYSsyUwOd2mqWJhLPfKuuekIrV31ptQxBj/ hcrK7cnf1cNL431eAMo+OPV3SBZVgaOgtfe8GI9KY3wc7PJqmg7F4ZcGqN5CrSAd Fq8Dv3VGdDJs30tt1sJyNDeP2Nccsoj4yEX2a8OWF5+fGspFRcNOlILJ77GVkY5B tFcQLcIdSZnLxTE396Fi11rukBvr6YiGO26WkZHkR1UJ0KMuXV3hp1y2UqdHr7KA x+mwzsoD/2R5Y5QHkBA4Zlc0uy3Aj5hJ41eZIWTML+RetI5mNa1jv8IOZwbXUiJn q7U8EslyRaSSoZZu/gLqQoZ+lPVJ7cZTyk9NNaaUEWWVzgVOGR7DXX0w5YtgNimN
Dklk8tLv
�vw
-----END PGP SIGNATURE-----

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From [email protected]@21:1/5 to All on Mon Sep 26 11:00:01 2022

Basile Starynkevitch a écrit :

On 23/09/2022 09:41, BERTRAND Joël wrote:

Bonjour à tous,

Bonjour

Ce matin, une fois de plus, systemd a cru bon tuer X et,
incidemment, toutes les applications en cours (me contraignant à
repartir de la sauvegarde de la nuit, je n'ai heureusement perdu
qu'une heure de travail). Ce ne serait encore pas trop grave s'il ne
s'arrêtait pas au milieu du chemin, tuant X mais surtout pas les
terminaux de contrôles dépendants de X :

Une suggestion en rapport est peut-être d'utiliser et d'améliorer mon https://github.com/bstarynk/misc-basile/blob/master/sync-periodically.
c

Merci, j'ai déjà ce qu'il faut, donc au pire, je perds quelques heures de boulot. Ce qui m'énerve surtout, c'est que durant 25 ans, je considérais Linux en général et Debian en particulier comme un OS stable, robuste et qu'on pouvait utiliser dans
des configurations spéciales. Ce n'est plus le cas aujourd'hui et c'est bien dommage.
---
Je suis d'accord, les évolutions mettent nos vieux neurones à rude épreuve. Je me suis moi-même cassé les dents sur une Ubuntu 22.04 en desktop pour des étudiants qui font un peu de dev python avec Spyder et de la bdd Mysql workbench. Le premier ne
fonctionne même pas car le python système 3.10 est en avance sur le package de spyder compatible avec 3.9, et pour le deuxième, le paquet issu du site officiel d'Oracle plante avec wayland. Même Firefox en version snap n'est pas compatible avec des
home directory en NFS en dehors du /home. J'ai donc viré snap et wayland et d'autres bidouilles pour contourner les problèmes sans être certain d'une bonne stabilité. Pour du LTS je m'attendait à mieux, c'est usant...

Pour en revenir à Debian et tes problèmes avec systemd, soit continuer à lutter soit passer sur devuan.org. Ce fork n'a pas été créé sans raison, tu n'es donc pas seul dans cette galère.

Bon courage.

RaphR

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gatewa

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Tue Sep 27 00:20:02 2022

Salut,

BERTRAND Joël <[email protected]> wrote on 26/09/2022 at 09:44:54+0200:

Pierre-Elliott Bécue a écrit :

BERTRAND Joël <[email protected]> wrote on 23/09/2022 at 10:31:52+0200:

[snip]

Ok, donc systemd ne tue pas X. systemd met un terme à la session de
root. La raison est que systemd détermine au moment où il le fait que le >> dernier processus interactif (c'est-à-dire contrôlé par un utilisateur) >> a terminé, et par défaut dans ce cas, il clos la session, et termine
donc tout programme lancé depuis cette session (logique, ça évite que
des trucs traînent ad-vitam comme résidus d'une session interactive).

Dans la mesure où tu as a priori une session graphique qui tourne, c'est
effectivement surprenant, mais il est possible (vu que tu ne postes que
les logs qui t'intéressent, qui ne sont pas forcément les logs
pertinents) que ta session utilisateur meure pour une raison ou une
autre et qu'en conséquence, systemd considère qu'il n'y a plus aucun
programme interactif qui tourne.

Il n'y a rien d'autre anormal avant cela, mais tu n'es pas contraint de me croire. Ce matin, d'ailleurs, je réveille ma machine (écrans en
veille) pour constater une fois de plus que la session avait été tuée et que wdm n'était même plus actif. J'ai la flemme d'aller rechercher dans deux jours de logs pour trouver toujours le même message après des
lignes tout à fait normales.

Au passage, ça m'a fait exactement la même chose sur la machine de ma femme (dans la même configuration diskless) jusqu'au jour où j'en ai eu tellement marre que je lui ai installé un FreeBSD. Sauf que moi, je ne
peux pas, j'ai un bout de soft propriétaire qui ne tourne que sous Linux.

Très bien, mais as-tu, par exemple, unattended-upgrades ou équivalent
qui tourne ? As-tu un needrestart d'installé qui redémarrerait des
services agressivement en cas d'upgrade via un unattended-upgrades like?

Il y a une façon d'éviter que systemd ferme une session en cas de fin de >> tous les programmes interactifs d'un utilisateur, via "loginctl
enable-linger $username". Ici ça ressemble à du scotch sur une jambe de
bois car cela ne t'aidera pas à comprendre ce qu'il se passe
derrière.

Creuser les logs (un cron qui se lance? ton wm qui meurt/crashe?) serait
sans doute plus pertinent, voire activer certains debugs sur certains
progs. Après l'enable-linger peut aider à voir ce qu'il se passe et
trouver le nœud du problème si c'est effectivement un programme qui
meurt (puisque dans ce cas il mourra toujours mais le reste ne sera pas
buté).

Figure-toi qu'avant de poster ici, j'ai un peu creusé, parce que ça fait plusieurs mois que le problème dure. J'utilise Debian depuis Potato
et, avant, j'utilisais RedHat. Je sais où chercher et où creuser.

J'ai tout d'abord cru que c'était wdm le fautif, mais avec xdm ou gdm, le résultat est strictement identique. J'ai mis la chose sur le dos de wmaker, j'ai essayé xfce. Idem. KDE, itou. Gnome, je ne peux pas, je
suis allergique. Quand je dis que le résultat est identique, c'est une fermeture de la session comme si j'avais normalement quitté la session (jamais de crash violent), mais avec les shells restant actifs,
rattachés à systemd et qui passent dans un état bizarre (utilisation CPU maximale). J'ai mis ça sur le dos de la carte graphique. J'ai changé la carte AMD par une NVidia avec le même résultat.

J'ai même réinstallé le système en totalité (sans soft proprétaire, que
du Debian pour commencer) parce que mon installation datait un petit
peu. Même résultat. Et ce ne sont pas des programmes aléatoires qui sont arrêtés, mais la session X ou ypbind (jamais autre chose, lorsque
d'autres daemons sont arrêtés, c'est parce que ypbind est stoppé au préalable, n'est pas redémarré par systemd et que le daemon en question crashe parce qu'il n'a plus accès aux tables NIS). Tu vois, j'ai un peu creusé le sujet.

Il n'y a pas de cron foireux, j'ai naturellement vérifié. ypbind tourne
directement rattaché à init, donc ici à systemd et s'il y a un truc qui est stable, c'est bien ypbind. Quand je le lance dans une console, il récupère un signal 15 du père (ici systemd)

Sauf si tu fais des trucs spécifique, en lançant ypbind dans une
console, c'est elle qui est parent de ypbind. À moins que ypbind se
détache mais dans ce cas tu ne devrais plus avoir de stdout/stderr.

et c'est pour cela qu'il s'arrête. Ça peut mettre deux ou trois jours,
plus encore, mais ce signal 15 du père finit TOUJOURS par
arriver. Quand il est lancé en daemon, il n'y a strictement rien comme information pertinente dans les logs. Mais vu qu'il s'arrête en
interactif sur un signal 15, je te file mon billet que c'est
exactement la même chose lorsqu'il est en tâche de fond. La question
est de savoir pourquoi systemd envoie un signal au processus en
question. Dernière chose, j'ai installé Devuan avec le même ypbind sur
un vieux portable dans la même configuration nis (mais avec un init
SysV qui fonctionne et qui fait juste ce qu'on lui demande). Aucun problème. Ce n'est donc pas ypserv qui est en faute mais le père de
ypbind (sinon, ypbind se baugerait aussi sur le portable en
question). Je te l'accorde, c'est peut-être une interaction de systemd
avec tout autre chose qui fait que la conséquence est un arrêt de
ypbind. Mais ce quelque chose ne laisse dans ce cas aucune trace dans
les logs.

Et systemd est plutôt verbeux, donc c'est peu probable que ça soit lui
tout seul.

On est bien d'accord que ypbind n'a aucune raison de se prendre un signal 15 si X se bauge lui-même vu que ypbind n'est pas lancé dans la session X. On est bien d'accord que ce n'est pas ypbind qui s'envoie à lui-même un signal 15.

Reste le problème des shells tournant dans des xterm. La session X est tuée, certes, mais tous les shells entrent dans un état bizarre
lorsqu'ils sont rattachés à... systemd (parce que, là encore, j'ai vérifié les PPID). Et, naturellement, ce n'est pas un bug non plus.
C'est juste un comportement non maîtrisé. Chose surprenante, le fait que les xterms soient tués par la fin de la session X ne tue pas les shells dépendants (?!).

Bon, déjà tu as totalement mis de côté ma solution à base
d'enable-linger pour creuser.

Ensuite, tu peux aussi installer auditd, et tracker tous les syscalls
dont les signaux envoyés. Ça te permettrait de savoir qui envoie de
SIGTERM.

Au passage, systemd va jusqu'à tuer ypbind :

Sep 23 08:49:46 hilbert systemd[1]: ypbind.service: Main process
exited

Non, systemd constate juste que ypbind a terminé, il ne le tue pas, et
n'a rien à voir avec son arrêt. C'est bien de critiquer, c'est mieux de
lire les lignes de logs que tu colles.

On se demande bien pourquoi.

Et il relance le tout comme si rien ne s'était passé (enfin, là,
parce que par moment il tue ypbind sans le redémarrer, ce qui pose des
problèmes amusants sur une machine diskless en NIS/NFS).

Il le relance parce qu'en cas d'arrêt inopiné, c'est ce que le service
est supposé faire.

Sauf que dans le cas de ypbind, ça ne fonctionne pas. Il n'est JAMAIS relancé. C'est d'ailleurs amusant, c'est souvent comme cela qu'à
distance je m'en rends compte parce que je ne plus faire de ssh sur la machine en question. Si j'ai un shell ouvert, je peux encore récupérer
la situation, mais dans le cas contraire, c'est mort. Dans le cas de X,
ça fonctionne une fois sur deux.

Tu dis l'inverse (que systemd tente de relancer des trucs dont ypbind)
dans ton mail précédent qui est cité. Faut savoir.

Après si tu perds ton système (mort de ypbind), ça ne m'étonne qu'à moitié que le relancement ne se fasse pas bien.

De toute façon, la question n'est pas là. systemd décide pour une
raison inconnue de clôturer la session. Naturellement, il n'y a AUCUNE
erreur avant la première ligne de log. Je veux donc me séparer à la
fois de cette saleté qui est une brique pour essuyer les plâtres et
d'usrmerge.

Feel free to go elsewhere, mais ici le souci c'est avant tout que tu as
décidé que c'était un bug ou un comportement inexplicable plutôt que
d'essayer de comprendre ce qu'il se passe.

Ça fait des mois que je bissecte le truc dans tous les sens, que j'y ai
passé un paquet d'heures, tu ne m'ôteras de l'esprit que c'est un bug systemd parce que tout le reste, pris séparément, fonctionne
parfaitement. Ça pue une utilisation un peu spéciale des disques qui,
dans le cas d'un nfsroot, peuvent mettre un peu de temps à répondre,
voire se prendre un "nfs server not responding" durant quelques secondes.

J'ai bien compris que tu es convaincu d'avoir trouvé le coupable. Tu as peut-être raison, cependant, me prétendre que tu sais où chercher et
comment quand tu n'as utilisé aucun outil pour débugger ledit systemd,
ni auditd qui te permettrait de savoir qui sigterm quoi quand, c'est pas
donner l'impression que tu te donnes les moyens de valider ta théorie.

Et du coup, oui, ça ressemble à du FUD.

Bref, tu fais ce que tu veux, mais à ta place vu que tu as des signaux envoyés, tu sais qu'il y a des syscalls faits juste avant, et un
syscall, c'est facile à tracer, sous Linux.

À toi de voir.

Tu auras donc d'autres problèmes sur d'autres systèmes, et tu trouveras
un autre outil à blâmer.

Bon, je vais être clair, je considère pour avoir un beau parc de machines embarquées dans la nature que systemd est un nid à ennui. Et je pèse mes mots. Son comportement n'est pas reproductif d'une version à la suivante. Pas plus tard qu'il y a un mois, en plein été, il m'a fallu remplacer à la volée des clauses Require par After alors qu'il n'y avait aucune raison valable. Heureusement que je teste avant de déployer ! Je pense que même les concepteurs du bousin ne savent plus trop comment ça fonctionne. Donc lorsque tu es dans une configuration standard (disques locaux, pas de configuration réseau bizarre), ça fonctionne. Mais dès
que tu es dans un truc pas trop prévu ou pas testé par les concepteurs,
ça merdoie dans les grandes largeurs et il y a des effets de bord partout.

Ça, ça ressemble essentiellement à du FUD, et je n'ai pas le temps pour
ça. En revanche, je suis ravi d'en prendre, si tu le souhaites, pour
essayer de comprendre l'enchaînement d'événements qui détruis ta session utilisateur ou ton ypbind. Cf auditd.

Bien à toi.
--
PEB

--=-=-Content-Type: application/pgp-signature; name="signature.asc"

-----BEGIN PGP SIGNATURE-----

iQJDBAEBCgAtFiEE5CQeth7uIW7ehIz87iFbn7jEWwsFAmMyJA8PHHBlYkBkZWJp YW4ub3JnAAoJEO4hW5+4xFsLWZQQAIS94zTRsBS1rAviTTUrOCwGvafKVIz5Cnb6 QJ3B5KV0JUUg3hn7KpdmFuEzoD0P2afMyH7Sj1PN2EUnCQw3gg2O6NQSSi7h2SXi iXl1EtLDJgxVXsOTJsQMP6kZW5tWVPw3VphvEXkaIMpvper5HYHY/wxW/PH4qrG/ oYhA2cdFGPSIuaD/CT2vZlQMcz8CXEELpfTiamxcrscTdLEUpeiW010LiAcUaqe+ XIhLS3o+cgtMIDbEaPDtrYhEt+EHQoczsVg+E4H9ENqUi6xlEAnfegPN9hCUllOM awQeoq3+eQIN04flpgHPNssta8Nap7s35VAQ6EMLt6tyq9PrH84i24SjvMwiluAk t3ckYhLVyk6qoyZuhrnt9wBPlgOoPkGrJGqrewFBl1ZjwObgATg8gO27T13wmsXQ I7xWYMwA57/wb/c8EvOLMFbmNYMYtRDjLIy2u4FFQHUt3bqtHAxUFbB+8o5GPKVG yfDqJ01xLXYjP1K5gZ1oL+lj9upImBvcfPcbmJLxxpO23DVaHzwNiR7HEjtyguAH muy2MGtu9DiEHQpNMqV4AU9kajvTAGxBYpTx6sCYSvktwPmsBoY8lJ1eZr1TFwZs tyEqhxCFfDkiu3qZYyNTuSTyx0mspsgfEPTpufcPXhPSWSMIRsWlyrRIwx4dnubr
VILL2W4N
=Owkq
-----END PGP SIGNATURE-----

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Thomas Parmelan@21:1/5 to All on Tue Sep 27 18:10:01 2022

Le samedi 24 septembre 2022 à 22:35, d'après
Pierre-Elliott Bécue <[email protected]> :

BERTRAND Joël <[email protected]> wrote on 23/09/2022 at 10:31:52+0200:

Sep 23 08:49:31 hilbert systemd[1]: Stopping User Manager for UID 0...

[...]

Il y a une façon d'éviter que systemd ferme une session en cas de fin de tous les programmes interactifs d'un utilisateur, via "loginctl
enable-linger $username".

Question naïve, mais qui me turlupine à vous lire tous les deux : si je comprends bien, la session graphique est lancée sous l'identité de root
(ce qui est rarement une idée géniale, mais c'est un autre débat). Par défaut l'utilisateur root est exclu du système de "lingering", mais cela vaudrait peut-être le coup de vérifier de ce côté :

- dans /etc/systemd/logind.conf, est-ce que KillExcludeUsers est
positionné explicitement (et dans ce cas il faut s'assurer que
"root" est bien listé dedans) ?

- le problème est-il reproductible par un autre utilisateur ?

--
Thomas Parmelan

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Thomas Parmelan@21:1/5 to All on Wed Sep 28 11:00:01 2022

Le mardi 27 septembre 2022 à 18:23, d'après
BERTRAND Joël <[email protected]> :

Sep 23 08:49:31 hilbert systemd[1]: Stopping User Manager for UID 0...

Question naïve, mais qui me turlupine à vous lire tous les deux : si je comprends bien, la session graphique est lancée sous l'identité de root (ce qui est rarement une idée géniale, mais c'est un autre débat).

Absolument pas. La session est ouverte en tant qu'utilisateur standard authentifié par ypbind.

Ah, très bien, alors dans ce cas cette ligne "systemd[1]: Stopping User Manager for UID 0..." concerne autre chose, peut-être un "su" dans un
job cron par exemple. Cela devrait être identifiable en regardant les
lignes précédant celles-ci dans les logs.

Si la session n'est pas ouverte en UID 0, et que c'est bien systemd qui
la termine, alors il doit y avoir des choses avec le bon UID dans les
logs, mais je n'ai rien vu de tel dans les extraits précédemment
fournis.

PS étant abonné à la liste, il est inutile de me mettre en copie ;)

--
Thomas Parmelan

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Thu Sep 29 00:10:01 2022

BERTRAND Joël <[email protected]> wrote on 28/09/2022 at 11:25:59+0200:

Thomas Parmelan a écrit :

Le mardi 27 septembre 2022 à 18:23, d'après
BERTRAND Joël <[email protected]> :

Sep 23 08:49:31 hilbert systemd[1]: Stopping User Manager for UID 0... >>

Question naïve, mais qui me turlupine à vous lire tous les deux : si je >>>> comprends bien, la session graphique est lancée sous l'identité de root >>>> (ce qui est rarement une idée géniale, mais c'est un autre débat).

Absolument pas. La session est ouverte en tant qu'utilisateur standard >>> authentifié par ypbind.

Ah, très bien, alors dans ce cas cette ligne "systemd[1]: Stopping User
Manager for UID 0..." concerne autre chose, peut-être un "su" dans un
job cron par exemple. Cela devrait être identifiable en regardant les
lignes précédant celles-ci dans les logs.

Si la session n'est pas ouverte en UID 0, et que c'est bien systemd qui
la termine, alors il doit y avoir des choses avec le bon UID dans les
logs, mais je n'ai rien vu de tel dans les extraits précédemment
fournis.

Parce qu'en fait, il n'y a strictement rien d'autre (et en règle générale, il n'y a aucun su). Pour être exact, la ligne précédente concerne un cron plusieurs minutes avant (deux ou trois de mémoire).

Alors vu le nombre de trucs qui ferment avant que systemd ne valide que
la slice de l'user 0 est terminée, et considérant que toutes les lignes
de logs sont horodatées à la même heure:min:sec, j'aurais tendance à
dire que soit ton cron est louche, soit il y a bien une session
interactive qui tourne pour root.

Par ailleurs, wdm et X tournent tous deux avec les droits root.

--
PEB

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Thu Sep 29 00:00:02 2022

BERTRAND Joël <[email protected]> wrote on 27/09/2022 at 10:32:17+0200:

Pierre-Elliott Bécue a écrit :

Salut,

BERTRAND Joël <[email protected]> wrote on 26/09/2022 at 09:44:54+0200:

Pierre-Elliott Bécue a écrit :

BERTRAND Joël <[email protected]> wrote on 23/09/2022 at 10:31:52+0200:

[snip]

Ok, donc systemd ne tue pas X. systemd met un terme à la session de
root. La raison est que systemd détermine au moment où il le fait que le >>>> dernier processus interactif (c'est-à-dire contrôlé par un utilisateur) >>>> a terminé, et par défaut dans ce cas, il clos la session, et termine >>>> donc tout programme lancé depuis cette session (logique, ça évite que >>>> des trucs traînent ad-vitam comme résidus d'une session interactive). >>>>
Dans la mesure où tu as a priori une session graphique qui tourne, c'est >>>> effectivement surprenant, mais il est possible (vu que tu ne postes que >>>> les logs qui t'intéressent, qui ne sont pas forcément les logs
pertinents) que ta session utilisateur meure pour une raison ou une
autre et qu'en conséquence, systemd considère qu'il n'y a plus aucun >>>> programme interactif qui tourne.

Il n'y a rien d'autre anormal avant cela, mais tu n'es pas contraint de >>> me croire. Ce matin, d'ailleurs, je réveille ma machine (écrans en
veille) pour constater une fois de plus que la session avait été tuée et >>> que wdm n'était même plus actif. J'ai la flemme d'aller rechercher dans >>> deux jours de logs pour trouver toujours le même message après des
lignes tout à fait normales.

Au passage, ça m'a fait exactement la même chose sur la machine de ma >>> femme (dans la même configuration diskless) jusqu'au jour où j'en ai eu >>> tellement marre que je lui ai installé un FreeBSD. Sauf que moi, je ne
peux pas, j'ai un bout de soft propriétaire qui ne tourne que sous Linux. >>

Très bien, mais as-tu, par exemple, unattended-upgrades ou équivalent
qui tourne ? As-tu un needrestart d'installé qui redémarrerait des
services agressivement en cas d'upgrade via un unattended-upgrades like?

Non et non. J'ai déjà indiqué ça plus haut. Ce genre de chose merdoie
allègrement en nfs root (il faut plusieurs heures pour un paquet comme TeXlive et ça engorge le réseau et le serveur nfs, c'est donc désactivé par défaut).

<snip>

Il n'y a pas de cron foireux, j'ai naturellement vérifié. ypbind tourne
directement rattaché à init, donc ici à systemd et s'il y a un truc qui >>> est stable, c'est bien ypbind. Quand je le lance dans une console, il
récupère un signal 15 du père (ici systemd)

Sauf si tu fais des trucs spécifique, en lançant ypbind dans une
console, c'est elle qui est parent de ypbind. À moins que ypbind se
détache mais dans ce cas tu ne devrais plus avoir de stdout/stderr.

Je ne fais rien de spécifique (ypbind -dn).

et c'est pour cela qu'il s'arrête. Ça peut mettre deux ou trois jours, >>> plus encore, mais ce signal 15 du père finit TOUJOURS par
arriver. Quand il est lancé en daemon, il n'y a strictement rien comme
information pertinente dans les logs. Mais vu qu'il s'arrête en
interactif sur un signal 15, je te file mon billet que c'est
exactement la même chose lorsqu'il est en tâche de fond. La question
est de savoir pourquoi systemd envoie un signal au processus en
question. Dernière chose, j'ai installé Devuan avec le même ypbind sur >>> un vieux portable dans la même configuration nis (mais avec un init
SysV qui fonctionne et qui fait juste ce qu'on lui demande). Aucun
problème. Ce n'est donc pas ypserv qui est en faute mais le père de
ypbind (sinon, ypbind se baugerait aussi sur le portable en
question). Je te l'accorde, c'est peut-être une interaction de systemd
avec tout autre chose qui fait que la conséquence est un arrêt de
ypbind. Mais ce quelque chose ne laisse dans ce cas aucune trace dans
les logs.

Et systemd est plutôt verbeux, donc c'est peu probable que ça soit lui
tout seul.

On est bien d'accord que ypbind n'a aucune raison de se prendre un
signal 15 si X se bauge lui-même vu que ypbind n'est pas lancé dans la >>> session X. On est bien d'accord que ce n'est pas ypbind qui s'envoie à
lui-même un signal 15.

Reste le problème des shells tournant dans des xterm. La session X est >>> tuée, certes, mais tous les shells entrent dans un état bizarre
lorsqu'ils sont rattachés à... systemd (parce que, là encore, j'ai
vérifié les PPID). Et, naturellement, ce n'est pas un bug non plus.
C'est juste un comportement non maîtrisé. Chose surprenante, le fait que >>> les xterms soient tués par la fin de la session X ne tue pas les shells >>> dépendants (?!).

Bon, déjà tu as totalement mis de côté ma solution à base
d'enable-linger pour creuser.

Ensuite, tu peux aussi installer auditd, et tracker tous les syscalls
dont les signaux envoyés. Ça te permettrait de savoir qui envoie de
SIGTERM.

Voir plus loin pourquoi c'est inapplicable (encore une fois, je ne t'ai pas attendu, ça fait de longs mois que le problème existe.).

Ce n'est jamais inapplicable.

Au passage, systemd va jusqu'à tuer ypbind :

Sep 23 08:49:46 hilbert systemd[1]: ypbind.service: Main process
exited

Non, systemd constate juste que ypbind a terminé, il ne le tue pas, et >>>> n'a rien à voir avec son arrêt. C'est bien de critiquer, c'est mieux de >>>> lire les lignes de logs que tu colles.

On se demande bien pourquoi.

Et il relance le tout comme si rien ne s'était passé (enfin, là, >>>>> parce que par moment il tue ypbind sans le redémarrer, ce qui pose des >>>>> problèmes amusants sur une machine diskless en NIS/NFS).

Il le relance parce qu'en cas d'arrêt inopiné, c'est ce que le service >>>> est supposé faire.

Sauf que dans le cas de ypbind, ça ne fonctionne pas. Il n'est JAMAIS >>> relancé. C'est d'ailleurs amusant, c'est souvent comme cela qu'à
distance je m'en rends compte parce que je ne plus faire de ssh sur la
machine en question. Si j'ai un shell ouvert, je peux encore récupérer >>> la situation, mais dans le cas contraire, c'est mort. Dans le cas de X,
ça fonctionne une fois sur deux.

Tu dis l'inverse (que systemd tente de relancer des trucs dont ypbind)
dans ton mail précédent qui est cité. Faut savoir.

J'ai écrit que systemd relance les daemons (il tente au moins). Et je rajoute que, de temps en temps, on ne sait pas pourquoi, la station
reste sur sa console texte et que la moitié des daemons se retrouve en
vrac. J'ai naturellement cherché dans les logs pourquoi certains daemons
ne sont pas relancés, il n'y a rien.

Après si tu perds ton système (mort de ypbind), ça ne m'étonne qu'à
moitié que le relancement ne se fasse pas bien.

Certes, mais ce n'est pas corrélé. Hier matin, ypbind était bien actif,
mais les daemons n'ont pas été relancés. Et tant qu'on est dans les bizarreries, depuis la dernière mouture de systemd (eh oui, j'ai même un fichier des dysfonctionnements observés en fonction des versions pour
voir si c'est lié), lorsque firefox buggue et ne rend pas la main, le
fait de le tuer avec un kill -9 tue _aussi_ la session X. C'est nouveau,
ça vient de sortir.

De toute façon, la question n'est pas là. systemd décide pour une >>>>> raison inconnue de clôturer la session. Naturellement, il n'y a AUCUNE >>>>> erreur avant la première ligne de log. Je veux donc me séparer à la >>>>> fois de cette saleté qui est une brique pour essuyer les plâtres et >>>>> d'usrmerge.

Feel free to go elsewhere, mais ici le souci c'est avant tout que tu as >>>> décidé que c'était un bug ou un comportement inexplicable plutôt que >>>> d'essayer de comprendre ce qu'il se passe.

Ça fait des mois que je bissecte le truc dans tous les sens, que j'y ai
passé un paquet d'heures, tu ne m'ôteras de l'esprit que c'est un bug
systemd parce que tout le reste, pris séparément, fonctionne
parfaitement. Ça pue une utilisation un peu spéciale des disques qui,
dans le cas d'un nfsroot, peuvent mettre un peu de temps à répondre,
voire se prendre un "nfs server not responding" durant quelques secondes. >>

J'ai bien compris que tu es convaincu d'avoir trouvé le coupable. Tu as
peut-être raison, cependant, me prétendre que tu sais où chercher et
comment quand tu n'as utilisé aucun outil pour débugger ledit systemd,
ni auditd qui te permettrait de savoir qui sigterm quoi quand, c'est pas
donner l'impression que tu te donnes les moyens de valider ta théorie.

Et du coup, oui, ça ressemble à du FUD.

Tu crois ce que tu veux.

Bref, tu fais ce que tu veux, mais à ta place vu que tu as des signaux
envoyés, tu sais qu'il y a des syscalls faits juste avant, et un
syscall, c'est facile à tracer, sous Linux.

À toi de voir.

Tu auras donc d'autres problèmes sur d'autres systèmes, et tu trouveras >>>> un autre outil à blâmer.

Bon, je vais être clair, je considère pour avoir un beau parc de
machines embarquées dans la nature que systemd est un nid à ennui. Et je >>> pèse mes mots. Son comportement n'est pas reproductif d'une version à la >>> suivante. Pas plus tard qu'il y a un mois, en plein été, il m'a fallu
remplacer à la volée des clauses Require par After alors qu'il n'y avait >>> aucune raison valable. Heureusement que je teste avant de déployer ! Je >>> pense que même les concepteurs du bousin ne savent plus trop comment ça >>> fonctionne. Donc lorsque tu es dans une configuration standard (disques
locaux, pas de configuration réseau bizarre), ça fonctionne. Mais dès >>> que tu es dans un truc pas trop prévu ou pas testé par les concepteurs, >>> ça merdoie dans les grandes largeurs et il y a des effets de bord partout. >>

Ça, ça ressemble essentiellement à du FUD, et je n'ai pas le temps pour >> ça. En revanche, je suis ravi d'en prendre, si tu le souhaites, pour
essayer de comprendre l'enchaînement d'événements qui détruis ta session >> utilisateur ou ton ypbind. Cf auditd.

Je ne t'ai pas attendu. Je te rappelle que le problème dure depuis de trop longs mois (j'en ai déjà parlé ici) et que j'ai utilisé à peu près tous les moyens disponibles dans la doc pour débugguer. auditd est juste
le genre de truc totalement inutilisable sur une machine diskless,
surtout quand elle sert réellement à travailler. Le nombre d'I/O est monstrueux et sature le serveur nfs qui est pourtant une bête de course.
Or c'est de ça qu'on parle. Si tu ne me crois pas, tu peux en installer
une pour vérifier.

… auditd ça se paramètre hein, tu peux heureusement filtrer ce qui ne t'intéresse pas. Tu peux même jeter les syscalls dont tu te fiches, dont
ceux en lien avec des I/O, si tu es sûr qu'ils ne sont pas en
cause. J'utilise auditd sur des serveurs avec plusieurs millions d'I/O
par jour sans aucun souci. Et si tu me dis que tu as aussi un nombre
monstrueux d'utilisations de signal(2), dans ce cas je pense qu'en effet
ce n'est pas systemd le souci.

Tu "ne m'as pas attendu" mais apparemment tu ne t'es pas documenté sur
toutes les options.

Bref, tu es venu demander de l'aide, je t'en propose, si tu as envie de
tout dismiss en essayant de m'expliquer que tu as pensé à tout, je n'ai
en toute franchise pas le temps.

Donc jusqu'à ce que tu aies du grain à moudre, j'arrête là.

--
PEB

--=-=-Content-Type: application/pgp-signature; name="signature.asc"

-----BEGIN PGP SIGNATURE-----

iQJDBAEBCgAtFiEE5CQeth7uIW7ehIz87iFbn7jEWwsFAmM0wu0PHHBlYkBkZWJp YW4ub3JnAAoJEO4hW5+4xFsLso0QALmgM0fhxsJM+qPQ1lyBow+iIC//0QiaXLjO /a1qxzSB9tWdV/HMJFyvMuihvKW0DpSd1pYIESs8mcFo8SOrrky/r2mwLTLvA9n8 SaMcyaldFfjG5t66soNcYHVfNAO3VSMzzVCbXbQgOEx5rhvtyoijhKCuqdl2w+pP iPHeaCDx9nZzqqMOOAHyL0hoqfxUrEJgRmduR5p+L0VN2aAvYRZYHimpfoVQvPCn WpWjvx8IKa9J1rncr3xX3HNuHhb6ahmtX88zWWjhuMh98tDvEHYnjTAGrlqu7exI diFh2o3tP+Jju08BNtWpeiQ70yym95/dZKwKoUG6X/Aqg5uJrKMkiE2U63nsStle 7loA77LcsWwVZc/KSpOY4GD/YUXeq+2WTDfYbk5xLQ3nvv4OmrFjUHOo1fsOaCgA 0QlByB5tJZ2/q1euuSbfZAKRU9lRhDN0y/rBYbg501C7VYvCisoT3t5EL6g4ih2u +I1PQn8mCA/pGRrDISXALOFxmKzTCuDW2QgxJ4DJJ8jPAioZRM/bIHYEkzD9Mp44 vhOjWpmcYWvZjYUP4rHu2k2YfmQgUgfmH/9rYf6zB5uSuNbV6uN+hXo2Gmmd2Buf KfcjTQEfpO0uf0ijVE6bfTjf/LRNBvb8zqwn8JE9xtgvLKT4lnIGBfGmZFuzBUqo
DKmJOxMj
=rq27
-----END PGP SIGNATURE-----

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Thu Sep 29 10:10:01 2022

BERTRAND Joël <[email protected]> wrote on 29/09/2022 at 08:32:47+0200:

Tu veux absolument avoir raison, je te laisse avoir raison. C'est tellement plus facile que de devoir remettre en cause des choix hasardeux.

Encore une fois, je ne t'ai pas attendu (d'autant qu'avant d'avoir posté la première fois ici, il y a quelques mois, j'ai filé le bébé aux développeurs de systemd, même avec un accès distant sur l'une des
machines en défaut. La réponse fut "on ne sait pas ce qu'il se passe".).
Au passage, avant de monter sur tes grands chevaux et de parler de fud, relis-moi bien attentivement. Parce que même en filtrant à peu près intelligemment la sortie d'auditd, c'est inapplicable sur des machines _diskless_ (je pense que c'est le mot que tu as sauté), sauf à savoir exactement ce que tu cherches. Mais là encore, tu as parfaitement
raison, tout est théoriquement applicable. J'aimerais bien habiter en théorie, parce qu'en théorie, tout se passe bien.

auditd _sature_ le serveur nfs, donc même si tu arrives à obtenir quelque chose, rien ne te dit que ce que tu auras obtenu sera pertinent
parce que tu n'es plus dans les mêmes conditions de fonctionnement. Le simple fait d'activer auditd en filtrant intelligemment balance des "nfs server not responding" sur toutes les machines du réseau !

Tiens, sinon, histoire de rigoler et parce qu'on se dit tout, Debian n'est plus depuis au moins la version 11 avec systemd capable de tourner
en diskless sur un serveur nfs (au moins V3/TCP conforme aux specs). Je
te laisse installer une machine dans ces conditions parce que tu ne me croiras pas une fois de plus.

Il y en a qui y arrivent apparemment : https://wiki.debian.org/DebianEdu/Documentation/Bullseye/Architecture

Et j'ai des diskless bookworm au taff, donc bon.

On a ptet pas l'air, mais il y a beaucoup de devs Debian qui sont ingé
sys et réseaux - moi le premier et ont des besoins type scolaire avec
des postes diskless de salle de TP ou autre.

Les plâtres, on les essuie aussi, donc on essaie de les limiter.

C'est juste qu'on est sans doute moins allergiques au changement.

--
PEB

--=-=-Content-Type: application/pgp-signature; name="signature.asc"

-----BEGIN PGP SIGNATURE-----

iQJDBAEBCgAtFiEE5CQeth7uIW7ehIz87iFbn7jEWwsFAmM1UikPHHBlYkBkZWJp YW4ub3JnAAoJEO4hW5+4xFsLUXwQAKkyyJNYNy3QkisQMz+sQ52gZQ6T4tNfoBfQ sMy02PT0fwMI9L+FRqbu1OXxTMTLUh8zEBcgr/Hsx694f6wQoeFraMqOygQTuKcy Ki5pcd/PzhPoRUHVkkXvwHXjPGUTv4b4XJxyB+96hQGooBkZyTqmtzLxovAMqMDm abp5uW3qi875AjkhHuJNiLP80kwrdDUr9dTuHdVag06sb8rRlHg0d+i4tnwWlkaP a97Z7FpWpIzLPKMMdB5QPg/X55OYe67SMDSnLoO5POq/HtRBUseJ7pGDzrzx3Bdr 5piMnO+YpAjIh8gEOf+tk39Isa73rlMj9erHU+79CyMO13sKQMJ3DR4yhHX7Y8bC HHbnhcIF2AvBl2ibOZayVObREQXWLau7e8FKrykBhjQFboFxFv0MZ+AipEMeIbOU FJ1nBydzwGRivbY4/uirVVqbk5nL6jCzJBtRo9kFZKx9CZNe1Lg6ALlBj9OxDMLC /RrRkCDQhUBF6zgWni9eTgapNWs6XDzeXgx370amKgzbcmDwx20V8uu4a0QR6HeB xNmysDIBQSwRlyju/O3RbBD5wqBCMH2hPPgvq7GbHPiHN/SITHcCIS4VHUKG3+Ur FwcwpJ1BLTwCdzeCOAW07i2xD0plz/n5/zeLpRU8S9cnDMS4Pt6wpu186kgsAx3r
5ft73xcD
=PFLB
-----END PGP SIGNATURE-----

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Pierre-Elliott =?utf-8?Q?B=C3=A9cue@21:1/5 to [email protected] on Thu Sep 29 10:00:01 2022

BERTRAND Joël <[email protected]> wrote on 29/09/2022 at 08:32:47+0200:

Tu veux absolument avoir raison, je te laisse avoir raison. C'est tellement plus facile que de devoir remettre en cause des choix hasardeux.

Encore une fois, je ne t'ai pas attendu (d'autant qu'avant d'avoir posté la première fois ici, il y a quelques mois, j'ai filé le bébé aux développeurs de systemd, même avec un accès distant sur l'une des
machines en défaut. La réponse fut "on ne sait pas ce qu'il se passe".).
Au passage, avant de monter sur tes grands chevaux et de parler de fud, relis-moi bien attentivement. Parce que même en filtrant à peu près intelligemment la sortie d'auditd, c'est inapplicable sur des machines _diskless_ (je pense que c'est le mot que tu as sauté), sauf à savoir exactement ce que tu cherches. Mais là encore, tu as parfaitement
raison, tout est théoriquement applicable. J'aimerais bien habiter en théorie, parce qu'en théorie, tout se passe bien.

auditd _sature_ le serveur nfs, donc même si tu arrives à obtenir quelque chose, rien ne te dit que ce que tu auras obtenu sera pertinent
parce que tu n'es plus dans les mêmes conditions de fonctionnement. Le simple fait d'activer auditd en filtrant intelligemment balance des "nfs server not responding" sur toutes les machines du réseau !

Si un filtrage ne laissant *au pire* que quelques milliers de lignes par
jour sature ton NFS, il est sans doute temps d'en changer (j'ose pas

En effet, fin de la discussion, tu as décidé de te plaindre et que tu
avais tout testé (trop dur d'admettre qu'on peut passer des mois sur un problème sans l'aborder par le bon bout de la lorgnette, alors que ça
nous arrive à tous ?), reste-donc dans tes convictions plutôt que d'évoluer.

Mais du coup ne te sens pas obligé de venir rant sur les listes à
nouveau si c'est pour ignorer les réponses et repartir en monologue.

Cordialement,

--
PEB

--=-=-Content-Type: application/pgp-signature; name="signature.asc"

-----BEGIN PGP SIGNATURE-----

iQJDBAEBCgAtFiEE5CQeth7uIW7ehIz87iFbn7jEWwsFAmM1UFEPHHBlYkBkZWJp YW4ub3JnAAoJEO4hW5+4xFsLJzAP/j/ySmUlpCVyzCLT9z0iQjsibxK88pV0Y73p 4oIiEKlhzLXKtgD0zN2vDMGmWSwtg2nf1uZRH29DBV4P8PJn/ZdtjNzPiqa6NTLg GAZQRXHLkr8vQbo1CJYiCCVOrz+jd8n/wC/8MvZqt6P8Jk8Qbzr4Np38yWu4o0bO jMozu+SVKZ1RRsFZCxJh/BXA3CS7kSmZSvkVKf6XYpwcLle6p0QcAKoBzcG1RP1D T8U89iQRoGQPY2dTXh01mJpWKz1Esi1MkPtawfiVYDdpfEg74xa6m8KrYJ/thF+D MVqYSKuviT2IyBfSZwzcKjW3T4FkOP/rMsnQ/OXwhqpZ2denbX9l9+bcycgICnl0 r+6p9gH1eD8xEDOuZAeqYdym7iTwynu3VihZaY1FsqbFAkwIXLJVicKYC+oTSxRY viYzUSTV4Ta4nhv6vMDg5/dpe2KuftjzEcEOC4tEYKzZOgzrfxNVYmCXIKkPaWfo 1ztKdsWhKUsoVBWlqI54uEmYoIwABt+AaL1TyAYHEM8YR8oGiKBdWo5jcM3z834y UeqLwa7eINzg0qt5zCvEar9rOFOHzGM9aG+RiStrvSQMZ4NRy1oR/jjx3Sneyet+ hpjnw/l9+S3jjxUR+A0Yt1ehDL4BcnOyru8f3mIqnaCEzRG2EgzJ437nBGzFhAft
1k40/Jqb
=6K1X
-----END PGP SIGNATURE-----

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

Who's Online
Recent Visitors
- Bob Worm
  Tue Jul 28 16:01:18 2026
  from Wales, Uk via Telnet
- Rixter
  Tue Jul 28 13:42:46 2026
  from Madison, Nc via Telnet
- Krenn
  Tue Jul 28 11:59:57 2026
  from Sydney, Nsw via Telnet
- Rixter
  Tue Jul 28 01:23:48 2026
  from Madison, Nc via Telnet
- Centurion
  Mon Jul 27 22:50:42 2026
  from Berea, Ohio via Telnet
- Ataricrypt
  Mon Jul 27 19:19:17 2026
  from England via Telnet
- Bob Worm
  Mon Jul 27 15:19:55 2026
  from Wales, Uk via Telnet
- Rixter
  Mon Jul 27 13:04:59 2026
  from Madison, Nc via Telnet

System Info

Sysop:	Keyop
Location:	Huddersfield, West Yorkshire, UK
Users:	741
Nodes:	16 (2 / 14)
Uptime:	48:17:12
Calls:	12,444
Calls today:	4
Files:	15,192
Messages:	6,537,117

Re: Grosse fatigue

Who's Online

Recent Visitors

System Info