Serveurs
Intervention le 26 août
Toutes les machines, serveurs virtuels ou nons, et services hébergés dans le cabinet principal. Ceci inclus les services d'hébergement et de courriel.
QuandLe 26 août 2008, entre 19h00 et 21h00, HAE (-0400). Les coupures décrites auront lieu entre 20h00 et 21h00, HAE. Nous espérons cependant limiter les coupures à 30 minutes (donc entre 20h et 20h30).
Ce qui va arriverLa "switch" principale sera remplacé. Ceci va provoquer des courtes coupures pour chacun des serveurs hébergés.
PourquoiLa switch actuelle est pleine et montre des signes de faiblesse. Nous préfèrons la remplacer avant une coupure totale.
CommentVoir le rapport d'intervention. Notez que la coupure commencera par une coupure généralisée, lorsque le router sera rebranché. Ensuite, chaque machine sera rebranchée une à une, ce qui provoquera une coupure de quelques minutes maximum par machine. Il est également possible que cette procédure itérative échoue et que nous fessions une procédure rapide avec coupure totale sur tous les serveurs.
Je suis contre!Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.
Notez également que le blog sysadmin sera mis à jour si l'intervention sera modifiée ou si nous avons des problèmes particuliers.
Intervention on august 26th
All the machines, virtual servers or not, and services hosted in the main cabinet. This includes hosting and email services.
WhenAugust 26th 2008, between 19h00 and 21h00 EDT (-0400). Outages described below will occur between 20h00 and 21h00, EDT. However, we hope to limit those outages to 30 minutes (so between 20h00 and 20h30).
What will happenThe main switch will be replaced. This will provoque short network outages for each of the hosted servers.
WhyThe current switch is full and show signs of weaknesses. We prefer to replace it before a complete outage.
HowSee the rapport d'intervention (fr). Note that this outage will begin with a general outage affecting all servers when the core router will be replugged. Then every machine will be replugged one by one, which should provoke a few minutes of outage for each machine. It is also possible that this procedure fails to function properly and that we go forward with a quick and dirty unplugging and replugging of everything.
I object!If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.
Also not that the sysadmin blog will be updated if the intervention is changed in any way or if we experience problems or delays.
Début de l'utilisation des catégories pour classifier les articles par langue
Nous commençons dès maintenant à utiliser les catégories de dotclear pour isoler le contenu par langue dans ce blog. La page principale va contenir le contenu des deux langues. Pour voir le contenu dans votre langue, utilisez:
- http://offline.koumbit.net/category/fr (pour le français)
- http://offline.koumbit.net/category/en (pour l'anglais)
Ceci s'applique également aux fils RSS:
Starting to use categories to classify articles by language
We starting to use Dotclear's categories to isolate the content by language in this blog. The main page will contain content from both languages. To see the content in your language, use:
- http://offline.koumbit.net/category/fr (for french)
- http://offline.koumbit.net/category/en (for english)
This also applies to RSS feeds:
- http://offline.koumbit.net/feed/category/fr/atom (french)
- http://offline.koumbit.net/feed/category/en/atom (english)
Posts will all be translated from now on or there will at least be a pointer from the missing translation.
Maintenance mercredi 30
English follows
Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.
L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.
Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.
EnglishThere will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.
Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.
People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.
Coupure sur le serveur principal cette nuit
Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.
Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.
Serveur de répartition de charge en ligne
Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.
Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.
Coupure sur le réseau
La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.
Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.
MySQL: problème de performance résolu / performance problems solved
(English follows)
Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.
Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).
Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).
Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.
Merci de votre compréhension,
Le comité sysadmin de Koumbit
English
On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.
The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).
This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).
Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.
Thank you for your understanding,
The sysadmin committee of Koumbit
Nouveau serveur MySQL en ligne
Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...
Mise à jour du roadmap de load balancing
J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.
Coupure dûe à un problème de système de fichiers
Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:
- 08:01: erreur du système de fichier
- 08:30: premier personne qui le remarque sur IRC
- 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
- 09:25: mathieu réveille antoine
- 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
- 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
- 10:01: tout est de retour à la normale
Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.
Updates:
- nouveau crash du filesystem, un fsck complet est lancé. (11:02)
- fsck fini, tout devrait être de retour (11:39)
Maintenance jeudi le 29
English follows.
Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.
L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.
Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.
Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.
EnglishThere will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.
Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.
People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.
Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.
Problème de login à phpmyadmin résolu
Depuis mardi une erreur technique survenait lorsque l'on essayait de se connecter à phpmyadmin par AlternC (RtTicket:15398). Le problème est maintenant résolu. Désolé pour les inconvénients!
Déni de service en cours
Nous subissons présentement une attaque d'environ de 60mbps sur le réseau et sommes en discussions avec notre fournisseur de service upstream pour diagnostiquer et régler le problème. Le routage dans le cabinet principal est affecté.
Mise à jour: la situation est redevenue sous contrôle. La coupure aura duré de 17:44EDT à 18:21EDT pour l'ensemble du point de présence Canix2. Homere a été bloqué par erreur chez notre fournisseur jusqu'à 18:41EDT.
Ralentissement MySQL réglé, mise à jour du matériel prévue fin-mai 2008
Du 10 au 13 mai 2008, le principal serveur de l'hébergement auto-géré (HAG) a subi quelques problèmes de performance. Ceci était causé par le serveur de bases de données MySQL qui ne pouvait plus répondre à la demande. Le problème a été identifié et réglé le 13 mai vers minuit par un de nos administrateurs (merci Sébas!).
Le problème en question était causé par un site HAG qui avait été fortement bombardé de spam. Nous avons depuis nettoyé la base de données en question et aussi optimisé plusieurs autres paramètres techniques.
Ce graphe donne une petite idée de l'ampleur du problème:Source: Statistiques Munin de Koumbit
Ceci coïncide également avec le moment du remplacement prévu du remplacement du matériel pour le serveur de bases de données. Le nouveau serveur doublera sa performance et nous permettra de travailler à la création d'un serveur de base de données redondant afin d'améliorer la fiabilité du service. Nous prévoyons sa mise en ligne d'ici la fin-mai 2008.
Merci de votre compréhension,
Le comité sysadmin Réseau Koumbit, Inc.
Mise à jour des quotas et quelques correctifs
Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.
Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.
Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:
- Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
- Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
- La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.
Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.
Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.
Mise à jour à PHP5
Comme il a été annoncé plus tôt, Koumbit migre ses serveurs à PHP5 aujourd'hui. Voir cette annonce pour les détails. Voir cette annonce et la page Php5 pour plus d'informations.
État de la situation: petit délai, un site est encore en migration. PHP5 en ligne.
Menu Clients
La fourmi
Abonnez-vous à notre bulletin
