Incidents | mikroni.fi Incidents reported on status page for mikroni.fi https://status.mikroni.fi/ en mikroni.fi is down https://status.mikroni.fi/incident/527514 Thu, 13 Mar 2025 09:37:05 -0000 https://status.mikroni.fi/incident/527514#5fa9fb138eadaa9bf34d5b98fd61baf4b3ca1318651ca245e45f83754bfa78cd mikroni.fi recovered. mikroni.fi is down https://status.mikroni.fi/incident/527514 Thu, 13 Mar 2025 09:02:29 -0000 https://status.mikroni.fi/incident/527514#59e90b9f4e840cb28ea41be0113fab3c27644c23d07064ef3f73c5f85cb1d26b mikroni.fi went down. Spacecraft is down https://status.mikroni.fi/incident/510068 Sun, 09 Feb 2025 20:56:21 -0000 https://status.mikroni.fi/incident/510068#7672ac990b2018c6a5fdcd37a4a4900ffae07e1d7ba657e03b0dd38f9ce887b2 Spacecraft recovered. Spacecraft is down https://status.mikroni.fi/incident/510068 Sun, 09 Feb 2025 20:42:37 -0000 https://status.mikroni.fi/incident/510068#52112dca869523d54aee6848b2d252bfbc589d5319591fd58a469cbeb18aaa93 Spacecraft went down. mikroni.fi is down https://status.mikroni.fi/incident/505722 Sun, 02 Feb 2025 00:52:20 -0000 https://status.mikroni.fi/incident/505722#43e4acf42566367838e2b996ba96cfd6ebc423a19cee226da72d21a607950b60 mikroni.fi recovered. mikroni.fi is down https://status.mikroni.fi/incident/505722 Sun, 02 Feb 2025 00:26:27 -0000 https://status.mikroni.fi/incident/505722#0be3bc29c686946b5b928a72e12c0465f03aca7668bc302ee016822820415386 mikroni.fi went down. mikroni.fi is down https://status.mikroni.fi/incident/472473 Wed, 04 Dec 2024 22:06:45 -0000 https://status.mikroni.fi/incident/472473#540110061ccf6d9f31776370aacb91776d863b8b40eab39c8fe5a608b9a2fe48 mikroni.fi recovered. mikroni.fi is down https://status.mikroni.fi/incident/472473 Wed, 04 Dec 2024 22:00:33 -0000 https://status.mikroni.fi/incident/472473#3c679431e3a2c3acc5c8bebaa95e6626a92e5ea978a83aa6402a7e3cb392163a mikroni.fi went down. mikroni.fi is down https://status.mikroni.fi/incident/454620 Fri, 01 Nov 2024 22:06:26 -0000 https://status.mikroni.fi/incident/454620#43b4fd064f564ddcabc65d949024d52d3744b0b0687ffe09ffdcbdedca136696 mikroni.fi recovered. mikroni.fi is down https://status.mikroni.fi/incident/454620 Fri, 01 Nov 2024 22:00:32 -0000 https://status.mikroni.fi/incident/454620#e5284188661572ed94068b767f49dcd7c9e6b1305e6e711c95b4ad64366cf67a mikroni.fi went down. mikroni.fi is down https://status.mikroni.fi/incident/444529 Mon, 14 Oct 2024 21:06:48 -0000 https://status.mikroni.fi/incident/444529#6d8b79a2612f7e5b65bcc2c3119445ee04b651c16be6023a0b11acb10f6e4dad mikroni.fi recovered. mikroni.fi is down https://status.mikroni.fi/incident/444529 Mon, 14 Oct 2024 21:00:33 -0000 https://status.mikroni.fi/incident/444529#2203d2139aadf4c66c8eb5589ce03d7856d7e33fdddd32c8c68cc664c5aea5f1 mikroni.fi went down. scalewp.mikroni.fi is down https://status.mikroni.fi/incident/406351 Tue, 30 Jul 2024 21:44:52 -0000 https://status.mikroni.fi/incident/406351#590f6a2d4d1da604179d0b1ba54776011283e8485a969b8224ee6c7485666869 scalewp.mikroni.fi recovered. scalewp.mikroni.fi is down https://status.mikroni.fi/incident/406351 Tue, 30 Jul 2024 21:40:48 -0000 https://status.mikroni.fi/incident/406351#83129f784e8d5b309cb566b886845079d3721d3edb8717b2c2764787260fb947 scalewp.mikroni.fi went down. ScaleWP:n käyttökatko 29.7.-30.7.2024 https://status.mikroni.fi/incident/405883 Tue, 30 Jul 2024 01:07:00 -0000 https://status.mikroni.fi/incident/405883#35283be29e09995462337d940fe6762f901a21bb7919a5fb73f99d50d1ec22a4 ## **Post mortem** Mikronin automatiikka huomasi `scalewp.mikroni.fi`-demon olevan alhaalla maanantain ja tiistain välisenä yönä 30.7. klo. 03:36. Koska ScaleWP on harrastusprojekti, ei sen seurantaan oltu aktivoitu ilmoituksia. Ylläpitäjä kuitenkin sattumalta osui hallintapaneeliin klo. 03:44, sillä hän halusi testata palvelun post mortem-toiminnallisuutta, mutta yllätyksekseen huomasi ilmoituksen alhaalla olevasta sivustosta. Innoissaan päästäkseen testaamaan post mortem -toiminnallisuutta käytännössä, ylläpitäjä aloitti ongelman tutkimisen välittömästi. ## Katkon tiedot Comet-välityspalvelin ei ollut saavutettavissa. Palvelu oli saatavilla koko katkon ajan toisen välityspalvelimet (orbit) kautta. Kuitenkin mikäli ns. "DNS round robin"-järjestelmän takia käyttäjälle tarjoiltiin comet-palvelimen IP-osoitteen, ei verkkosivustoon voinut yhdistää. Round robin-järjestelmän luoteen vuoksi noin joka toiselle kävijälle sivusto on ollut alhaalla. Käyttökatko alkoi arviolta klo. 17:41 ja päättyi seuraavana päivänä yöllä klo. 04:07. Täten katkon pituudeksi tulee noin 10,5 tuntia. Mikäli tämä olisi kuukauden ainut käyttökatkos, olisi kuukauden saavutettavuus 98,5%. ## Katkon syy Katkoksen syyksi paljastui epäonnistunut päivityksen julkaisu. Docker-konttien kuvia (image) säilytetään Githubin ylläpitämässä ghcr.io-palvelussa, mutta sinne luotu tunnistautumisavain oli vanhentunut edellisenä päivänä. Täten kun ongelman huomaamista edeltävänä päivänä 29.7. illalla klo. 17:41 Suomen aikaa suoritettiin palvelinympäristön "kova päivitys", jossa vain poistettiin vanhat kontit ja käynnistettiin uudet sen sijaan että olisi käytetty mahdollista "rolling updates"-toimintoa, jossa konttien rinnalle olisi luotu uusi päivitetty kontti ja sen käynnistyttyä olisi vanha kontti sammutettu. Klusteria hallitaan "orbit"-hallintapalvelimelta (manager node), joka onnistui käynnistämään välityspalvelimen kontin ongelmitta. Käytössä ollut kontin kuva oli kasattu kyseisellä palvelimella, joten sitä ei tarvinnut hakea ghcr.io-palvelusta. Ongelma koitui vasta "comet"-palvelimella, joka yritti hakea kontin kuvaa ghcr.io-palvelusta siinä onnistumatta vanhentuneen tunnistautumisavaimen takia. ScaleWP-demossa on käytössä ns. "DNS round robin"-kuormanjakojärjestelmä, jossa nimipalvelimen avulla käyttäjälle tarjotaan samalla useampi kohdepalvelin, joista loppukäyttäjän tietokone useimmiten valitsee sattumanvaraisesti yhden. Mikäli käyttäjälle osui comet-palvelimen IP-osoite, ei palveluun yhdistäminen onnistunut. Seurantapalvelu todennäköisesti välimuistitti kohdepalvelimen osoitteen. ## Mitä tästä opimme? ScaleWP on vasta rakenteilla oleva järjestelmä, mutta jo tämä pieni katkos osoittaa että parannettavaa on paljon. * Automaattisen seurannan on tulevaisuudessa tarkastettava kaikkien DNS-pyynnössä annettujen IP-osoitteiden tila. Mikäli nykyinen ratkaisu ei tähän taivu, on mietittävä toisen ratkaisun hankkimista tulevaisuudessa. * Päivitykset tulee jatkossa pyrkiä toteuttamaan aina käyttäen rolling updates-taktiikkaa eikä raa'asti poistamalla vanha ympäristö ja käynnistämällä uusi. * Docker-konttikuvat tulee jatkossa olla valmiiksi ladattuna ja saatavilla niillä palvelimilla, jotka niitä käyttävät * Tilanteessa jossa yksi välityspalvelin ei syystä tai toisesta käynnisty tai pysy käynnissä, pitäisi pyynnöt sen IP-osoitteeseen pystyä ohjaamaan toiselle palvelimelle tarvittaessa. * Tämä pitää toteuttaa joko ohjelmistotasolla tai siirtymällä käyttämään edustapalvelimien IP-osoitteina kiinteiden laitekohtaisten osoitteiden sijaan ns. "leijuvia IP-osoitteita", jotka voidaan virhetilanteessa pikaisesti siirtää toiselle palvelimelle. * Tulevaisuudessa tärkeistä API-avaimista ja muista vastaavista tulee pitää kirjaa ja varmistaa että ne päivitetään niiden vanhetessa automaattisesti. Pitkät voimassaoloajat eivät myöskään ole tietoturvan kannalta oikea ratkaisu. * Automaattista seurantaa palvelintasolla on lisättävä. Lokirivejä tuli yli 50 tuhatta kappaletta kontin kuvan haun epäonnistumisesta, joista ongelma oltaisiin voitu helposti huomata. Muitakin failover-keinoja on lisättävä palvelintasolle. ScaleWP:n käyttökatko 29.7.-30.7.2024 https://status.mikroni.fi/incident/405883 Mon, 29 Jul 2024 14:41:00 -0000 https://status.mikroni.fi/incident/405883#8196ba50a91da835b65cce4cfad0dbdceca2f8371ea1da09aafcdfac7a155eb7 Käyttökatko on alkanut.