Minor Mistake, Major Catastrophe - GitLab jede offline na jeden den
GitLab, spuštění, které je alternativou k vysoce populární GitHub, má v poslední době poněkud drsný den lidská chyba způsobila, že celý web bude celý den dole.
Problém GitLabu začal poprvé, když webové stránky zažívají problémy s dobou načítání a stabilitou. Webové stránky byly převedeny do režimu offline, aby se napravily problémy. Během údržby, někdo nevědomky udělal chybu, když omylem smazal adresář obsahující 300 GB živých produkčních dat.
Naštěstí pro GitLab obsah, který byl smazán pouze problémy a sloučené požadavky. Úložiště a wiki nebyly touto chybou nijak ovlivněny, což znamená, že škoda způsobená touto chybou nebyla tak závažná jako by to mohlo být
S odstraněným adresářem se personál GitLab okamžitě obrátí k záloze. Bohužel pro ně GitLab narazil další problém. Podle souboru Google Doc, který byl neustále aktualizován, když se GitLab snaží vrátit online, všech 5 záloh / replikací techniky, které webová stránka nasadila, nefungovaly spolehlivě, av některých případech byly nikdy na prvním místě.
Načítání těchto ztracených souborů z cloudu není volbou pro GitLab, ani když se spuštění rozhodlo koncem loňského roku dump cloud s cílem vybudovat a provozovat vlastní Ceph clustery. GitLab nyní přehodnocuje svůj postoj k tomuto tématu.
@ TheRegister @gitlab bude pracovat na tom, aby aplikace byla výkonnější a prozkoumala alternativní poskytovatele hostování v cloudu.
- Connor Shea (@connorjshea) 1. února 2017
Navzdory bouřlivému dni, který měl GitLab, jsou webové stránky nyní v provozu a fungují podle standardů. Zatímco webové stránky uvedla, že některá data byla ztracena během šestihodinového okna, Git úložiště zůstala nezraněna po celou dobu utrpení. Zde si můžete prohlédnout celý záznam událostí celé události.
Zatímco mnoho poučení z GitLabovy malé chyby (hlavně aroganci), GitLab je způsob řešení krize je spíše obdivuhodný jako spuštění bylo jasné a transparentní se svými uživateli. Tady je doufat, že se GitLab učí z této chyby. Jinak by jeho uživatelská základna pravděpodobně byla méně odpouští, kdyby se historie opakovala.
Zdroj: Registr