• Řešení problémů, diskuze a jiné problémy přesunuty na Discord
    Fórum již není tak aktivní jako dříve, a tak jsme přesunuli skoro veškerou aktivitu na náš Discord. Může se tedy stát, že zde nedostaneš odpověď a budeš zcela ignorován. Discord invite link: Odkaz
Status
Uzamknuto, nelze přidávat odpovědi.
upload_2018-11-25_11-24-1.png

Jsou zde určité věci, nebo spíš události, které se za tento týden udály. A sehrály docela velký bordel na serveru. Nyní je tedy všechny sepíšu a odůvodním, proč a co aktuálně nejde...

Infrastruktura
Abychom si mohli vysvětlit, proč došlo v tomto týdnu k zásadním chybám na mojí straně, je potřeba si vysvětlit jak funguje craftmania z pohledu zálohy.

Server se dělí na tzv. několik DS-X serverů. DS je zkratka pro "dedikovaný server", jedná se o server na kterém máme plný root přístup. Můžeme tedy měnit co chceme a také, co se pokazí je naše vina.

Většina hlavních serverů jsou uložený na DS-1 tedy Survival, Skyblock, Vanilla, Proxy (Bungee) atd. Jedná se o náročnější servery, je jich tedy méně na "větším" serveru.

Druhá část serverů jako lobby, whub, creative, nový prison a hlavně AT servery jako build, test servery jsou právě na DS-2. No a právě na DS-2 byl tento týden zásadní problém.

Zálohy
Zálohy jsou jak každý ví základ, ovšem i u těch nastala zásadní chyba. Všechny zálohy u nás se ukládaly na disk u hostingu, který měl 8TB. Každý velký server se zálohuje denně v ranních hodinách kompletně s pluginy, mapou atd. Menší servery nebo servery, které nejsou navštěvovány tak často, třeba Prison jsou zálohovány v jiných intervalech - každý 2 dny, každý 4 dny (prison) nebo každý týden.

Log události
Neděle 18.11.2018, 23:00
- V tuto dobu se řešilo a připravovalo uveřejnit novinku, tedy to, že ve středu 21.11. proběhne první upgrade Creativu na 1.13.

Úterý 20.11.2018, 22:04
- Creative byl zastaven do režimu údržby, bez jakékoliv kontroly zálohy (1. chyba) byly smazány data všech hráčů, kteří nehráli na serveru víc jak 14 dní zpět (dělá se vždy při upgradech MC).

Středa 21.11.2018, 2:33
- Creative upgrade byl dokončen, server spuštěn a já šel spát.

Středa 21.11.2018, 10:08
- Mnoho hráčů píše Wakovi, že Creative je zalagovaný a doslova nehratelný. Po menším hlasování se rozhodlo vrátit zpět na verzi 1.12 a zrušit kompletně upgrady na 1.13.

Středa 21.11.2018, 10:40
- Wake najel na disk s zálohy, otevřel složku s Creativem a tam poslední záloha 14.11. 3:11.

Středa 21.11.2018, 11:00
- Wake kontaktoval hosting, že jak je možné že mu neposlali oznámení o zaplnění disku, což se dřív normálně stávalo. Všechny servery tím pádem nebyly zálohovány 7 dní.

Středa 21.11.2018, 11:24
- Wake obnovil Creative do zálohy z 14.11. na verzi 1.12. Při takových úkonech, je potřeba root uživatel v linuxu. Zálohy se klasicky ukládaly od kořenové složky "srv"- tzn. že zip když jsi ho otevřel/a začínal složkou srv. Po rozbalení v root složce tedy byla složka "srv". Ovšem linux má svojí složku "srv", kde jsou právě uloženy všechny DS-2 servery. Pro ty, co to nechápou je to něco, jako kdyby jste měli složku srv v dokumentech a druhou na ploše - a na ploše "by byly servery" -> jakoby!

Středa 21.11.2018, 13:55
- Hosting odepsal, že e zřejmě jednalo o chybu a omlouvají se. Wake mezitím vyprázdnil disk o x týdnů staré zálohy.

Čtvrtek 22.11.2018, 2:00
- Zahájí všech záloh serveru, ovšem né Prisonu. Jelikož ten se zálohuje každé 4 dny (od wakovo opravy).

Sobota 24.11.2018. 17:00
- Wake na Discordu píše, že dnes bude předělávat všechny zálohy na Amazon, aby se již tento fail neopakoval.

Sobota 24.11.2018, 17:04
- Wake se přihlašuje s rootem na DS-2 a v root složce je složka "srv" kde je záloha Creativu z 14.11. která byla nahrána správně do složky s Creativem ve středu. Není tedy potřeba a tak jí Wake chce smazat.

Sobota 24.11.2018, 17:05
- Ovšem nastane největší chyba. Klasicky se složky v linuxu mažou pomocí "rm -rf název", ovšem zde selhal sám Wake a napsal "rm -rf /srv" - což znamená aby linux smazal svojí srv složku, kde jsou uloženy všechny servery. Né složku, kde byl aktuálně wake (v rootu) - to by bylo "srv/". Jelikož Wake měl roota, linux se na nic neptal a vše smazal. Servery jely dál.

Sobota 24.11.2018, 17:08
- Hráči začínají psát na Discordu, že se jim resetují data. Wake najíždí do konzole na Prison, kde je mraky chyb, že "instance is running twice?". Wut?! Wake tedy najel do správce souborů a tam nic. Prázdno a chyba.

Sobota 24.11.2018, 17:09
- Všem hráčům na Discordu oznámeno, že výpadek se týká Prisonu a Creativu.

Sobota 24.11.2018, 17:10
- Si Wake uvědomil kritickou chybu, že zaměnil "srv/" (složku kde byl), za linux složku s servery "/srv". A smazal tak 60% serveru nadobro.

Sobota 24.11.2018, 17:15
- Všechny servery z DS-2 byly killnutý, a vše bylo oznámeno Developerům.

Sobota 24.11.2018, 17:20
- Zahájení pokusů o navrácení smazaných dat. Ovšem linux funguje jinak, na Windowsech když něco smažete máte to v koši. To samé na Macu, ovšem linux příkaz "rm" s rootem je zničující. Linux tedy při mazání přepisuje dané místa (co se smažou) nevratně pryč.

Sobota 24.11.2018, 23:30
- Wake to vzdal, napsal že nic nedokáže vrátit. I přes pokusy xyz toolů pro recovery.

Neděle 25.11.2018, 2:00
- Wake obnovil z před halloweenské zálohy hlavní lobby (ohub).

Neděle 25.11.2018, 4:00
- Wake obnovil z neuveřejněných map novou mapu na whub a login pro warez byl opět spuštěn.

Neděle 25.11.2018, 7:50
- Hráči píšou, že se nedá přihlásit na server. Kvůli smazání whubu Wake nastavil blbé šifrování hesel, a tak všem starým Warez hráčům se nešlo lognout.

Neděle 25.11.2018, 10:35
- Hash nastavení obnoven, na server se dá plnohodnotně připojit.

Souhrn
Říkáte si, proč to tu píšu nebo, co je na tom tak fatálního, když jsem vše obnovil? No není to pravda, jak jsem psal. Chybou v / jsem smazal skoro celou CM. Zvláště pak:
  • Všechny build servery s xy roky práce našich a zahraničních builderů.
  • Všechny test servery developerů
  • Několik měsíců připravovaný Event server od Nerdyho a eventerů, který měl být uveřejněný v Prosinci.
  • Všechny lobby a whub, proto tam je nová mapa.
  • Připravované módované servery a jiné servery... které byly v plánu.
  • A v neposlední řadě Prison 2.0, který vysvětlím níže, který vyžaduje vysvětlení.
Říkáš si, "Waku, tak proč se to všechno nezálohovalo?". K tomu se váže určitá věc. Jelikož se zálohují celkové servery primárně produkční, tedy ty kam mají hráči přístup podle určitých intervalů, tak se servery pro AT prostě nezálohovaly. Nebylo to do dnes potřeba, za celých 5 let... Build servery se zálohovaly, ale od problémů někdy v červnu byly zastaveny.

A co Prison 2.0? No... pamatujete si nahoře, že se Prison zálohuje každé 4 dny, tedy od mojí opravy? 4. den byl dneska v noci tedy v neděli, ovšem já ho včera smazal. A v zálohách tedy nebyl. Tzn. že jsem kompletně smazal mapový podklady pro Prison. Data jako ranky, priscoiny atd jsou v databází, ale nejsou doly, spawn a ostrovy, prostě celý server.

Omluva
Tímto tématem, bych se chtěl omluvit primárně AT ale také hráčům. AT z toho důvodu, že pracovali několik měsíců na eventech na vánoce a jiných věcech a já to smazal. A hráčům, že lotos asi budou opravdu chudý vánoce, jelikož jak jsem psal několikrát.. smazal jsem je.

Aby se tohle již nikdy neopakovalo, ještě než jsem šel spát, navrhlo se nové schéma záloh, které se bude ukládat na již zmíněný Amazon S3, kde to je neomezný a nemůže se tedy stát... to co by se stalo. Pokud někoho zajímá, tak ráno jsem preventivně celou CM zazálohoval, ručně... :D

Omlouvám se,
Wake
 

Komentáře

Status
Uzamknuto, nelze přidávat odpovědi.
Ať už se v poslední době s CM dělo cokoliv, tohle je jedna z událostí, která opravdu a nenávratně zrušila většinu CM - nebyl to ani xPerpetual, ani ten dávný incident s online modem, ale opravdu tohle. Lidi, co se snaží CM potopit (cs yusare) teď asi oslavují, ale mě je serveru, kde jsem poprvé hrál mulitplayer, líto. Poprosil bych všechny hráče, i ty, co CM odsuzují o jedno tučné F pro zaplacení respektu.

Chyby se dějí, jak jsou tomu některé děti důkazem, takže je třeba se oklepat a jít dál. Nebuďme teď chvíli na Waka moc naléhaví, sám teď bude opravovat to, co z CM zbylo.

Takže ještě jednou... F
overwatch ! XD
 
tohle je jedna z událostí, která opravdu a nenávratně zrušila většinu CM - nebyl to ani xPerpetual, ani ten dávný incident s online modem, ale opravdu tohle.
Je to smutný a pro server komplikace, nicméně tady s tebou musím opravdu nesouhlasit. Již to není portál, kde hraje 1500 hráčů a tím pádem zase nepřijde o tolik. Nebo minimálně na to nedoplatí tak, jako na chyby v minulých letech, které ji stály stovky hráčů, což se teď ani stát nemůže.
 

TEST

Žádný uživatel není online.
Status
Uzamknuto, nelze přidávat odpovědi.
Top