Napisane przez: futrzak | 1 czerwca 2017

Z cyklu: wieści ze świata IT

Nic, nic sie duroki durne nie nauczyly. Zapewne słyszeli państwo o ostanim ogromnym „wypadku” systemu komputerowego British Airways, gdzie linie zostały całkowicie sparalizowane podczas dlugiego weekendu, bo systemy obslugujace check-in i resztę ruchu po prostu padły na ryja. Nic nie działalo, samoloty nie startowaly. Linie tłumaczyly się mętnie jakims power outage, co nie mialo miejsca (data centers sa zabezpieczone na taka okazje, oraz nie potwierdzily zadnej katastrofy z zasilaniem).

Gwoli wyjaśnienia dodam: są dostępne dziś rozwiąznia na taką okazje, zaczynajac od baz danych replikujących sie w real time, poprzez odpowiednie architektury (farma serwerów za load balancerem) a na odpowiednich zabezpieczeniach i systemach backupowych w data centers koncząc. To się wszystko daje zrobic i nie jest to jakas ósma technologia kosmiczna. Różne failures się zdarzają i projektując system, ktory ma obslugiwac Wielkie i Wazne rzeczy, projektuje sie go tak, ze ma kilka mechanizmów zabezpieczających (w sensie zabezpieczen na wypadek, gdy awarii ulegnie jeden system, potem drugi i trzeci etc.). I te mechanizmy trzeba przetestowac na okazję najróżniejszych scenariuszy, a testy powinny objąć również odtwarzanie danych, które ulegly fizycznemu zniszczeniu w jakiejś konkretnej lokalizacji. No ale oczywiście takie testy są drogie..

Tak więc cóż, ah cóż mogło być przyczyna?

Głos w sprawie zabrały związki zawodowe informując, że w ostatnich latach BA zwolniło pracowników IT w UK i zastąpiło ich hinduskimi kontraktorami z Tata Consultancy Services*
W 2016 roku British Airways w ramach oszczędności pozbyło się 700 pracowników z terenu UK, z czego pięciu pracowało w dziale obslugującym lokalizację, w której nastąpiły problemy z zasilaniem (facility that experienced power surge).
Po prostu jakiś mundry exec na górze zdecydował, że co za różnica czy bezpieczeństwa serwerowni na miejscu będzie pilnował doświadczony zespół pracowników IT, czy też zdalnie jakaś firma od outsourcowania? To drugie tańsze, więc czemu nie? Po co trzymac jakichs tam administratorów od systemów i ich bezpieczenstwa, przeciez siedzą tylko i nic nie robią….

* Tata Consultancy Services to jedna z największych na świecie firm outsourcingowych zajmujących się działką IT. Jest okryta złą sławą po pierwsze z powodu stosowania średnio legalnych zagrywek w obchodzeniu prawa pracy w lokalnych krajach, a po drugie z powodu tego, jak traktuje swoich pracowników. Jest obecna też tu w Urugwaju. Rozmawialam z kilkoma osobami, które tam pracowały – generalnie wygląda to tak, ze ktos idzie do Tata pracowac dlatego, ze musi. Większosc to studenci w trakcie studiów, którzy jak tylko zdobędą jakies doswiadczenie i lepszą ofertę pracy, to zaraz uciekają. Rotacja pracowników jest ogromna.

Advertisements

Responses

  1. Dzień dobry! Nina, popraw mnie, jeśli się mylę. Progresywistka po amerykańsku, to po polsku komunistka? Pozdrawiam. Piotr

  2. „power outage” my ass

  3. Piotr K:
    Tak, myslisz się. Progressivist z amerykanskiego na polski przeklada sie „progresywistka/progresywista. Sugeruje również sprawdzenie zakresu znaczeniowego pojęć progresywista:
    https://en.wikipedia.org/wiki/Progressivism_in_the_United_States#Progressivism_in_the_21st_century

    Adam:
    muahaaaaaa dokladnie :)

  4. Zrozumiałem tyle, że to partia socjalistyczna. Bardzo dziękuję za link.

  5. zgadzam sie ze tata czy infosys to zgraja zarozumialych i nieduczonych dzieciakow – ale przyczyny awarii BA moga byz rozne. United kilka miesiecy temu mialo dwie wpadki pod rzad.Kolezanka uczestniczyla w pisaniu czesci RCA i podsumowanie bylo (ogolne bo szczegoly zna kilka osob) „shit happens”
    rekomendacje byly na kilka stron ale oczywiscie nikt tego nie wprowadzi bo koszt w tych gornych okolicach procentow niezawodnosci rosnie sporo

    niezawodnosc skomplikowanych systemow jest trudna i kosztowna do osiagniecia .Reklamowane 99.999 to bzdura – po pierwsze to pojedynczy system po drugie to mierzyl vendor :)

  6. WW:
    ze tak powiem: jakby sie nie obręcic, to d* zawsze z tylu.
    Przy zabezpieczeniach data centers nie ma ze „shit happens”. Kazde jedno porządne ma swoj wlasny niezalezny system zasilania (kiedys to byly prymitywne generatory na prad w kombinacji z UPSami, teraz najczesciej panele fotowoltaiczne i baterie litowe – niektore data centers w ogole nie sa juz podlaczone do „regularnej” sieci energetycznej) w razie jakby siec glowna padla. Zabezpieczenie od naglych skokow prądu to tez nie jest zadne rocket science, na litosc boska.
    Takze nie, nie kupuje wyjasnienia CEO ze „facility experienced power surge” i na skutek tego rozpizylo caly system zarzadzania ruchem samolotow i checkins na pare dni. WTF???

    Dokladna przyczyne – co i jak zostalo zaniedbane – pozna publika moze za rok, moze dwa…albo raport w ogole nie bedzie dostepny dla ludzi z zewnatrz firmy.
    Niemniej, nikt mi nie wmowi, ze NIE DA sie zabezpieczyc na wypadek awarii zasilania/skokow napiecia/fizycznego zniszczenia jednej lokalizacji.
    Zesz do k* – po to dokladnie systemy, ktore sa mission critical maja bazy danych rozdystrybuowane w roznych fizycznych lokalizacjach – ze jak na jedno data center bomba spadnie, to caly ruch jest automatycznie in real time przejmowany przez nastepna lokalizacje. Tak, wszystko spowolni i bedzie sie czolgac przez kilka dni ale na litosc boska – bedzie wolniej, a ze system lezy i NIC przez kilka dni!!!!!!

  7. nawet teoretycznie nie jest to mozliwe – nie ma rozwiazan calkowicie niezawodnych
    a praktycznie nawet w najwiekszyk firmach jest nieskonczona komplikacja rozwiazan, burdel, obcinanie kosztow i duct tape + sznurek na kazdym kroku

  8. WW:
    Co nie jest mozliwe? Wlasne zasilanie w data center? dystrybuowana baza danych? Dystrybuowanie tcp/ip traffic do roznych fizycznych lokalizacji farm serwerow, ktore stoja za load balancer?

    Nie odniosles sie do zadnego opisanego przez mnie mechanizmu – tak wiec co masz na mysli mowiac „teoretycznie nie jest TO mozliwe”? Co? powyzsze mechanizmy, o ktorych wspomnialam widzialam na zywo w firmach, w ktorych pracowalam. Powtorze raz jeszcze: to NIE jest rocket science, to sa rzeczy zaimplementowane i uzywane, for fuck sake.

  9. systemy awaryjne podlegaja tez tym samym prawom – czyli zawodza
    awaryjne zasilanie zawodzi – load balancer to tez tylko service ktory moze zawiesc.
    teroretycznie nie jest mozliwe ustawienie systemu w 100% niezawodnego – koniec kropka
    praktycznie jest jeszcze gorzej

  10. WW:

    ale my tutaj nie mowimy o stuprocentowym fail proof systemie tylko o zabezpieczeniu sie na trywialny wypadek polegajacy na skoku napiecia w sieci tudziez o przerwie w dostawie prądu. TO wlasnie CEO podal jako przyczyne kompletnego padu systemu na 3 dni. Zabezpieczyc sie przed czyms takim jest trywialnie latwo i takie zabezpieczenia sa we wszystkich profesjonalnie zarządzanych data centers, wiec raz jeszcze WTF??

    Tu nie ma mowy o przypadku, ze bomba atomowa p*ła na terenie UK i rozwalilo wszystko w promieniu kilkudziesieciu kilometrow, no na litosc boska. To nie byl przypadek, kiedy nastapil nagl skok w aktywnosci wiatru slonecznego ktory rozpirzył cala elektronike na Ziemi.

    A jak load balancer zawiedzie (nie mowiac o tym, ze zwykle jest wiecej niz jedna sztuka przeciez) to wstawienie nowego zajmuje pare godzin A NIE 3 DNI!!!!

  11. Tak, kazdy element systemu moze zawiesc, ale od tego są regularne audyty i sprawdzanie. A w to, ze *wszystkie naraz* raptem sie sprzysiegly i powstanowily zawiesc w przypadku British Airways w tej samej chwili to nie uwierze. Po prostu zaoszczedzili sobie na odpowiednio wyszkolonym personelu i na innych zabezpieczaniach i tyle.


Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

Kategorie

%d blogerów lubi to: