Фејсбук објави интегрален текст за случајот денес, кој моментално ви го пренесуваме во целост:
Денес Фејсбук беше во прекин или недостапен за многумина од вас околу 2,5 часа. Ова е најлошиот прекин што го имавме во повеќе од четири години и сакавме прво да се извиниме за тоа. Исто така, сакавме да обезбедиме многу повеќе технички детали за тоа што се случи и да споделиме една голема научена лекција.
Клучниот недостаток што предизвика овој прекин да биде толку тежок беше несреќното справување со состојба на грешка. Автоматизираниот систем за проверка на вредностите на конфигурацијата на крајот предизвика многу поголема штета отколку што поправи.
Целта на автоматизираниот систем е да провери дали има вредности за конфигурација кои се невалидни во кешот и да ги замени со ажурирани вредности од постојаната продавница. Ова работи добро за минлив проблем со кешот, но не работи кога постојаната продавница е неважечка.
Денес направивме промена на постојаната копија на конфигурациската вредност која се толкува како неважечка. Ова значеше дека секој клиент ја видел неважечката вредност и се обидел да ја поправи. Бидејќи поправката вклучува барање до кластер на бази на податоци, тој кластер брзо беше обземен од стотици илјади прашања во секунда.
Работите да бидат уште полоши, секој пат кога клиентот добивал грешка при обидот да побара една од базите на податоци, ја толкувал како неважечка вредност и го бришел соодветниот кеш клуч. Ова значеше дека дури и откако ќе се реши првичниот проблем, протокот на прашања продолжи. Сè додека базите на податоци не успеаја да опслужат некои од барањата, тие самите си предизвикуваа уште повеќе барања. Влеговме во циклус за повратни информации што не дозволуваше да се обноват базите на податоци.
Начинот на запирање на циклусот на повратни информации беше доста болен – моравме да го запреме целиот сообраќај кон овој кластер на бази на податоци, што значеше исклучување на страницата. Откако базите на податоци беа обновени и основната причина беше поправена, полека дозволивме повеќе луѓе да се вратат на страницата.
Ова ја врати страницата и работи денес, а засега го исклучивме системот што се обидува да ги поправи вредностите на конфигурацијата. Истражуваме нови дизајни за овој конфигурациски систем следејќи ги шемите на дизајн на другите системи на Facebook кои поелегантно се занимаваат со јамките за повратни информации и минливите скокови.
Повторно се извинуваме за прекинот на страницата и сакаме да знаете дека ги сфаќаме перформансите и доверливоста на Facebook многу сериозно.
Republika.mk – содржините, графичките и техничките решенија се заштитени со издавачки и авторски права (copyright). Крадењето на авторски текстови е казниво со закон. Дозволено е делумно превземање на авторски содржини (текст и фотографии) со ставање хиперлинк до содржината што се цитира.