本書共二十一章,內(nèi)容包括:SRE與DevOps的關(guān)系、實施SLO、SLO工程案例研究、監(jiān)控、基于SLO的告警、消除瑣事、簡單性等。
在2016年,Google出版的第一本站點可靠性工程(SRE)書籍引起了行業(yè)的大范圍討論,當今生產(chǎn)環(huán)境服務運營意味這什么?為何可靠性方面的考慮是服務設計的基礎?現(xiàn)在,編寫上一本SRE暢銷書的Google工程師們?yōu)槲覀兟≈赝瞥隽吮緯,這是一本充滿真實案例的實戰(zhàn)參考手冊,展示了如何在生產(chǎn)環(huán)境中運維SRE的原則和實踐。
在這本全新的SRE工作手冊中,提供的實踐案例并不但源于Google的經(jīng)驗,還來自那些經(jīng)歷過SRE旅程的Google公有云的用戶。值得注意的是,本書還包括Evernote、The Home Depot、紐約時報和其他公司總結(jié)的來之不易的第一手經(jīng)驗。
無論你所在公司規(guī)模的大小,都可以深入研究這本工作手冊,通過學習嘗試完善你們自己的SRE實踐。
Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara和Stephen Thorne是Google網(wǎng)站可靠性工程組織里曾經(jīng)和現(xiàn)任的成員,他們的職責是關(guān)懷和護理Google的生產(chǎn)系統(tǒng)。