SRE工程師應(yīng)知應(yīng)會97件事
中國DevOps社區(qū) 譯
出版時間:2023年06月
頁數(shù):236
測試你的災(zāi)難恢復(fù)計劃。
—Tanya Reilly
將同理心融入到SRE工具中。
—Daniella Niyonkuru
我能給團(tuán)隊的最佳建議。
—Nicole Forsgren
在哪里進(jìn)行SRE。
—Fatema Boxwala
面對第一頁。
—Andrew Louis
預(yù)算有誤,現(xiàn)在該怎么辦?
—Alex Hidalgo
讓你的工作得到認(rèn)可:寫一個充分展示自我的文檔。
—Julia Evans & Karla Burnett
站點可靠性工程(SRE)比以往任何時候都更加重要。知道如何保持系統(tǒng)的可靠性,已經(jīng)成為了一項關(guān)鍵技能。有了這本實用性很強(qiáng)的書,新手和老手都將能了解到許多在 SRE場景中發(fā)生的對話。你將獲得關(guān)于多個主題的可操作建議,包括如何采用SRE、為什么SLOS很重要、何時需要升級事件響應(yīng)機(jī)制,以及監(jiān)控和可觀測性有何不同等。
Incident Labs的聯(lián)合創(chuàng)始人 Jaime Woo和Emil Stolarsky從整個行業(yè)收集了97條簡單實用的技巧,包括值得信賴的最佳實踐和解決棘手問題的新方法。通過了解發(fā)人深省的推動領(lǐng)域發(fā)展的問題,以及我們給出的合理建議,你將會提高和完善你的 SRE 技能。
- 前言
- 第1章 用六個詞來概括站點可靠性工程
- 第2章 知道我們?yōu)槭裁凑娴男枰煽啃悦矗?
- 第3章 構(gòu)建自調(diào)節(jié)過程
- 第4章 SRE家宴上的四個工程師
- 第5章 可靠性堆棧
- 第6章 基礎(chǔ)設(shè)施:這就是力量所在
- 第7章 關(guān)于彈性的思考
- 第8章 開發(fā)周期中的可觀測性
- 第9章 一切都是可以理解的
- 第10章 Wikipedia是如何為你服務(wù)的
- 第11章 為什么你應(yīng)該對TCP有所了解?
- 第12章 管理接口的重要性
- 第13章 說到存儲,請考慮分布式
- 第14章 數(shù)據(jù)基數(shù)的作用
- 第15章 安全就像洋蔥
- 第16章 用話語記錄
- 第17章 通往SRE之路
- 第18章 親愛的未來團(tuán)隊
- 第19章 可持續(xù)性與職業(yè)倦怠
- 第20章 不要聽從老師傅的建議
- 第21章 面對第一次的事故呼叫
- 第22章 SRE,文化至上
- 第23章 在小型組織中人人都是SRE
- 第24章 審計你的環(huán)境以促進(jìn)改善
- 第25章 事故響應(yīng),從小處著手
- 第26章 獨當(dāng)一面的SRE:獨自一個人影響大規(guī)模的變革
- 第27章 設(shè)計SLO度量的目標(biāo)
- 第28章 我有錯誤預(yù)算——現(xiàn)在怎么辦
- 第29章 如何改變現(xiàn)狀
- 第30章 問題定位方法論
- 第31章 初創(chuàng)公司如何建立 SRE 思維
- 第32章 自力更生,在企業(yè)中落地SRE!
- 第33章 不知道沒關(guān)系,出錯也沒關(guān)系
- 第34章 講故事是一種超能力
- 第35章 讓你的工作得到認(rèn)可:寫一份自夸的文檔
- 第36章 讓大家看到你的工作成果
- 第37章 被忽視的工程技能
- 第38章 卸下遠(yuǎn)程值守的包袱
- 第39章 事件處理大師
- 第40章 毫不費力的事件管理
- 第41章 如果你在做運行手冊,就把它們做好
- 第42章 為什么我厭惡我們的流程手冊
- 第43章 什么樣的工具運行良好
- 第44章 將同理心注入SRE工具
- 第45章 使用ChatOps來實現(xiàn)共情
- 第46章 迅速行動,唯快不破
- 第47章 能在生產(chǎn)系統(tǒng)中運行才算確認(rèn)
- 第48章 有時候修復(fù)本身就是問題
- 第49章 傳奇故事
- 第50章 監(jiān)控指標(biāo)不是SLI(衡量一切的陷阱)
- 第51章 當(dāng)SLO遭受質(zhì)疑時如何去改善
- 第52章 產(chǎn)品可靠性的整體方法
- 第53章 尋找失去的時間
- 第54章 答疑時間的意外收獲
- 第55章 為內(nèi)部客戶建立他們真正想要使用的工具
- 第56章 個體和交互那些事
- 第57章 SRE的人員能力基線
- 第58章 遠(yuǎn)程高效或高效遠(yuǎn)程
- 第59章 余量和個體
- 第60章 系統(tǒng)余量的重要性
- 第61章 更少的電子表格,更多的餐巾紙
- 第62章 巧妙地引入DevOps
- 第63章 在企業(yè)中有效的SRE文化變革
- 第64章 獻(xiàn)給我愛的所有SRE
- 第65章 復(fù)雜:技術(shù)中最超負(fù)荷的詞語
- 第66章 我給團(tuán)隊的最好建議
- 第67章 創(chuàng)造你的工作清單
- 第68章 按照SLO操作
- 第69章 英雄是必要的,英雄主義卻不是
- 第70章 人們愿意參加的值班工作
- 第71章 學(xué)習(xí)研究人的因素和團(tuán)隊文化,進(jìn)而改善呼叫器的疲勞度
- 第72章 優(yōu)化恢復(fù)的平均時間
- 第73章 減輕和預(yù)防級聯(lián)故障
- 第74章 實時健康度:可以衡量的指標(biāo)
- 第75章 幫助領(lǐng)導(dǎo)者優(yōu)先考慮實時健壯性的問題
- 第76章 作為外交官的SRE
- 第77章 前瞻性部署的SRE
- 第78章 檢驗?zāi)愕臑?zāi)備計劃
- 第79章 為什么對于SRE實踐來說培訓(xùn)是重要的,并且對于培訓(xùn)課程來說SRE很重要
- 第80章 單一化的力量
- 第81章 每個用戶價值對應(yīng)的字節(jié)數(shù)
- 第82章 把工程博客提上議事日程
- 第83章 要讓任何人在你的上下文里運行代碼
- 第84章 交易場所:站點可靠性工程和產(chǎn)品
- 第85章 透過團(tuán)隊看產(chǎn)品
- 第86章 性能儲備金
- 第87章 重要但不緊急:SRE路線圖
- 第88章 那些50%的事兒
- 第89章 遵循安全關(guān)鍵系統(tǒng)之路
- 第90章 適合且可實現(xiàn)的靜態(tài)分析
- 第91章 形式化規(guī)范的重要
- 第92章 社會技術(shù)系統(tǒng)中的風(fēng)險與腐爛
- 第93章 危機(jī)中的SRE
- 第94章 預(yù)期的風(fēng)險限制
- 第95章 跨越局部風(fēng)險:細(xì)數(shù)憤怒的小鳥
- 第96章 來自軟件安全專業(yè)人士的一些建議
- 第97章 故障:讓我們有機(jī)會一窺缺陷
- 第98章 第三代SRE
書名:SRE工程師應(yīng)知應(yīng)會97件事
譯者:中國DevOps社區(qū) 譯
國內(nèi)出版社:中國電力出版社
出版時間:2023年06月
頁數(shù):236
書號:978-7-5198-7631-9
原版書書名:97 Things Every SRE Should Know
原版書出版商:O'Reilly Media
Emil Stolarsky
Emil Stolarsky是一名站點可靠性工程師,曾在 Shopify 和 DigitalOcean 的內(nèi)部 負(fù)責(zé)Kubernetes 平臺工作,負(fù)責(zé)緩存、性能和災(zāi)難恢復(fù)等內(nèi)容。 如今,他是 Incident Labs 的聯(lián)合創(chuàng)始人。業(yè)余時間里,他會聽 Flume 的音樂,并通過攀巖來克服恐高癥。
Jaime Woo
Jaime Woo的職業(yè)生涯始于分子生物學(xué)家,之后在 DigitalOcean、Riot Games 和 Shopify 工作過,在那里他又重新開始了工程通信方面的工作。他也是 Incident Labs 的聯(lián)合創(chuàng)始人,專注于為團(tuán)隊提供改進(jìn)的 SRE 工具,以獲得更多的時間用于完成計劃內(nèi)的工作。 他也特別愛吃餃子。