各位先進大家好:

事件發生在上星期五,我們雪梨下班之後,東京不同部門的兩位同事舉報說某內部網頁打不開,

最後是由東京的工程師以重啟tomcat的方式解決。

這星期一上班我看到信,便轉交雪梨工程師要求調查,我提問:

1. 重啟tomcat來解決問題是best practice嗎?

2. 可以從log看得出來該網頁停擺是甚麼問題所導致的?

這位雪梨的工程師對問題1沒有正面回應,只說從log上看不出來tomcat在被重啟之前系統發生異常。

我補充一下,我原本以為網頁打不開是因為東京工程師重啟tomcat所導致,發信去問之後,才知道是以重啟tomcat來解決問題。

這件事我總覺得怪怪的,可是相關知識不足又說不出哪裡有問題。不曉得各位專家有何看法?先感謝大家指點。

bomsori wrote:
各位先進大家好:事...(恕刪)


1.最經濟的方式
2.不一定

可能性的範圍太大 所以才沒正面回應你吧.

其實連我也不想回應為何用重開解決

樓主所在的公司應該是不小的跨國企業.
如果樓主有提出調查要求, 那表示責任不在樓主身上, 就交給該負責旳人去負責處理.

一個問題要能被找到, 不是問題正在發生當中, 就是問題有留下記錄.
我不認為工程師回報的調查結果有任何問題, 因為問題被解決了, 而又找不到記錄.

重開Tomcat, IIS或任何的web service來恢復服務運用, 是很常見的短期對策.
不然問題可以放著不管, 等到澳州這邊工程師上班才來開始調查嗎? 一般不太行吧?

一個網頁打不開, 可能發生的原因太多種了! 不在問題發生的當下幾乎是找不出真正原因的.
而且如果只是久久發生一次, 不是經常性發生, 如果發生頻率高, 那代表必須找出根本原因
的優先順序會提高. 但只發生過一次, 而且沒有造成重大問題, 通常都不值得勞心勞心去追
查, 更何況是log看不出發生問題的原因. 如果log看得出的問題, 大概都不會只發生一次.

即使樓主你有足夠相關的知識, 知道問題出在哪, 也不是你能去challenge負責單位的吧?
不在其位, 不謀其事, 基本的職場規則... 如果樓主是做管理相關工作, 也只能透過你權責
能做的事(發發mail), 或是用人情拜託公司內熟的人去push看看.

跨國企業在不同國家地區, 做事的方法積極度是不一樣的. 在日本可能覺得這問題跟
天要塌下來差不多, 歐美國家可能覺得這問題沒那麼緊急吧? 我要先去公司健身房運動了~
只能說有時候很無奈吧?
與失敗為伍者,天天靠盃都是別人的錯。 與成功為伍者,天天跟失敗切磋直到不再出錯。
以一個工程師的角度回答你

1. 重啟tomcat來解決問題是best practice嗎?
應該是優先直覺反應
重啟後memory釋放出來 假如DB沒錯誤的話
造成系統失敗的process/thread會被終止 這樣通常系統重啟就能再運作
然後就是再等運作一段時間看會不會再失敗


2. 可以從log看得出來該網頁停擺是甚麼問題所導致的?
通常可以
TOMCAT / 程式 內都可能有LOG
可以看看錯誤的種類 / 程式碼位置
還有導致錯誤發生的URL是什麼
通常那個就是原因
至於看不看得懂就看個人功力了

感謝各位專家指導,獲益良多。
該系統是由本單位負責維護,我屬於support team,接到工單轉交devops team要求troubleshooting是我的工作之一。
如果我也能夠解決這些問題,我當然希望能夠早日加入Devops,畢竟年薪差個2.5倍以上。
目前至少先學會如何看log,確實培養調查與舉證的能力。


以一個 IT manager的角度來看這件事,我個人不會用這樣兩個問題來問其他同仁,

"這星期一上班我看到信,便轉交雪梨工程師要求調查"
"1. 重啟tomcat來解決問題是best practice嗎? "
"2. 可以從log看得出來該網頁停擺是甚麼問題所導致的?"

整個過程包括了 Incident 與 Problem的處理
從你的描述,這件incident已經由東京處理完成,

第1個問題其實不必要去問這是不是 best practice,
Incident的處理重點就是 fixing the system and to restore the service as soon as possible.
可以轉化為關心一下,重啟 tomcat 之後 是否還有不穩或重覆發生連不上的情形。
又或者該檢視一下內部SOP 是否有針對此類狀況的排除處理程序


第2個問題就比較屬於Problem的處理,重點在 to resolve the root cause of errors and to find permanent solutions.
至於是不是一有 incident 就就提出 problem,也要看公司內規或過往的統計,
說不定重啟tomcat 早就是先前的 problem 調查之後提出來的 workaround
「看到信就轉交工程師要求調查」 可能會讓人覺得你只是過手,很多訊息也沒有講清楚(就像自己提到的"原本以為網頁打不開是因為東京工程師重啟tomcat所導"等等)
詢問「東京的同仁反應連不上網頁前,各相關系統(AP server, DB, networking, etc)是否任何異常現象?」工程師才不會只把焦點放在Tomcat上。

support team應該放更多精神在與人"溝通"
樓上轉述的內容都讓感覺 太硬了

neep wrote:
support team應該放更多精神在與人"溝通"
樓上轉述的內容都讓感覺 太硬了(恕刪)


您說得很對。但工單裡的完整對話我沒辦法都貼上來,只能在此重點概要提問。
由於我是第一線人員,案發後星期一上班之後就馬上與東京取得聯繫,完整對話都在工單裡,
這種Level 2等級的案件都是直接指派給當週值班的Devops工程師處理,由於問題已經透過重啟tomcat解決,
我就轉而要求調查,以圖再發防止。

一般而言我們support team的確會花大量時間與user溝通,但對比自己等級高的工程師,通常不會花太多時間。
因為整個系統是他們寫的,該怎麼調查,我怎麼好意思多嘴?最多就是請他們多教我如何思考與判斷問題。

現在我方在檢討的問題是,東京工程師不應該有重啟tomcat的權限。問題的發展相當令人錯愕,我也不好意思多插嘴。
我技術先學起來再說。

最後再次感謝各位先進撥冗指教,萬分感激。





文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!