PTT,  電腦硬體購買

[情報] AMD承認EPYC Rome伺服器晶片有個奇妙Bug

看了一下好像沒人貼,雖然我只是用5600的小咖,這種高貴的u跟我沾不上邊
但看在這bug還蠻特別的就貼上來了
有高手可以說明一下這到底什麼Bug嗎?

https://www.techbang.com/posts/106924-amd-admitted-that-the-epyc-rome-server-chip-will-crash-after
https://bit.ly/3IW4dB2

AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復
AMD 在近日發佈的 EPYC 7002 「Rome」伺服器晶片指南中,承認由於時鐘倒計時器存有
個BUG,導致第二代 EPYC 晶片正常運行 1044 天後出現核心卡死情況。

使用這款 EPYC 晶片的伺服器,需要每隔 2.93 年時間重新啟動一次,但AMD 官方表示不
會修復上述 BUG。

AMD 在指南中表示,導致這個問題的原因是核心無法脫離 CC6 省電模式(Core C6 State
),進入該模式之後,會降低電壓和時脈頻率。AMD 澄清說,誤差的時間可能取決於擴頻
調製和 REFCLK 頻率參考。

AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復

Reddit 使用者 acid_migrain 經過詳細的演算,認為實際導致卡死的時間並非 1044 天
,而是 1042 天 12 個小時。

AMD 於 2018 年推出 EPYC “Rome”系列伺服器晶片,部分客戶已經向 AMD 反應遇到了
這個問題。

AMD 表示沒有計畫修復該漏洞,外媒 technewsspace 判斷,不修復的理由原因之一是修
復成本太高,不然就是受影響用戶規模不大。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.46.215 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1685969842.A.5F6.html
※ 編輯: filiaslayers (220.133.46.215 臺灣), 06/05/2023 20:57:52

dos01: 所以到底為什麼是144天? 182.155.78.98 06/05 20:58
dos01: *1044 182.155.78.98 06/05 20:58
oppoR20: https://i.imgur.com/M6inswG.png 114.137.75.2 06/05 20:59
luvstarrysky: 唉 賺最多的市場 結果客戶遇到bug 218.172.87.54 06/05 21:01
luvstarrysky: 還直接說不修理 有夠誇張 218.172.87.54 06/05 21:01
oppoR20: 因為修復成本太高 114.137.75.2 06/05 21:01
oppoR20: 而且人家不修財報也是繼續噴 114.137.75.2 06/05 21:02
luvstarrysky: 不過這個問題 重開就好了吧 218.172.87.54 06/05 21:02
tacoclement: 幾乎所有公司都會定期重開,大多是每 1.161.180.113 06/05 21:05
tacoclement: 個月至一季 1.161.180.113 06/05 21:05
luvstarrysky: 對阿 就算是伺服器電腦也不可能完 218.172.87.54 06/05 21:05
luvstarrysky: 全不維護吧 218.172.87.54 06/05 21:06
oppoR20: 然後a黑:有夠誇張der AMD趕快倒一倒啦 114.137.75.2 06/05 21:06
eric13141230: 特級A黑又來見獵心喜了 218.172.8.155 06/05 21:06
fujisawa: 真正會受影響的客戶很少吧 就算真的有 114.43.118.172 06/05 21:10
fujisawa: 用專案的方式解決應該都比較省 114.43.118.172 06/05 21:10
abc21086999: 那就在那天安排個系統維護就好了ㄅ 220.136.186.78 06/05 21:10
toodoo: 正常啊, 像Windows 95連續開機49.7天也會 114.24.179.99 06/05 21:17
toodoo: 因為計時器溢位而BSOD而要重開機 XD 114.24.179.99 06/05 21:17
kimula01: 怕啥 年度高裝檢就會重開機了啦 1.200.246.77 06/05 21:19
BDrip: GPS已經溢位歸零兩次了122.117.184.144 06/05 21:20
tacoclement: 不過想想也很有趣,因為內容寫到是部 1.161.180.113 06/05 21:20
tacoclement: 分客戶反應問題的,表示這些客戶仍屬 1.161.180.113 06/05 21:20
tacoclement: 於超長時間不關機XD 1.161.180.113 06/05 21:20
MK47: 那你加一個沒1042天重啟的task吧 不過能發223.141.171.183 06/05 21:22
MK47: 現這bug的機房很猛耶 三年多都沒有重開XD223.141.171.183 06/05 21:22
lazioliz: 蛤 1.200.141.53 06/05 21:33
Amulet1: 你倒是關機阿lol 122.116.74.69 06/05 21:33
comipa: 3年多連fw update都沒有...蠻屌的XD 220.133.98.140 06/05 21:35
ChangWufei: 2年10個月又10天不重開就會遇到 好喔 114.27.207.236 06/05 21:37
zxzx8059: 公司每季都會斷電檢查高壓設備,根 1.161.69.220 06/05 21:37
zxzx8059: 本沒機會開三 1.161.69.220 06/05 21:37
zxzx8059: 年XDD 1.161.69.220 06/05 21:37
lc85301: A黑集合,集合了 36.231.90.248 06/05 21:38
stepnight: 三年早該碰到歲修了吧 49.217.197.40 06/05 21:40
giancarlo82: 3年不重開 這公司的工程師心臟真大106.107.240.161 06/05 21:40
basacola: 重開機不就好了 公司買來都沒有有伺服 118.165.47.89 06/05 21:40
basacola: 器維護時間可以搞嗎 118.165.47.89 06/05 21:40
mrme945: 真的有公司可以這麼久不重開耶好猛 111.71.212.31 06/05 21:46
blueballer: 不可能三年不維護,所以基本不影響使106.184.154.122 06/05 21:48
blueballer: 用 所以就不修了106.184.154.122 06/05 21:48
weltschmerz: 還好吧 巴哈一堆電腦也是沒關機過的 111.253.40.235 06/05 21:48
spfy: 直接好像有哪款NAS用的CPU兩年多會掛?203.121.243.239 06/05 21:48
weltschmerz: 在那邊好像關機電腦會爆炸一樣= = 111.253.40.235 06/05 21:48
spfy: (*之前) 也無解所以時間到就GG的?203.121.243.239 06/05 21:48
oppoR20: 不是兩年吧 是好幾年 210.66.250.9 06/05 21:50
oppoR20: C2000 CPU 210.66.250.9 06/05 21:51
oppoR20: DS1515+等 210.66.250.9 06/05 21:51
tomsawyer: 哪有好幾年 cisco說1.5年可能發生 大 1.200.98.199 06/05 22:02
tomsawyer: 概3年左右壽命 1.200.98.199 06/05 22:02
knml: 歲修重開不就得了 1.171.119.60 06/05 22:15
Arashi0731: 就算是伺服器想要完全不重啟也很困難 59.127.37.149 06/05 22:17
rabbit61677: 這種超多核心的大部份都VM或AP堆疊111.250.148.116 06/05 22:21
rabbit61677: 就算一台重開,整體服務也不受影響111.250.148.116 06/05 22:22
rabbit61677: 看起來就軟體很難修,3年都下一代了111.250.148.116 06/05 22:23
birdy590: 做 planned outage 就好了 幾年都不更新 115.43.53.170 06/05 22:40
ayasesayuki: 修這個沒什麼意義 能撐3年不重開發 42.79.203.54 06/05 22:40
ayasesayuki: 現這bug也是厲害 42.79.203.54 06/05 22:40
birdy590: 其實也不太可能 而且還有安全隱患 115.43.53.170 06/05 22:40
cmj: 三年多沒重開在工廠產能滿載時很正常吧 60.245.106.18 06/05 22:41
atpx: server不太可能3年不重開,機電系統總要停電 1.163.127.193 06/05 22:45
atpx: 檢查.牽涉到消防安全法規 1.163.127.193 06/05 22:46
yenchieh1102: 會被發現的意思就是有哪個衰小的東 1.34.147.124 06/05 22:49
yenchieh1102: 西跑了兩年多快要出來了結果當機了 1.34.147.124 06/05 22:49
yenchieh1102: 嗎xDDD 1.34.147.124 06/05 22:49
friedpig: 修復成本就是要重開光罩重弄一顆阿 125.228.96.10 06/05 22:51
friedpig: 直接給你一顆milan換還比較實際 125.228.96.10 06/05 22:52
friedpig: 反正MB幾乎都是相容的 就幫你無痛升級 125.228.96.10 06/05 22:53
aries5420: 資訊工程師:我們下車再上車重新試試 122.117.59.50 06/05 22:59
avans: https://i.imgur.com/nLJzuCh.png 42.79.191.1 06/05 23:01
avans: 好像與資料型態益位有關係 猜的 42.79.191.1 06/05 23:02
avans: https://i.imgur.com/yVf89sq.png 42.79.191.1 06/05 23:09
poco0960: AMD TIMER 125.229.56.86 06/05 23:24
NanaMizuki: 用這種cpu的機器半年沒重開就很強了 1.171.136.6 06/05 23:31
ab37695543xs: 完全沒因為其他任何因素持續運行三 59.115.188.142 06/05 23:33
ab37695543xs: 年也是很猛了 59.115.188.142 06/05 23:33
guanting886: 3年不重開還好吧.放在aws 的 win s 42.75.13.223 06/05 23:41
guanting886: erver 已經700多天沒重開了 42.75.13.223 06/05 23:41
guanting886: 不過跑在VM上的虛擬伺服器重開也無 42.75.13.223 06/05 23:44
guanting886: 助於事,只有整片Server那一台整個 42.75.13.223 06/05 23:44
guanting886: 重啟才有用 42.75.13.223 06/05 23:44
avans: 28*2^53=0x380000000000000,我圖打錯成253 42.79.191.1 06/05 23:47
poco0960: 我公司那幾台linux跟vm機是除了停電以外 125.229.56.86 06/05 23:49
poco0960: 沒重開過的啊... 125.229.56.86 06/05 23:50
xam: 如果客戶實際應用不會碰到可以不用修.. 125.228.254.54 06/05 23:50
xam: 客戶更怕你修這個又搞了一個更詭異的bug吧 125.228.254.54 06/05 23:50
demon159000: 阿就放出個維修時間 給他重開機 遊戲 42.76.101.1 06/05 23:57
demon159000: 不也是週期性維修時間 42.76.101.1 06/05 23:58
yys310: 都不用維修的嗎?140.114.235.115 06/06 00:11
b325019: 你VM沒重開不代表host沒重開啊w 1.161.30.11 06/06 00:13
mainsa: 可以這麼久不重開我反而比較佩服欸 101.12.93.199 06/06 00:22
chenchunjui: 沒防斷電的話 挺厲害的 我們沒這問題 1.163.119.144 06/06 01:17
TFnight: 都不update的嗎… 114.42.100.39 06/06 01:50

Leave a Reply

Your email address will not be published. Required fields are marked *