AMD CPUの不具合とその対処方法について【トゥモロー・ネット テックブログ】

平素より当社のサーバをご愛用いただき、誠に有難うございます。

2023年4月にAMDのCPUに関する不具合情報が公開されました。

この記事では、その具体的な内容と対処方法についてご紹介します。

不具合の概要

AMDのCPUに関するエラッタとして、CPUが稼働してから約1,044日以上経過すると、CPUコアがCC6ステートから正常に終了できず、システムがハングアップするという事象が確認されています。

 

Linux (CentOS等) における対処方法

1. msr toolsのインストール

まずは、msr toolsをLinux OSにインストールします。

$ yum -y install msr tools

2. 状態確認

以下のコマンドで現在の状態を確認します。もし、全コアが80808の場合はすでに無効状態です。それ以外の場合は次の手順に進んでください。

$ sudo rdmsr -a 0xC0010296

3. 値の変更

コマンド”wrmsr”を使用して、特定の値を変更します。

$ sudo wrmsr -a 0xC0010296 0x80808

4. 変更確認

以下のコマンドで、変更が適切に行われたかを確認します。

$ sudo rdmsr -a 0xC0010296

注意事項

msr toolsでの変更は再起動後に保持されません。そのため、再起動後も設定を維持したい場合は、適切なスクリプトや設定ファイルを使用して、変更を再適用する必要があります。

VMware ESXi ESXi6 or 7系での対処方法

VMware社が提供するナレッジベースにて対応方法が紹介されています。

詳細は以下のリンクからご確認ください。

VMware Knowledge Base

VMware Knowledge Baseはこちら

参考URL

AMD公式技術資料

AMD公式技術資料はこちら

この記事を書いた人

株式会社トゥモロー・ネット

トゥモロー・ネットは、AI基盤向けインフラの設計・構築・運用を支援しています。GPUサーバーの導入実績1,200台以上、 保守実績66,000台以上の知見をもとに、システム全体の性能や運用性を考慮した提案を行っています。
NVIDIAの最上位パートナープログラム「NVIDIA Elite Partner」に認定され、Supermicro正規一次代理店として10年以上にわたりAIインフラ分野を支援しています。
本サイトのコンテンツは、NVIDIA認定技術者および専門エンジニアを含む技術チームが執筆・監修しています。

会社概要ページ