mcelog에 H/W 오류 메세지가 지속적으로 발생하는 이슈
페이지 정보
본문
mcelog에 H/W 아래의 오류 메세지가 지속적으로 발생
____________________________________________________
Hardware event. This is not a software error.
MCE 0
CPU 10 BANK 9
TIME 1576028456 Wed Dec 11 10:40:56 2019
MCG status:
MCi status:
Error overflow
Corrected error
Error enabled
MCA: MEMORY CONTROLLER GEN_CHANNEL0_ERR
Transaction: Generic undefined request
STATUS d00003c000310080 MCGSTATUS 0
MCGCAP 1000c18 APICID 40 SOCKETID 1
CPUID Vendor Intel Family 6 Model 47
____________________________________________________
관련해서 H/W를 점검하여 의심되는 메모리(8개)를 전부 교환했으나
동일 증상이 계속 유지되어 메세지 발생인 'CPU 10 BANK 9'의 위치를 특정하는 방법을 문의
----------------------------------------------------------------
하드웨어 메모리 모듈의 물리 위치에 대해서는 kernel에서 확인 방법은 없고
단지 하드웨어 메모리의 상태 정보를 출력
관련 문서
What is the physical location of the memory module throwing MCE error?
https://access.redhat.com/solutions/1308343
다만 메모리 자체의 문제일 수도 있지만 그 밖의 경우에도 에러가 보고된 사례가 있다.
즉, 바이오스나 메인보드측면의 개선이 필요한 경우도 있습니다.
====
Faulty memory DIMM.
Faulty memory controller (Usually onboard).
Faulty memory lines on motherboard.
Faulty BIOS.
Overheating system.
RAM latent junction failure (static discharge from a user).
Power supply issues or short circuits.
====
관련 문서
What does the message "HARDWARE ERROR. This is *NOT* a software problem!" mean?
https://access.redhat.com/solutions/67599
____________________________________________________
Hardware event. This is not a software error.
MCE 0
CPU 10 BANK 9
TIME 1576028456 Wed Dec 11 10:40:56 2019
MCG status:
MCi status:
Error overflow
Corrected error
Error enabled
MCA: MEMORY CONTROLLER GEN_CHANNEL0_ERR
Transaction: Generic undefined request
STATUS d00003c000310080 MCGSTATUS 0
MCGCAP 1000c18 APICID 40 SOCKETID 1
CPUID Vendor Intel Family 6 Model 47
____________________________________________________
관련해서 H/W를 점검하여 의심되는 메모리(8개)를 전부 교환했으나
동일 증상이 계속 유지되어 메세지 발생인 'CPU 10 BANK 9'의 위치를 특정하는 방법을 문의
----------------------------------------------------------------
하드웨어 메모리 모듈의 물리 위치에 대해서는 kernel에서 확인 방법은 없고
단지 하드웨어 메모리의 상태 정보를 출력
관련 문서
What is the physical location of the memory module throwing MCE error?
https://access.redhat.com/solutions/1308343
다만 메모리 자체의 문제일 수도 있지만 그 밖의 경우에도 에러가 보고된 사례가 있다.
즉, 바이오스나 메인보드측면의 개선이 필요한 경우도 있습니다.
====
Faulty memory DIMM.
Faulty memory controller (Usually onboard).
Faulty memory lines on motherboard.
Faulty BIOS.
Overheating system.
RAM latent junction failure (static discharge from a user).
Power supply issues or short circuits.
====
관련 문서
What does the message "HARDWARE ERROR. This is *NOT* a software problem!" mean?
https://access.redhat.com/solutions/67599
- 이전글시스템 fail or limit 등의 에러 메세지 로그 문의 20.10.22
- 다음글segfault log 분석 확인 요청 20.10.20
댓글목록
등록된 댓글이 없습니다.