SSD의 수명을 알기 위한 SMART 정보에는 어떤 항목이 있는가?

최근들어 대용량의 SSD 드라이브가 속속 등장함에 따라, PC의 메인 스토리지는 오로지 HDD에서 SSD로 이행하고 있는데, SSD는 HDD보다 물리적 충격에 강하고 읽기도 빠른 것이 특징이지만, SSD에도 수명이 존재해 사용기간이 길수록 SSD는 소모된. 그런 SSD의 상태를 감시하기 위한 정보인 Self Monitoring, Analysis, and Reporting Technology(SMART)에 대해, 클라우드 스토리지 기업 Backblaze가 알기쉽게 해설....

 


SSD가 오프라인 데이터 스토리지로 사용될 수 있을지는 두고두고 논의 중인데, Backblaze에 따르면, "SSD가 신품일 경우는 전원 없이도 1년 정도는 데이터를 안전하게 저장할 수 있다"고 한다. 다만, 드라이브가 소모되면서 저장 가능한 기간은 짧아진다. 즉, 데이터를 장기 저장하는 데, SSD의 수명과 소모도는 항상 체크해야 한다는.

그럴 때 도움이 되는 게 조기 발견, 고장 예측을 목적으로 SSD 상태를 실시간으로 자가 진단하고 수치화하는 SMART인데, Backblaze에서는 항상 십여 종류의 SSD를 가동시키고 있으며, 각각의 모델로부터 SMART 정보를 매일 취득해, SSD 소모도합을 체크하고 있다고 한다. Backblaze는 Seagate, Western Digital, Crucial 3사에서 나오는 스토리지 용량이 250GB인 SSD로, SSD 수명을 추측하는 데 필요한 SMART 정보를 정리하고 있다.

SMART에는 255항목이 존재하며, 이번에 비교한 3개 SSD는 그 중 44항목을 표시할 수 있지만, 나타내는 항목이나 그 내용에 대해서는, 제조사에 따라 제각각이며 통일되어 있지 않다. 또한 비슷한 것을 체크하고 있음에도 불구하고, 항목이 다른 경우도 있다고 하는데, Backblaze는 "제조사가 다르면, 기본적으로 같은 것에 대해 다른 항목으로 체크됩니다. 이것은 SMART의 결함을 부각시키고 있습니다. 제조사는 서로 사이좋게 지내려고 하지만, 누가 어느 항목에서 어떻게 체크하는지는 제조사의 변덕과 인내, 끈기에 좌우됩니다"라고..

 


각 스토리지에서 표시되는 SMART 정보 44항목 중 공통적인 것은 아래의 5개뿐.

・SMART 9:Power-On Hours
전원이 켜져 있는 상태의 합계 시간.

・SMART 12:Power Cycle Count
SSD 전원이 꺼졌다가 다시 켜진 횟수. 이것은 SSD의 생애에 걸쳐 누적되고 기록됩니다.

・SMART 194:Temperature
SSD의 내부 온도

・SMART 173:SSD Wear Leveling
블록당 최대 소거 횟수

・SMART 174:Unexpected Power Loss Count
예기치 않은 셧다운 횟수. 이것은 SSD의 생애에 걸쳐 누적되고 기록됩니다.

또, 제조사에 따라 판독되는 SMART 정보는 다르지만, 그 중에서도 특히 SSD의 수명을 파악하는 데 유용한 항목이 다음. 

보면 알 수 있듯이, 표시하고 있는 내용은 거의 동일하지만, SMART 항목 번호와 이름은 제조사마다 다르고, 덧붙여 페이지란 SSD를 구성하는 낸드플래시 메모리로 읽고 쓸 수 있는 최소 단위를 말하며, 페이지의 모임을 블록이라고 부른다.

・SMART 169:Remaining Lifetime Percentage (Western Digital)
SSD를 구성하는 낸드형 플래시 메모리는, 새로 데이터를 쓰기 위해 기존 데이터를 한 번 지워야 하는데, 이 데이터를 쓰기 위해서 데이터를 지우는 「P/E(프로그램/소거) 사이클」이라고 하는 처리의 횟수에는 한계가 존재. 또한 SSD에서 쓰기가 불가능한 불량 블록이 생기면, 사용하지 않는 예비 블록이 할당되는데, 이 예비 블록의 잔여물도 체크된다. 이 항목에서는 P/E 사이클과 미사용 예비 블록 수에서 SSD의 남은 수명을 측정. 신품 SSD에서는 「100」의 값이 보고되고, 사용함에 따라 「0」까지 감소한다.

 

 

 


・SMART 202:Percentage of Lifetime Used (Crucial)
SSD가 미리 지정된 수명 중, 어느 시점에서 얼마나 되었는지를 나타낸다. 신품 SSD의 경우는 「0」으로 표시되고, 지정된 수명에 도달하면 「100」으로 표시.

・SMART 231:Life Left (Seagate)
P/E 사이클, 그리고 예비 블록의 수에서 SSD의 대략적인 잔여 수명을 나타내는데, 신품 SSD의 경우, 정규화된 값은 「100」으로, 거기에서 감소해, 「10」으로 교환의 필요성이 있는 것을 나타낸다. 값이 "0"인 경우는, 드라이브가 읽기 전용 모드로 동작하고 있는 것을 의미.

 


Logical Block Addressing(LBA)의 쓰기, 읽기 카운트는, 바로 쓰기 혹은 읽기된 블록을 카운트한 것. 블록이 쓰이거나 읽힐 때마다, 아래와 같은 항목이 하나씩 증가한다.

・SMART 241:LBAs Written (Seagate・Western Digital)
LBA 쓰기 총 횟수.

・SMART 242:LBAs Read (Seagate・Western Digital)
LBA 읽기의 총 횟수.

・SMART 246:Cumulative Host Sectors Written (Crucial)
컴퓨터의 요구에 의해 실행된 LBA 쓰기.

그리고, Bakcblaze가 많은 SSD를 운용하는데, SSD의 수명을 알 수 있는 흥미로운 SMART 항목이 아래라고......

・SMART 230:Drive Life Protection Status (Western Digital)
SSD의 사용 궤적이 기대 수명 곡선을 상회하는지 여부를 나타내는 항목. 즉 제조사측이 상정하고 있는 「SSD의 이상적인 소모 속도」에 대해서, 현실은 얼마나 소모가 진행되고 있는지를 나타내는 항목.

・SMART 210:RAIN Successful Recovery Page Count (Crucial)
"RAIN"이란 Crucial이 개발한 기술로, RAID와 비슷한 방법으로 데이터의 중복성을 확보. 단, 이 중복성은 어느 정도의 용량을 추가로 소비해야 하고, 이 항목에서는 비를 실현하기 위해 확보된 페이지 수가 표시된다.

・SMART 232:Endurance Remaining (Seagate・Western Digital)
SSD로 설정된 최대 소거 횟수 중 실제로 완료한 소거 횟수의 비율. 앞서 언급한 SMART231과 유사하지만, 저희는 예비 블록을 고려하지 않습니다.

・SMART 233:Media Wearout Indicator (Seagate・Western Digital)
실제로 SSD 상에서 행해진 데이터 소거 횟수의 총 회수.

・SMART 171:SSD Program Fail Count (Western Digital・ Crucial)
SSD가 가동된 후 누적되는 페이지 쓰기 실패 횟수.

・SMART 172:SSD Erase Count Fail (Western Digital・Crucial)
SSD가 가동되고 나서 누적되는 페이지 삭제 실패 횟수.

 


또한 Backblaze는 아래 항목에 대해서는 무엇을 위해 나타나는지, 혹은 무엇을 나타내는지는 잘 알 수 없다고 말한다.

・SMART 16:Total LBAs Read (Seagate)
항목명은 「LBA 읽기의 총회수」라고 되어 있지만, 이것은 전술한 SMART 242와 같다. 아마 SMART 항목의 이름을 잘못 알고 있는 것이 아닐까 Backblaze는 추측하고 있다.

・SMART 17:Unknown (Seagate)
Seagate제 SSD의 SMART가 이 항목을 보고하고 있는 것 밖에 알 수 없어 무엇인지는 불분명하다는 것.

・SMART 196:Reallocation Event Count (Crucial)

・SMART 197:Current Pending Sector Count (Crucial)

・SMART 198:Uncorrectable Sector Count (Crucial)
이 항목은 HDD의 자기 디스크와 관련된 항목이기 때문에, SSD에서 이 항목이 보고되는 것은 의미가 없다고 Backblaze는 말한다.

・SMART 206:Flying Height (Crucial)
Flying Height는 HDD에서 사용되는 자기헤드 디스크에 대한 부상고를 말하는데, 당연히 SSD에는 자기헤드가 존재하지 않기 때문에, 이 항목이 보고되는 의미는 없다.

Backblaze는 "SSD 제조업체가 SMART 정보에 드라이브 모델의 상태나 건강 상태에 관한 관련 정보를 기록하고 있는 것은 멋진 일입니다. 또, 많은 메이커가 이러한 SMART 정보를 감시하고, 사용자 피드백을 제공하는 소프트웨어를 제공하고 있는 것도 훌륭한 일입니다"라고 말하고 있지만, 메이커 마다 체크해야 할 항목이 제각각이어서, 현장에서는 시스템 관리의 효율이 떨어지고 있다고 지적. "SSD의 SMART를 제조사만의 것으로 만드는 것이 아니라, 모든 SSD 제조사가 준수하도록 SMART 항목명과 내용을 전면적으로 표준화하는 것을 검토할 때일지도 모릅니다"라고 말하고 있다.