Про выявленную проблему с SSD Samsung уже сообщалось. В этом блоге - общее описание здесь.
В сети опубликовано очень подробное описание ситуации от лица, непосредственно столкнувшегося с проблемой и пытавшегося ее исправить.
Компания эксплуатирует пул серверов, использующих SSD в качестве быстрого раздела дисковой подсистемы.
Цитаты:
"...за две недели, в течение которых мы выявляли причину неисправности, ... нам удалось автоматизировать процедуры восстановления (серверов) до комфортного уровня."
"... распорядок дня стал рутинным - долгий душ, восстановление серверов, завтрак, восстановление серверов, обед, восстановление серверов, ужин, восстановление серверов,... долгий душ,..."
Итог: исключая последовательно вероятные причины массового падежа серверов, в компании достоверно выделили первопричину - определенный список SSD, приводящий к катастрофическим результатам:
"Черный список"
SAMSUNG MZ7WD480HCGM-00003
SAMSUNG MZ7GE480HMHP-00003
SAMSUNG MZ7GE240HMGR-00003
Samsung SSD 840 PRO Series
Samsung SSD 850 PRO 512GB
"Белый список", никаких проблем
Intel S3500
Intel S3700
Intel S3710
Если интересно, некоторые технические подробности.
Получается, что в SSD Samsung некорректно отрабатывает TRIM, поскольку отключение ее дало некоторый промежуточный положительный результат - частота инцидентов несколько снизилась, но полностью не ушла. Рассматривая под микроскопом последствия, в компании выявили, что возникают странные блоки размером 512 байт заполненные нулями.
https://blog.algolia.com/when-solid-state-drives-are-not-that-solid/
опубликовано 15 июня 2015
В сети опубликовано очень подробное описание ситуации от лица, непосредственно столкнувшегося с проблемой и пытавшегося ее исправить.
Компания эксплуатирует пул серверов, использующих SSD в качестве быстрого раздела дисковой подсистемы.
Цитаты:
"...за две недели, в течение которых мы выявляли причину неисправности, ... нам удалось автоматизировать процедуры восстановления (серверов) до комфортного уровня."
"... распорядок дня стал рутинным - долгий душ, восстановление серверов, завтрак, восстановление серверов, обед, восстановление серверов, ужин, восстановление серверов,... долгий душ,..."
Итог: исключая последовательно вероятные причины массового падежа серверов, в компании достоверно выделили первопричину - определенный список SSD, приводящий к катастрофическим результатам:
"Черный список"
SAMSUNG MZ7WD480HCGM-00003
SAMSUNG MZ7GE480HMHP-00003
SAMSUNG MZ7GE240HMGR-00003
Samsung SSD 840 PRO Series
Samsung SSD 850 PRO 512GB
"Белый список", никаких проблем
Intel S3500
Intel S3700
Intel S3710
Если интересно, некоторые технические подробности.
Получается, что в SSD Samsung некорректно отрабатывает TRIM, поскольку отключение ее дало некоторый промежуточный положительный результат - частота инцидентов несколько снизилась, но полностью не ушла. Рассматривая под микроскопом последствия, в компании выявили, что возникают странные блоки размером 512 байт заполненные нулями.
https://blog.algolia.com/when-solid-state-drives-are-not-that-solid/
опубликовано 15 июня 2015
Комментариев нет:
Отправить комментарий