четверг, 25 июня 2015 г.

Проблема с Samsung SSD - продолжение, подробности из первых уст.

    Про выявленную проблему с SSD Samsung уже сообщалось. В этом блоге - общее описание здесь.

    В сети опубликовано очень подробное описание ситуации от лица, непосредственно столкнувшегося с проблемой и пытавшегося ее исправить.
    Компания эксплуатирует пул серверов, использующих SSD в качестве быстрого раздела дисковой подсистемы.
    Цитаты:
"...за две недели, в течение которых мы выявляли причину неисправности, ... нам удалось автоматизировать процедуры восстановления (серверов) до комфортного уровня."
"... распорядок дня стал рутинным - долгий душ, восстановление серверов, завтрак, восстановление серверов, обед, восстановление серверов, ужин, восстановление серверов,... долгий душ,..."

    Итог: исключая последовательно вероятные причины массового падежа серверов, в компании достоверно выделили первопричину - определенный список SSD, приводящий к катастрофическим результатам:

"Черный список"
SAMSUNG MZ7WD480HCGM-00003
SAMSUNG MZ7GE480HMHP-00003
SAMSUNG MZ7GE240HMGR-00003
Samsung SSD 840 PRO Series
Samsung SSD 850 PRO 512GB

"Белый список", никаких проблем
Intel S3500
Intel S3700
Intel S3710

    Если интересно, некоторые технические подробности.
    Получается, что в SSD Samsung некорректно отрабатывает TRIM, поскольку отключение ее дало некоторый промежуточный положительный результат - частота инцидентов несколько снизилась, но полностью не ушла. Рассматривая под микроскопом последствия, в компании выявили, что возникают странные блоки размером 512 байт заполненные нулями.
   


https://blog.algolia.com/when-solid-state-drives-are-not-that-solid/
опубликовано 15 июня 2015

Комментариев нет:

Отправить комментарий