GPU-кластеры на базе Dell PowerEdge C410x: для чего они нам?

Компания Dell известна своими качественными продуктами и основательному подходу к делу, благодаря чему пользуется большим авторитетом у корпоративных клиентов, когда во главу угла поставлены производительность и надежность.

Dell анонсировала новый блок расширения PowerEdge C410x серверов линейки PowerEdge C. Они представляют собой основу для установки ускорителей вычислений с интерфейсом PCI Express x16.

Один юнит – видеоускоритель Tesla M2050 в боксе для горячей замены

Лучше один раз увидеть, чем сто – услышать. Демонтаж ускорителя TeslaTM M1060, Chris Peterson орудует отверткой.

PowerEdge C410x имеет высоту 3U позволяет установить 16 GPU-карт (10 спереди и 6 сзади) с TDP до 225 Вт каждая, и рассчитан прежде всего на установку GPGPU модулей NVIDIA Tesla M2050/2070 с 448 ядрами CUDA архитектуры Fermi и 3 или 6 гигабайтами ECC GDDR5 памяти (или TeslaTM M1060 с 240 потоковыми процессорами и 4 Гб памяти).

PowerEdge C410x. Вид спереди

Питание сервера реализовано посредством 4 БП мощностью 1400 Вт каждый (один ускоритель потребляет до 225 Вт), для охлаждения – 8 шт. 92-мм вентиляторов. Блоки питания и вентиляторы поддерживают отказоустойчивость и «горячую» замену. Модули карт поддерживают добавление на ходу, однако их нельзя отключать для замены.

Связывающий интерфейс – однопортовый NVIDIA HIC.

PowerEdge C410x. Вид сзади

Интегральная вычислительная мощность системы – более 16,48 TFLOPS и распределяется на 8 серверов PowerEdge C, которые подключаются с помощью внешних соединений PCI Express I-PASS к специальным интерфейсным картам NVIDIA HIC. В качестве ОС выступает Red Hat Enterprise Linux.

Шасси PCI Express уPowerEdge C410x универсальны, что обеспечивает хорошую масштабируемость системы, это позволяет получать кластеры практически любого размера. Подтверждена их работа с серверами PowerEdge C6100, построенных на базе ЦП Intel Xeon 5500/5600 серии.

Фирма Dell обещает широкую и всестороннюю поддержку своим пользователям. Репутация данного разработчика, несомненно, имеет высокий вес.

Немного истории.

На протяжении многих лет графические чипы становились все более программируемыми и это привело к тому, что NVIDIA представила первый GPU или графический процессор. В 1999-2000 гг. ИТ-специалисты совместно с исследователями в таких областях, как медицинская визуализация и электромагнетизм начали использовать графические процессоры для выполнения общих вычислительных задач. Они нашли важную особенность графических процессоров – их выдающуюся производительность в операциях с плавающей точкой, что и позволило повысить скорость расчетов для ряда научных приложений. Это было началом направления GPGPU или General Purpose (общего назначения) вычислений на GPU.

Ускорители Tesla 20-серии основываются на архитектуре Ферми, основными новшествами которой являются аппаратная поддержка вычислений с двойной точностью на уровне более 0,5 TFLOPS, наличие кеш-памяти L1 и L2, а также управляемого кеша и присутствие регистровой памяти с коррекцией ошибок типа ECC.

Как нам известно, CUDA даёт возможность организовывать доступ к набору инструкций графического ускорителя и управлять его памятью и организовывать сложные параллельные вычисления. Её архитектура использует grid-модель памяти, кластерное моделирование потоков и SIMD-инструкции. По сравнению с традиционным подходом к организации вычислений общего назначения с помощью графических API, у архитектуры CUDA имеются как преимущества, так и ограничения.

CUDA

На сегодня программист имеет возможность обеспечения параллелизма вычислений с использованием как высокоуровневых языков программирования, таких как C, C++ и Fortran, так и при помощи API – OpenCL и DirectX 11 Compute.

Совсем недавно руководитель «лагеря зелёных», Jen-Hsun Huang, поделился планами о будущих перспективах развития технологий GPGPU, как их видит компания.

В частности, он озвучил следующие интересные моменты:

- на данный момент производительность GPU каждые 2 года четырехкратно увеличивается, также внедряются новые функции, однако NVIDIA остановится на какое-то время на CUDA;

- NVIDIA не будет стремиться полностью заменить CPU, а лишь усиливать слабые стороны ЦП мощной поддержкой со стороны GPU (через распараллеленные вычисления), причем ошеломительного прорыва в близком будущем не будет: троекратное ускорение – уже следует признать успехом;

- на сегодня GPU может работать с 1 процессом, в дальнейшем будет будет несколько процессов на 1 GPU, а ещё эффективнее – сочетание обоих подходов. Так, сервер с 1 ускорителем Tesla сможет выступать и как игровая карта, и как специализированная Quadro, и как GPGPU-ускоритель вычислений и даже выполнять упомянутые действия одновременно;

- одним из важнейших решений в компании видят отказ от множественного копирования данных из системной ОЗУ в видеопамять и обратно в современных циклах вычислений, что позволит в определенной степени обойти проблему низкой полосы пропускания, хотя неизбежно и наращивание традиционных методов по ускорению передачи данных на аппаратном уровне.

Данное видео наглядно демонстрирует стойку с серверами PowerEdge C410x и возможности их технического обслуживания, примечательно, что общий уровень шума вентиляторов довольно высок.

Здесь показана программная сторона обслуживания сервера, конфигурирование и мониторинг

Dell уже создавала похожую систему, как часть суперкомпьютера Lincoln для Национального суперкомпьютерного центра США. Вычислительная мощность кластера составляла 47 TFLOPS. Настоящее же решение ориентировано на сектор корпоративных пользователей в области решений для виртуализации. Microsoft и VmWare уже заявили, что их продукты следующего поколения будут поддерживать виртуализацию графического процессора. Это позволит запускать ресурсоемкие графические приложения в виртуальных машинах (наконец-то забрезжил свет в конце туннеля!). Причём предварительная версия технологии Microsoft RemoteFX уже доступна в Windows Server 2008 R2 SP1 Release Candidate, уже открытом для бета-тестирования.

Как AMD, так и Nvidia отчитались о том, что RemoteFX позволяет реализовать визуальную виртуализацию для сегодняшних профессиональных видеокарт AMD FirePro и Nvidia Quadro. Отдельно хочется отметить, что свой вклад в развитие технологии RemoteFX вносят и специалисты ИТ-интеграторов Dell и HP.

Докинг белков

Очень сложная для моделирования (ввиду больших размеров) молекула белка

<param name="data" value="http://www.youtube.com/v/pqBJgFMDbOA&hl=en_US&feature=player_embedded&version=3" /> <param name="allowFullScreen" value="true" /> <param name="allowScriptAccess" value="always" /> <param name="src" value="http://www.youtube.com/v/pqBJgFMDbOA&hl=en_US&feature=player_embedded&version=3" /> <param name="allowfullscreen" value="true" /> </object>" frameborder="0" width="710" height="400">

Сравнение симуляции на CPU и GPU в Jacket Matlab, 50-кратное преимущество видеоускорителя

В основном, в свободном доступе мы можем наблюдать симуляции частиц, особенно интересно интерактивное взаимодействие в реальном времени.

<param name="data" value="http://www.youtube.com/v/RnQtQQC7ia8&hl=en_US&feature=player_embedded&version=3" /> <param name="allowFullScreen" value="true" /> <param name="allowScriptAccess" value="always" /> <param name="src" value="http://www.youtube.com/v/RnQtQQC7ia8&hl=en_US&feature=player_embedded&version=3" /> <param name="allowfullscreen" value="true" /> </object>" frameborder="0" width="710" height="400">

<param name="data" value="http://www.youtube.com/v/ZCgp6UGiOl8&hl=en_US&feature=player_embedded&version=3" /> <param name="allowFullScreen" value="true" /> <param name="allowScriptAccess" value="always" /> <param name="src" value="http://www.youtube.com/v/ZCgp6UGiOl8&hl=en_US&feature=player_embedded&version=3" /> <param name="allowfullscreen" value="true" /> </object>" frameborder="0" width="710" height="400">

В продолжение темы использования ускорителей NVIDIA Tesla в составе высокопроизводительных кластеров отметим другую важное событие. Суперкомпьютер Tianhe-1A, находящийся на территории Китая, достиг быстродействия в 2,507 петафлопс, и, ожидается, что именно он станет ПЕРВЫМ номером в новом списке суперкомпьютеров TOP-500, обойдя все суперкомпьютеры США и Европы (обновление списка проводится в лпеделенную дату).

Мозговым центром Tianhe-1A являются 7168 чипов Tesla M2050 и 14336 процессоров Intel Xeon.

Представители NVIDIA уже объявили, что данный кластер не только самый быстрый в мире, но и самый «экологичный», так как он потребляет всего лишь 4,04 МВт электроэнергии. И это почти в 3 раза меньше, чем при использовании одних только CPU, в эквивалентной вычислительной мощности.

Менеджер по связям с общественностью Sumit Gupta заявил, что данный суперкомпьютер будет использоваться для исследовательских работ в области астрофизики, биохимии и других прикладных наук.

Стоимость одних только акселераторов Tesla в данном кластере составила почти 18 млн. долларов!

Ну, и на «десерт» о применении ускорителей NVIDIA в киноиндустрии, нужно же разбавить материал, чем-то более «отдыхающим», тем более, что все это тоже имеет прямое отношение к теме : -))

Видеоускорители NVIDIA Quadro с поддержкой CUDA использовались при создании таких фильмов как «Аватар», «2012» и «свежего» блокбастера «Солт».

Тут интересненькое о создании спецэффектов в фильме «2012»:

<param name="data" value="http://www.youtube.com/v/ESqxFtneuus&hl=en_GB&feature=player_embedded&version=3" /> <param name="allowFullScreen" value="true" /> <param name="allowScriptAccess" value="always" /> <param name="src" value="http://www.youtube.com/v/ESqxFtneuus&hl=en_GB&feature=player_embedded&version=3" /> <param name="allowfullscreen" value="true" /> </object>" frameborder="0" width="710" height="400">

В ролике показана многослойная визуализация различных сцен фильма, связанных с огромными массивами воды, и разбивающихся под действием потоков воды объектов, что является необычайно ресурсоемкой по сегодняшним меркам задачей, а лет 10 назад мало кто из отраслевых профессионалов мог себе представить возможность создания подобного.

Для фильма усилиями специалистов студии Uncharted Territory было создано 422 динамичные сцены и 100 сцен – студии Scanline VFX. Обе компании весьма впечатлены мощью графических ускорителей NVIDIA и собираются в дальнейшем расширить арсенал используемых графических приложений, использующих GPGPU, в том числе и написанных на заказ.

Московская студия Tikibot занималась созданием в фильме «Солт» спецэффектов заднего плана, таких как окружающая обстановка, строения, эффекты на основе частиц (дым, взрывы, огонь, осколки в результате твердотельных и жидкостных деформаций). В работе использовались программные пакеты Autodesk Maya, Pixar RenderMan и Adobe Premiere Pro CS5 и другие, поддерживающие GPU-ускорение.

Композитинг сцены из фильма:

<param name="data" value="http://www.youtube.com/v/9Q754JSD2RM&hl=en_US&feature=player_embedded&version=3" /> <param name="allowFullScreen" value="true" /> <param name="allowScriptAccess" value="always" /> <param name="src" value="http://www.youtube.com/v/9Q754JSD2RM&hl=en_US&feature=player_embedded&version=3" /> <param name="allowfullscreen" value="true" /> </object>" frameborder="0" width="710" height="400">

Оцените статью:

рейтинг: 0 голосов: 0