GPU-кластери на базі Dell PowerEdge C410x: для чого вони нам?
Компанія Dell відома своїми якісними продуктами і грунтовного підходу до справи, завдяки чому користується великим авторитетом у корпоративних клієнтів, коли на перше місце поставлені продуктивність і надійність.
Dell анонсувала новий блок розширення PowerEdge C410x серверів лінійки PowerEdge C. Вони являють собою основу для установки прискорювачів обчислень з інтерфейсом PCI Express x16.
Один юніт - відеоприскорювач Tesla M2050 в боксі для гарячої заміни
Краще один раз побачити, ніж сто - почути. Демонтаж прискорювача TeslaTM M1060, Chris Peterson орудує викруткою.
PowerEdge C410xМає висоту 3U дозволяє встановити 16 GPU-карт (10 спереду і 6 ззаду) з TDP до 225 Вт кожна, і розрахований перш за все на установку GPGPU модулів NVIDIA Tesla M2050 / 2070 з 448 ядрами CUDA архітектури Fermi і 3 або 6 гігабайтами ECC GDDR5 пам'яті (або TeslaTM M1060 з 240 потокових процесорів і 4 Гб пам'яті).
PowerEdge C410x. Передня панель
Харчування сервера реалізовано за допомогою 4 БП потужністю 1400 Вт кожен (один прискорювач споживає до 225 Вт), для охолодження - 8 шт. 92-мм вентиляторів. Блоки живлення та вентилятори підтримують відмовостійкість і «гарячу» заміну. Модулі карт підтримують додавання на ходу, проте їх не можна відключати для заміни.
Зв'язуючий інтерфейс - однопортовий NVIDIA HIC.
PowerEdge C410x. Вигляд ззаду
Інтегральна обчислювальна потужність системи - більш 16,48 TFLOPS і розподіляється на 8 серверів PowerEdge C, які підключаються за допомогою зовнішніх з'єднань PCI Express I-PASS до спеціальних інтерфейсним картками NVIDIA HIC. В якості ОС виступає Red Hat Enterprise Linux.
Шасі PCI Express уPowerEdge C410x універсальні, що забезпечує хорошу масштабованість системи, це дозволяє отримувати кластери практично будь-якого розміру. Підтверджено їх робота з серверами PowerEdge C6100, побудованих на базі ЦП Intel Xeon 5500/5600 серії.
Фірма Dell обіцяє широку і всебічну підтримку своїм користувачам. Репутація даного розробника, безсумнівно, має високу вагу.
Трохи історії.
Протягом багатьох років графічні чіпи ставали все більш програмованими і це призвело до того, що NVIDIA представила перший GPU або графічний процесор. У 1999-2000 рр. ІТ-фахівці спільно з дослідниками в таких областях, як медична візуалізація і електромагнетизм почали використовувати графічні процесори для виконання спільних обчислювальних задач. Вони знайшли важливу особливість графічних процесорів - їх видатну продуктивність в операціях з плаваючою точкою, що і дозволило підвищити швидкість розрахунків для ряду наукових програм. Це було початком напрямки GPGPU або General Purpose (загального призначення) обчислень на GPU.
Прискорювачі Tesla 20-серії грунтуються на архітектурі Фермі, основними нововведеннями якої є апаратна підтримка обчислень з подвійною точністю на рівні більше 0,5 TFLOPS, наявність кеш-пам'яті L1 і L2, а також керованого кеша і присутність реєстрової пам'яті з корекцією помилок типу ECC .
Як нам відомо, CUDA дає можливість організовувати доступ до набору інструкцій графічного прискорювача і управляти його пам'яттю і організовувати складні паралельні обчислення. Її архітектура використовує grid-модель пам'яті, кластерне моделювання потоків і SIMD-інструкції. У порівнянні з традиційним підходом до організації обчислень загального призначення за допомогою графічних API, у архітектури CUDA є як переваги, так і обмеження.
.
CUDA
На сьогодні програміст має можливість забезпечення паралелізму обчислень з використанням як високорівневих мов програмування, таких як C, C ++ і Fortran, так і за допомогою API - OpenCL і DirectX 11 Compute.
Зовсім недавно керівник «табору зелених», Jen-Hsun Huang, поділився планами про майбутні перспективи розвитку технологій GPGPU, як їх бачить компанія.
Зокрема, він озвучив наступні цікаві моменти:
- на даний момент продуктивність GPU кожні 2 роки в чотири рази збільшується, також впроваджуються нові функції, однак NVIDIA зупиниться на якийсь час на CUDA;
- NVIDIA не прагнутиме повністю замінити CPU, а лише посилювати слабкі сторони ЦП потужною підтримкою з боку GPU (через розпаралеленого обчислення), причому приголомшливого прориву в близькому майбутньому не буде: триразове прискорення - вже слід визнати успіхом;
- на сьогодні GPU може працювати з 1 процесом, в подальшому буде буде кілька процесів на 1 GPU, а ще ефективніше - поєднання обох підходів. Так, сервер з 1 прискорювачем Tesla зможе виступати і як ігрова карта, і як спеціалізована Quadro, і як GPGPU-прискорювач обчислень і навіть виконувати згадані дії одночасно;
- одним з найважливіших рішень у компанії бачать відмову від множинного копіювання даних з системної ОЗУ в відеопам'ять і назад в сучасних циклах обчислень, що дозволить певною мірою обійти проблему низької смуги пропускання, хоча неминуче і нарощування традиційних методів щодо прискорення передачі даних на апаратному рівні .
.
Дане відео наочно демонструє стійку з серверами PowerEdge C410x і можливості їх технічного обслуговування, примітно, що загальний рівень шуму вентиляторів досить високий.
Тут показана програмна сторона обслуговування сервера, конфігурація і моніторинг
Dell вже створювала схожу систему, як частина суперкомп'ютера Lincoln для Національного суперкомп'ютерного центру США. Обчислювальна потужність кластера становила 47 TFLOPS. Справжнє ж рішення орієнтоване на сектор корпоративних користувачів в області рішень для віртуалізації. Microsoft і VmWare вже заявили, що їхні продукти наступного покоління будуть підтримувати віртуалізацію графічного процесора. Це дозволить запускати ресурсомісткі графічні додатки в віртуальних машинах (нарешті з'явилося світло в кінці тунелю!). Причому попередня версія технології Microsoft RemoteFX вже доступна в Windows Server 2008 R2 SP1 Release Candidate, вже відкритому для бета-тестування.
Як AMD, так і Nvidia відзвітували про те, що RemoteFX дозволяє реалізувати візуальну віртуалізацію для сьогоднішніх професійних відеокарт AMD FirePro і Nvidia Quadro. Окремо хочеться відзначити, що свій внесок в розвиток технології RemoteFX вносять і фахівці ІТ-інтеграторів Dell і HP.
Докинг білків
Дуже складна для моделювання (зважаючи на великі розмірів) молекула білка
Порівняння симуляції на CPU і GPU в Jacket Matlab, 50-кратну перевагу відеоприскорювача
В основному, у вільному доступі ми можемо спостерігати симуляції частинок, особливо цікаво інтерактивна взаємодія у реальному часі.
В продовження теми використання прискорювачів NVIDIA Tesla в складі високопродуктивних кластерів відзначимо іншу важливу подію. Суперкомп'ютер Tianhe-1A, що знаходиться на території Китаю, досяг швидкодії в 2,507 петафлопс, і, очікується, що саме він стане ПЕРШИМ номером в новому списку суперкомп'ютерів TOP-500, обійшовши всі суперкомп'ютери США і Європи (оновлення списку проводиться в лпеделенную дату).
Мозговим центром Tianhe-1A є 7168 чіпів Tesla M2050 і 14336 процесорів Intel Xeon.
Представники NVIDIA вже оголосили, що даний кластер не тільки найшвидший в світі, але і самий «екологічний», так як він споживає всього лише 4,04 МВт електроенергії. І це майже в 3 рази менше, ніж при використанні одних тільки CPU, в еквівалентній обчислювальної потужності.
Менеджер зі зв'язків з громадськістю Sumit Gupta заявив, що даний суперкомп'ютер використовуватиметься для дослідницьких робіт в області астрофізики, біохімії та інших прикладних наук.
Вартість одних тільки акселераторів Tesla в даному кластері склала майже 18 млн. Доларів!
Ну, і на «десерт» про застосування прискорювачів NVIDIA в кіноіндустрії, потрібно ж розбавити матеріал, чимось більш «відпочиваючим», тим більше, що все це теж має пряме відношення до теми: -))
Відеоприскорювачі NVIDIA Quadro з підтримкою CUDA використовувалися при створенні таких фільмів як «Аватар», «2012» і «свіжого» блокбастера «Солт».
Тут цікаве про створення спецефектів у фільмі «2012»:
У ролику показана багатошарова візуалізація різних сцен фільму, пов'язаних з величезними масивами води, і розбиваються під дією потоків води об'єктів, що є надзвичайно ресурсномісткої за сьогоднішніми мірками завданням, а років 10 тому мало хто з галузевих експертів міг собі уявити можливість створення подібного.
Для фільму зусиллями фахівців студії Uncharted Territory було створено 422 динамічні сцени і 100 сцен - студії Scanline VFX. Обидві компанії дуже вражені міццю графічних прискорювачів NVIDIA і збираються надалі розширити арсенал використовуваних графічних додатків, що використовують GPGPU, в тому числі і написаних на замовлення.
Московська студія Tikibot займалася створенням у фільмі «Солт» спецефектів заднього плану, таких як навколишнє оточення, будови, ефекти на основі частинок (дим, вибухи, вогонь, оскільки в результаті твердотільних і рідинних деформацій). В роботі використовувалися програмні пакети Autodesk Maya, Pixar RenderMan і Adobe Premiere Pro CS5 та інші, що підтримують GPU-прискорення.
Композітінг сцени з фільму:
Залиште свою думку і побажання до статті"GPU-кластери на базі Dell PowerEdge C410x: для чого вони нам?"