Microsoft об’єднала десятки тисяч мікросхем у дорогий суперкомп’ютер для OpenAI

Microsoft об’єднала десятки тисяч мікросхем у дорогий суперкомп’ютер для OpenAI

Тепер хмарна технологія виробника програмного забезпечення підтримує продукти штучного інтелекту для компанії та клієнтів, поки створює наступника.

Коли Microsoft Corp. інвестувала 1 мільярд доларів у OpenAI у 2019 році, вона погодилася побудувати величезний передовий суперкомп’ютер для дослідницького стартапу зі штучного інтелекту. Єдина проблема: Microsoft не мала нічого подібного до того, що потрібно OpenAI, і не була повністю впевнена, що зможе створити щось таке велике у своїй хмарній службі Azure без її поломки.

OpenAI намагався навчити дедалі більший набір програм штучного інтелекту, званих моделями, які отримували все більші обсяги даних і вивчали все більше параметрів, змінних, які система штучного інтелекту виявила під час навчання та перепідготовки. Це означало, що OpenAI потребував доступу до потужних сервісів хмарних обчислень протягом тривалого часу. 

Щоб впоратися з цим завданням, Microsoft довелося знайти способи об’єднати десятки тисяч графічних чіпів A100 від Nvidia Corp. — робочої конячки для навчання моделей штучного інтелекту — і змінити спосіб розміщення серверів на стійках, щоб запобігти відключенню електроенергії. Скотт Гатрі, виконавчий віце-президент Microsoft, який курирує хмарні технології та штучний інтелект, не назвав конкретну вартість проекту, але сказав, що «ймовірно, він перевищує кілька сотень мільйонів доларів».

Ключові доповідачі на конференції Microsoft Corp. Build Developers 2018
Скотт ГатріФотограф: Грант Хіндслі/Блумберг

«Ми створили архітектуру системи, яка може працювати та бути надійною у дуже великому масштабі. Це те, що стало можливим для ChatGPT», — сказав Нідхі Чаппел, генеральний менеджер Microsoft з інфраструктури Azure AI. «Це одна модель, яка вийшла з цього. Буде багато, багато інших».

Ця технологія дозволила OpenAI випустити ChatGPT, вірусний чат-бот, який за кілька днів після виходу на біржу в листопаді залучив більше 1 мільйона користувачів і зараз його втягують у бізнес-моделі інших компаній, від тих, якими керує засновник хедж-фонду мільярдера Кен Гріффін, до харчових компаній. служба доставки  Instacart  Inc. Оскільки генеруючі інструменти штучного інтелекту, такі як ChatGPT, зацікавлюють бізнеси та споживачів, на постачальників хмарних послуг, як-от Microsoft, Amazon.com Inc. і Google від Alphabet Inc., буде чинитися більший тиск, щоб вони могли надавати свої центри обробки даних. необхідна величезна обчислювальна потужність. 

Читайте також:  Google оголошує про ініціативу кіберзахисту ШІ для захисту від хакерів

Тепер Microsoft використовує той самий набір ресурсів, який вона створила для OpenAI, щоб навчати та запускати власні великі моделі штучного інтелекту, включаючи нового пошукового бота Bing, представленого минулого місяця. Він також продає систему іншим клієнтам. Гігант програмного забезпечення вже працює над наступним поколінням суперкомп’ютера зі штучним інтелектом, що є частиною розширеної угоди з OpenAI, у рамках якої Microsoft додала 10 мільярдів доларів до своїх інвестицій.

«Ми не створювали для них спеціальну річ — це починалося як спеціальна річ, але ми завжди створювали це таким чином, щоб узагальнити це, щоб будь-хто, хто хоче навчити велику мовну модель, міг використовувати ті самі вдосконалення», — сказав Гатрі. в інтерв’ю. «Це дійсно допомогло нам стати кращою хмарою для ШІ в цілому».

Навчання масивної моделі штучного інтелекту вимагає великого об’єднання підключених графічних процесорів в одному місці, як суперкомп’ютер зі штучним інтелектом, зібраний Microsoft. Після того, як модель використовується, відповіді на всі запити користувачів — так звані висновки — потребують дещо інших налаштувань. Корпорація Майкрософт також розгортає графічні чіпи для висновків, але ці процесори — сотні тисяч із них — географічно розосереджені в більш ніж 60 регіонах центрів обробки даних компанії. Тепер компанія додає найновіший графічний чіп Nvidia для робочих навантажень штучного інтелекту — H100 — і найновішу версію мережевої технології Nvidia Infiniband для ще більшого обміну даними, повідомляє Microsoft у понеділок у блозі. 

Читайте також:  Android 15 зможе відправляти підозрілі програми на карантин, щоб захистити ваш телефон

Новий Bing все ще знаходиться на етапі попередньої версії, і Microsoft поступово додає більше користувачів зі списку очікування. Команда Гатрі проводить щоденні зустрічі з приблизно двома десятками співробітників, яких вони назвали «екіпажем пит-екіпажу» на честь групи механіків, які налаштовують перегонові автомобілі в середині перегонів. Завдання групи полягає в тому, щоб з’ясувати, як швидко перевести в мережу більшу кількість обчислювальних ресурсів, а також вирішити проблеми, що виникають.

«Це дуже схоже на тусовку, де звучить таке: «Гей, у когось є хороша ідея, давайте викладемо її сьогодні, обговоримо її та придумаємо, добре, чи можемо ми поголитися тут кілька хвилин?» Чи можемо ми поголитися кілька годин? Кілька днів?», — сказав Гатрі. 

Хмарний сервіс залежить від тисяч різних частин і предметів — окремих частин серверів, труб, бетону для будівель, різних металів і мінералів — і затримка або нестача будь-якого компонента, незалежно від того, наскільки крихітний, може вивести з ладу все. . Нещодавно екіпажу шахти довелося мати справу з нестачею кабельних лотків — подібних до кошиків пристосувань, які утримують кабелі, що відриваються від машин. Тож вони розробили новий кабельний лоток, який Microsoft могла виготовити самостійно або знайти десь, щоб купити. Вони також працювали над тим, щоб розмістити якомога більше серверів у існуючих центрах обробки даних по всьому світу, щоб їм не довелося чекати нових будівель, сказав Гатрі. 

Читайте також:  Новий штучний інтелект вивчить "історію вашого життя", щоб передбачити, чим воно може закінчитися

Коли OpenAI або Microsoft навчають велику модель ШІ, робота відбувається одночасно. Він розподілений між усіма графічними процесорами, і в певних моментах блоки повинні спілкуватися один з одним, щоб поділитися роботою, яку вони виконали. Для суперкомп’ютера зі штучним інтелектом Microsoft мала переконатися, що мережеве обладнання, яке обслуговує зв’язок між усіма чіпами, може впоратися з цим навантаженням, і їй довелося розробити програмне забезпечення, яке найкраще використовує графічні процесори та мережеве обладнання. Зараз компанія розробила програмне забезпечення, яке дозволяє навчати моделі з десятками трильйонів параметрів.

Оскільки всі машини запускаються одночасно, Microsoft довелося подумати, де їх розмістити та де розмістити джерела живлення. Інакше ви отримаєте версію центру обробки даних про те, що відбувається, коли ви одночасно включаєте мікрохвильову піч, тостер і пилосос на кухні, сказав Гатрі.  

Компанії також потрібно було переконатися, що вона може охолоджувати всі ці машини та чіпи, і використовує випаровування, зовнішнє повітря в прохолодніших кліматичних умовах і високотехнологічні болотні охолоджувачі в гарячих, сказав Алістер Спірс, директор глобальної інфраструктури Azure.

Корпорація Майкрософт збирається продовжувати працювати над адаптованими дизайнами серверів і чіпів, а також над способами оптимізації свого ланцюжка поставок, щоб досягти будь-якого збільшення швидкості, ефективності та економії коштів, сказав Гатрі.

«Модель, яка зараз вражає світ, побудована на суперкомп’ютері, який ми почали будувати пару років тому. Нові моделі будуть побудовані на новому суперкомп’ютері, який ми зараз тренуємо, який набагато більший і забезпечить ще більшу складність», – сказав він.