ШІ стане дешевшим? Google обіцяє -80% витрат на інференс

Google офіційно показала восьме покоління своїх AI-чипів TPU. Компанія зробила незвичний крок — розділила їх на два окремі типи: для навчання моделей і для їхньої роботи. Це виглядає як спроба радикально прискорити ШІ та одночасно знизити витрати.

Про новинку повідомляє NNews із посиланням на Google Cloud Next.

Два чипи — дві різні ролі

Google представила:

TPU 8t — для тренування великих моделей
TPU 8i — для інференсу (коли ШІ вже відповідає на запити)

Такий поділ — не випадковий. Раніше один тип заліза намагався робити все одразу. Тепер Google оптимізує кожен етап окремо — як розділення завдань між “учителем” і “виконавцем”.

Що змінилось у продуктивності

TPU 8t показує майже трикратне зростання обчислювальної потужності порівняно з попереднім поколінням.

До 9 600 чипів в одному кластері
До 121 екзафлопс продуктивності
До 97% ефективного завантаження (мінімум простоїв)

Читайте також: Google вже працює над серією Pixel 12 і дала смартфонам незвичайні "мавпячі" назви

Простими словами: моделі, які раніше тренувалися тижнями, можуть навчатися значно швидше.

Чому TPU 8i важливий для користувачів

Другий чип — TPU 8i — працює там, де це відчувають користувачі:

швидші відповіді ШІ
нижчі затримки
дешевші запити

Google заявляє про +80% ефективності за долар. Це означає, що компанії зможуть обробляти майже вдвічі більше запитів за ті самі гроші.

Контекст: боротьба з Nvidia

Ринок AI-чипів зараз фактично контролює Nvidia. Але Google рухається іншим шляхом — створює повністю власну екосистему:

чипи
дата-центри
мережі
софт

Це як Apple у світі ШІ, тільки для хмарних обчислень.

Чому це сталося саме зараз

Причина — стрімкий перехід до AI-агентів. Це системи, які не просто відповідають, а:

виконують задачі
працюють із інструментами
взаємодіють між собою

Читайте також: Xbox Series S який перетворюється в портативну консоль

Для цього потрібна інша інфраструктура — швидша, дешевша і більш гнучка.

Що ще змінилось

До 2× краща енергоефективність
Рідинне охолодження нового покоління
Підтримка JAX, PyTorch, vLLM без серйозних змін

І важливий момент: ці чипи будуть доступні в Google Cloud вже пізніше у 2026 році.

Чому це важливо

Це не просто новий чип.

Це сигнал, що:

ШІ стає дешевшим у масштабі
інфраструктура змінюється під агентні системи
монополія GPU може почати хитатися

Якщо обіцянки Google справдяться, запуск нових моделей стане швидшим, а сервіси — доступнішими.

Цікавий факт

Один кластер TPU 8t може виконувати 121 квінтильйон операцій за секунду — це більше, ніж кількість зірок у нашій галактиці, які оцінюють у ~100–400 мільярдів.

Читайте також: ШІ Ілона Маска заходить у Word і Excel — Grok готує власні плагіни