ШІ стане дешевшим? Google обіцяє -80% витрат на інференс

Google офіційно показала восьме покоління своїх AI-чипів TPU. Компанія зробила незвичний крок — розділила їх на два окремі типи: для навчання моделей і для їхньої роботи. Це виглядає як спроба радикально прискорити ШІ та одночасно знизити витрати.

Про новинку повідомляє NNews із посиланням на Google Cloud Next.

Два чипи — дві різні ролі

Google представила:

  • TPU 8t — для тренування великих моделей
  • TPU 8i — для інференсу (коли ШІ вже відповідає на запити)

Такий поділ — не випадковий. Раніше один тип заліза намагався робити все одразу. Тепер Google оптимізує кожен етап окремо — як розділення завдань між “учителем” і “виконавцем”.

Що змінилось у продуктивності

TPU 8t показує майже трикратне зростання обчислювальної потужності порівняно з попереднім поколінням.

  • До 9 600 чипів в одному кластері
  • До 121 екзафлопс продуктивності
  • До 97% ефективного завантаження (мінімум простоїв)
Читайте також:  Чому не варто залишати зарядку для телефона в розетці: три причини

Простими словами: моделі, які раніше тренувалися тижнями, можуть навчатися значно швидше.

Чому TPU 8i важливий для користувачів

Другий чип — TPU 8i — працює там, де це відчувають користувачі:

  • швидші відповіді ШІ
  • нижчі затримки
  • дешевші запити

Google заявляє про +80% ефективності за долар. Це означає, що компанії зможуть обробляти майже вдвічі більше запитів за ті самі гроші.

Контекст: боротьба з Nvidia

Ринок AI-чипів зараз фактично контролює Nvidia. Але Google рухається іншим шляхом — створює повністю власну екосистему:

  • чипи
  • дата-центри
  • мережі
  • софт

Це як Apple у світі ШІ, тільки для хмарних обчислень.

Чому це сталося саме зараз

Причина — стрімкий перехід до AI-агентів. Це системи, які не просто відповідають, а:

  • виконують задачі
  • працюють із інструментами
  • взаємодіють між собою
Читайте також:  Google і Samsung об'єднали системи передачі файлів на Android у нову Quick Share

Для цього потрібна інша інфраструктура — швидша, дешевша і більш гнучка.

Що ще змінилось

  • До 2× краща енергоефективність
  • Рідинне охолодження нового покоління
  • Підтримка JAX, PyTorch, vLLM без серйозних змін

І важливий момент: ці чипи будуть доступні в Google Cloud вже пізніше у 2026 році.

Чому це важливо

Це не просто новий чип.

Це сигнал, що:

  • ШІ стає дешевшим у масштабі
  • інфраструктура змінюється під агентні системи
  • монополія GPU може почати хитатися

Якщо обіцянки Google справдяться, запуск нових моделей стане швидшим, а сервіси — доступнішими.

Цікавий факт

Один кластер TPU 8t може виконувати 121 квінтильйон операцій за секунду — це більше, ніж кількість зірок у нашій галактиці, які оцінюють у ~100–400 мільярдів.