Gemma 4 отримала масштабне оновлення швидкості: що змінила Google

Google представила нову технологію для своїх відкритих ШІ-моделей Gemma 4, яка може суттєво змінити роботу локального штучного інтелекту. Компанія заявляє про приріст швидкості генерації до 3 разів без погіршення якості відповідей. Це стало можливим завдяки системі Multi-Token Prediction (MTP), що «передбачає» наступні токени ще до того, як основна модель їх обчислить.

Про це повідомляє NNews із посиланням на Ars Technica та Google.

Як працює нова технологія

Більшість сучасних мовних моделей генерують текст послідовно — токен за токеном. Кожне слово або фрагмент тексту потребує окремого обчислення, через що локальні ШІ часто працюють повільніше, ніж хмарні сервіси.

У випадку Gemma 4 Google додала спеціальні «чернеткові» моделі — так звані MTP drafters. Вони значно менші за основну модель і швидко прогнозують кілька наступних токенів наперед. Основна модель паралельно перевіряє ці припущення. Якщо прогноз правильний — система одразу приймає весь блок тексту.

Читайте також: Названо смартфон, який заряджається найшвидше на планеті

Фактично ШІ перестає чекати кожне окреме слово й починає працювати пакетами.

Чому це важливо для локального ШІ

Головна проблема локальних моделей — обмеження звичайного «заліза». На домашніх ПК або смартфонах пам’ять працює значно повільніше, ніж у серверних AI-системах із HBM-пам’яттю та TPU-прискорювачами.

Через це процесори часто простоюють під час передачі даних між VRAM і обчислювальними блоками. MTP використовує цей «мертвий» час для створення прогнозованих токенів, що різко підвищує ефективність.

Google стверджує, що:

Gemma 4 E2B на смартфонах Pixel працює у 2,8 раза швидше;
E4B — до 3,1 раза швидше;
велика модель Gemma 4 31B на Apple M4 отримала приріст близько 2,5 раза.

Локальний ШІ стає реальнішим для звичайних користувачів

Новий підхід може зробити потужні моделі доступнішими для звичайних комп’ютерів та ноутбуків. Google прямо заявляє, що тепер моделі рівня 26B MoE або 31B Dense буде легше запускати навіть на споживчому обладнанні.

Читайте також: "Google Диск" отримує новий дизайн на iOS та Android

Це особливо важливо на тлі зростання інтересу до приватного AI. Локальні моделі дозволяють працювати зі ШІ без передачі даних у хмару Google, OpenAI чи інших компаній.

Окремо Google перевела Gemma 4 на ліцензію Apache 2.0 — одну з найвідкритіших у світі open-source. Для розробників це означає менше обмежень на комерційне використання.

Чи є ризики

Google наголошує, що MTP не погіршує якість відповідей, оскільки всі «передбачені» токени проходять перевірку основною моделлю. Проте це не означає, що ШІ перестане помилятися — галюцинації та неточності залишаються типовою проблемою генеративних моделей.

Також реальний приріст швидкості сильно залежить від конкретного пристрою та типу моделі.

Де вже можна спробувати

Оновлені Gemma 4 з підтримкою MTP вже доступні через:

Ollama
MLX
VLLM
SGLang

Google виклала нові моделі у відкритий доступ.

Читайте також: Google готується повністю перейменувати Bard на Gemini

Чому це може змінити ринок

Схоже, індустрія поступово рухається до ери «персонального AI», де моделі працюватимуть прямо на ноутбуках, смартфонах і навіть офлайн-пристроях. Якщо локальні ШІ стануть достатньо швидкими, користувачам дедалі рідше доведеться залежати від дорогих хмарних сервісів.

І саме швидкість зараз є одним із ключових бар’єрів.

Чому це важливо

MTP може стати одним із найбільших проривів для локального AI у 2026 році. Технологія дозволяє запускати складні моделі швидше без дорогого серверного обладнання, що потенційно відкриває шлях до масового офлайн-ШІ на звичайних пристроях.

Цікавий факт

Чернеткові моделі Gemma MTP мають лише 74 мільйони параметрів — у сотні разів менше за основні моделі, але саме вони забезпечують приріст швидкості до 3 разів.