На цьогорічній конференції Google I/O пошуковий гігант продемонстрував, що не має наміру поступатися лідерством у впровадженні штучного інтелекту. ШІ буде тісніше інтегрований у Google Фото, Google Камеру, Gmail, пошук та інші додатки, а Gemini стане основним персональним асистентом, з яким можна буде спілкуватися за допомогою тексту, голосу та камери.
Google I/O 2024: основні моменти
- Тепер Gemini стане головним помічником в Android. Про долю Google Assistant нічого не відомо, але ми всі знаємо звички Google.
- Генерація зображень – згідно з детальним описом, Gemini буде створювати зображення навіть неіснуючих об’єктів. Також можна створювати красиві підписи.
- Генерація відео за описом. Відео можна розтягнути до потрібної тривалості. Дуже перспективний інструмент для блогерів для отримання безкоштовних тематичних відео-вставок.
Music AI Sandbox – інструмент для генерації за текстовим описом музичного семплу або обробки вхідної аудіодоріжки. - Google Фото тепер аналізуватиме повний контекст фотографій. Можна буде не тільки шукати зображення за описом того, що на них знято, а й робити тематичні добірки, наприклад, прогрес з тренувань за рік тощо.
- API Gemini 1.5 Pro – це мовна модель, яка надасть 1 млн токенів для обробки запитів, запам’ятовування історії розмов та врахування найбільшого контексту серед конкурентів. Влітку кількість доступних токенів буде подвоєно. Gemini 1.5 Flash – швидкий AI API для отримання результатів майже в реальному часі.
- ШІ для навчання буде систематизувати і пояснювати навчальний матеріал, включаючи повсякденні приклади.
- Circle to search – фішка, анонсована в Galaxy S24 Ultra, яка потім потрапила в Google Pixel, незабаром з’явиться на всіх смартфонах Android. Нагадаємо, що досить обвести об’єкт на екрані, щоб Google визначив, що саме там зображено, і запустив пошук за цим об’єктом.
- Глибокий аналіз контексту. Наприклад, якщо ви попросите Gemini організувати поїздку, він не тільки купить квиток, але й запропонує місце для ночівлі та перевірить прогноз погоди. Або, замовляючи взуття, він зможе скоригувати ваш розмір з вашого листування в Gmail.
- Запитувати Gemini можна не лише за допомогою тексту чи голосу, але й за допомогою камери. У демонстраційному відео Gemini пояснив, що робить об’єкт у кадрі, на льоту аналізує програмний код і пояснює, що він робить, розгадує головоломки, запам’ятовує, де був об’єкт, який бачили в кадрі раніше.
- Ера пошуку за Близнюками. Мало того, що пошук миттєво видаватиме згенеровані ШІ уривки та відповіді, тепер він зможе складати плани та завдання.
- Ви зможете вводити складні запити, і тоді Gemini прокладе маршрут, перевірить рейтинг закладу або складе меню на тиждень, якщо потрібно, одразу ж склавши список покупок і місць, де їх можна зробити.
- Gmail тепер надаватиме звіт про електронну пошту, а також можна буде об’єднати кілька листів і зробити звіт про них разом. ШІ також зможе відповісти всім відправникам цих листів, додати завдання до календаря або навіть створити таблицю Google Sheets з усіма схожими пропозиціями, які надійшли на пошту.
- Для командної роботи Gemini проаналізує всі ваші робочі чати, знайде та проаналізує інформацію в них і відповість потрібним колегам, навіть якщо ви не знаєте, в якому саме чаті відбувається обговорення.
- Gemini можна надіслати для аналізу PDF-файл обсягом до 1500 сторінок і попросити зробити короткий переклад. Або відео тривалістю до 1 години, і Gemini проаналізує всі фрагменти і, якщо потрібно, покаже саме той сегмент, який потрібен користувачеві.
- У Gemini можна запитати, чому не працює певний механізм, наприклад, діджейський пульт або камера, і АІ дасть відповідь, як це виправити. Для цього АІ розпізнає механізм у кадрі, його модель, дію, яку намагається зробити користувач, використовує ці дані для пошуку, аналізує їх і витягує саме необхідну інформацію.
- АІ для програмістів згенерує код за описом завдання, створить базу даних фотографій об’єктів і буде шукати помилки.
- Захист від шахрайських дзвінків. АІ аналізуватиме ваші розмови в режимі реального часу, і якщо співрозмовник поводитиметься підозріло, наприклад, запитуватиме ваші банківські реквізити, видасть звуковий сигнал і попередження про можливе шахрайство.
- Штучний інтелект підтримуватиме 35 мов і матиме найбільше контекстне вікно серед усіх конкурентів.
Цього року Сундар Пічаї відповів на гумор щодо минулорічної презентації Google I/O і одразу ж навів статистику, що за майже 2-годинну презентацію абревіатура “AI” була вимовлена 120 разів. А потім ще раз.