У світі не вистачає даних, щоб годувати ШІ, попереджають експерти

Оскільки штучний інтелект (ШІ) досягає піку своєї популярності, дослідники попереджають, що в галузі може закінчитися навчальна інформація – паливо, на якому працюють потужні системи ШІ.

Це може сповільнити зростання моделей ШІ, особливо великих мовних моделей, і навіть змінити траєкторію революції ШІ.

Але чому потенційна нестача даних є проблемою, враховуючи, скільки їх є в Інтернеті? І чи є спосіб усунути цей ризик?

Чому якісні дані важливі для ШІ

Для навчання потужних, точних і якісних алгоритмів штучного інтелекту потрібна велика кількість даних. Наприклад, ChatGPT був навчений на 570 гігабайтах текстових даних, або близько 300 мільярдів слів.

Аналогічно, алгоритм стабільної дифузії (який лежить в основі багатьох програм для створення зображень зі штучним інтелектом, таких як DALL-E, Lensa і Midjourney) навчався на наборі даних LIAON-5B, що складається з 5,8 мільярда пар зображення-текст. Якщо алгоритм навчається на недостатній кількості даних, він буде давати неточні або неякісні результати.

Якість даних для навчання також важлива. Низькоякісні дані, такі як пости в соціальних мережах або розмиті фотографії, легко знайти, але їх недостатньо для навчання високопродуктивних моделей ШІ.

Текст, взятий із соціальних мереж, може бути упередженим або необ’єктивним, або містити дезінформацію чи незаконний контент, який може бути відтворений моделлю. Наприклад, коли Microsoft спробувала навчити свого штучного інтелекту бота на основі контенту з Twitter, він навчився видавати расистські та мізогіністичні результати.

Читайте також: Як штучний інтелект змінює технологічну революцію у галузі фінансів

Ось чому розробники ШІ шукають високоякісний контент, такий як текст з книг, інтернет-статей, наукових робіт, Вікіпедії та певний відфільтрований веб-контент. Щоб зробити Google Assistant більш розмовним, його навчали на 11 000 романтичних романів, взятих з сайту самвидаву Smashwords.

Чи достатньо у нас даних?

Індустрія штучного інтелекту навчає ШІ-системи на дедалі більших наборах даних, тому зараз ми маємо високопродуктивні моделі, такі як ChatGPT або DALL-E 3. Водночас дослідження показують, що запаси даних в Інтернеті зростають набагато повільніше, ніж набори даних, які використовуються для навчання ШІ.

У статті, опублікованій минулого року, група дослідників спрогнозувала, що високоякісні текстові дані закінчаться до 2026 року, якщо поточні тенденції в навчанні ШІ збережуться. Вони також підрахували, що низькоякісні мовні дані будуть вичерпані десь між 2030 і 2050 роками, а низькоякісні дані зображень – між 2030 і 2060 роками.

Читайте також: Перший у світі закон, створений чат-ботом, ухвалили в Бразилії

За даними аудиторсько-консалтингової групи PwC, до 2030 року ШІ може принести світовій економіці до 15,7 трильйона доларів США (24,1 трильйона австралійських доларів). Але нестача придатних для використання даних може сповільнити його розвиток.

Чи варто хвилюватися?

Хоча вищенаведені пункти можуть занепокоїти деяких фанатів ШІ, ситуація може бути не такою поганою, як здається. Існує багато невідомого про те, як будуть розвиватися моделі штучного інтелекту в майбутньому, а також кілька способів вирішити проблему нестачі даних.

Одна з можливостей для розробників ШІ – це вдосконалення алгоритмів, щоб вони ефективніше використовували дані, які вже є в наявності.

Цілком ймовірно, що в найближчі роки вони зможуть навчати високопродуктивні системи ШІ, використовуючи менше даних і, можливо, меншу обчислювальну потужність. Це також допоможе зменшити вуглецевий слід ШІ.

Інший варіант – використовувати ШІ для створення синтетичних даних для навчання систем. Іншими словами, розробники можуть просто генерувати дані, які їм потрібні, відповідно до їхньої конкретної моделі ШІ.

Деякі проєкти вже використовують синтетичний контент, який часто отримують із сервісів, що генерують дані, таких як Mostly AI. У майбутньому це стане більш поширеним явищем.

Читайте також: 15 фішок, які iPhone варто було б запозичити у Android-смартфонів

Розробники також шукають контент поза межами вільного онлайн-простору, наприклад, у великих видавництвах та офлайн-репозиторіях. Подумайте про мільйони текстів, опублікованих до появи інтернету. Доступні в цифровому форматі, вони можуть стати новим джерелом даних для проєктів зі створення штучного інтелекту.

News Corp, один з найбільших у світі власників новинного контенту (значна частина якого знаходиться за платною стіною), нещодавно заявила, що веде переговори з розробниками ШІ щодо укладення угод про надання контенту. Такі угоди змусять АІ-компанії платити за навчальні дані – тоді як досі вони здебільшого вишкрібали їх з інтернету безкоштовно.

Творці контенту протестують проти несанкціонованого використання їхнього контенту для навчання ШІ-моделей, і деякі з них подали до суду на такі компанії, як Microsoft, OpenAI і Stability AI. Винагорода за їхню роботу може допомогти відновити певний дисбаланс сил, який існує між творчими людьми та компаніями, що розробляють ШІ.

Цю статтю передруковано з The Conversation . Читайте оригінал статті..