Close Menu
    Facebook X (Twitter) Instagram
    NNews
    • ГОЛОВНА
    • НОВИНИ
      • Україна
      • Світ
      • Спорт
      • Криптовалюта
    • АВТОМОБІЛІ
    • ТЕХНОЛОГІЇ
      • Кібербезпека
    • НАУКА
    • ІГРИ
    • LifeStyle
      • Курйози
      • Краса та здоров’я
      • Корисні поради
      • Фільми та серіали
      • Афіша
      • Погода
      • Реклама
    Facebook X (Twitter) Instagram
    NNews
    Home»ТЕХНОЛОГІЇ»У світі не вистачає даних, щоб годувати ШІ, попереджають експерти
    ТЕХНОЛОГІЇ

    У світі не вистачає даних, щоб годувати ШІ, попереджають експерти

    Anna NevolinaBy Anna Nevolina13.11.2023Коментарів немає4 Mins Read
    Facebook Twitter LinkedIn Telegram Copy Link
    У світі не вистачає даних, щоб годувати ШІ, попереджають експерти

    Оскільки штучний інтелект (ШІ) досягає піку своєї популярності, дослідники попереджають, що в галузі може закінчитися навчальна інформація – паливо, на якому працюють потужні системи ШІ.

    Це може сповільнити зростання моделей ШІ, особливо великих мовних моделей, і навіть змінити траєкторію революції ШІ.

    Але чому потенційна нестача даних є проблемою, враховуючи, скільки їх є в Інтернеті? І чи є спосіб усунути цей ризик?

    Чому якісні дані важливі для ШІ

    Для навчання потужних, точних і якісних алгоритмів штучного інтелекту потрібна велика кількість даних. Наприклад, ChatGPT був навчений на 570 гігабайтах текстових даних, або близько 300 мільярдів слів.

    Аналогічно, алгоритм стабільної дифузії (який лежить в основі багатьох програм для створення зображень зі штучним інтелектом, таких як DALL-E, Lensa і Midjourney) навчався на наборі даних LIAON-5B, що складається з 5,8 мільярда пар зображення-текст. Якщо алгоритм навчається на недостатній кількості даних, він буде давати неточні або неякісні результати.

    Якість даних для навчання також важлива. Низькоякісні дані, такі як пости в соціальних мережах або розмиті фотографії, легко знайти, але їх недостатньо для навчання високопродуктивних моделей ШІ.

    Читайте також:  Дива не сталося? Відомий на весь світ бізнес, який вигадав ChatGPT, приніс лише $130

    Текст, взятий із соціальних мереж, може бути упередженим або необ’єктивним, або містити дезінформацію чи незаконний контент, який може бути відтворений моделлю. Наприклад, коли Microsoft спробувала навчити свого штучного інтелекту бота на основі контенту з Twitter, він навчився видавати расистські та мізогіністичні результати.

    Ось чому розробники ШІ шукають високоякісний контент, такий як текст з книг, інтернет-статей, наукових робіт, Вікіпедії та певний відфільтрований веб-контент. Щоб зробити Google Assistant більш розмовним, його навчали на 11 000 романтичних романів, взятих з сайту самвидаву Smashwords.

    Чи достатньо у нас даних?

    Індустрія штучного інтелекту навчає ШІ-системи на дедалі більших наборах даних, тому зараз ми маємо високопродуктивні моделі, такі як ChatGPT або DALL-E 3. Водночас дослідження показують, що запаси даних в Інтернеті зростають набагато повільніше, ніж набори даних, які використовуються для навчання ШІ.

    У статті, опублікованій минулого року, група дослідників спрогнозувала, що високоякісні текстові дані закінчаться до 2026 року, якщо поточні тенденції в навчанні ШІ збережуться. Вони також підрахували, що низькоякісні мовні дані будуть вичерпані десь між 2030 і 2050 роками, а низькоякісні дані зображень – між 2030 і 2060 роками.

    Читайте також:  Google випустила Android 12 - в ній є функція гри без повної установки

    За даними аудиторсько-консалтингової групи PwC, до 2030 року ШІ може принести світовій економіці до 15,7 трильйона доларів США (24,1 трильйона австралійських доларів). Але нестача придатних для використання даних може сповільнити його розвиток.

    Чи варто хвилюватися?

    Хоча вищенаведені пункти можуть занепокоїти деяких фанатів ШІ, ситуація може бути не такою поганою, як здається. Існує багато невідомого про те, як будуть розвиватися моделі штучного інтелекту в майбутньому, а також кілька способів вирішити проблему нестачі даних.

    Одна з можливостей для розробників ШІ – це вдосконалення алгоритмів, щоб вони ефективніше використовували дані, які вже є в наявності.

    Цілком ймовірно, що в найближчі роки вони зможуть навчати високопродуктивні системи ШІ, використовуючи менше даних і, можливо, меншу обчислювальну потужність. Це також допоможе зменшити вуглецевий слід ШІ.

    Інший варіант – використовувати ШІ для створення синтетичних даних для навчання систем. Іншими словами, розробники можуть просто генерувати дані, які їм потрібні, відповідно до їхньої конкретної моделі ШІ.

    Деякі проєкти вже використовують синтетичний контент, який часто отримують із сервісів, що генерують дані, таких як Mostly AI. У майбутньому це стане більш поширеним явищем.

    Читайте також:  Україна посіла перше місце у світі за кількістю розробників ШІ – Федоров

    Розробники також шукають контент поза межами вільного онлайн-простору, наприклад, у великих видавництвах та офлайн-репозиторіях. Подумайте про мільйони текстів, опублікованих до появи інтернету. Доступні в цифровому форматі, вони можуть стати новим джерелом даних для проєктів зі створення штучного інтелекту.

    News Corp, один з найбільших у світі власників новинного контенту (значна частина якого знаходиться за платною стіною), нещодавно заявила, що веде переговори з розробниками ШІ щодо укладення угод про надання контенту. Такі угоди змусять АІ-компанії платити за навчальні дані – тоді як досі вони здебільшого вишкрібали їх з інтернету безкоштовно.

    Творці контенту протестують проти несанкціонованого використання їхнього контенту для навчання ШІ-моделей, і деякі з них подали до суду на такі компанії, як Microsoft, OpenAI і Stability AI. Винагорода за їхню роботу може допомогти відновити певний дисбаланс сил, який існує між творчими людьми та компаніями, що розробляють ШІ.

    Цю статтю передруковано з The Conversation . Читайте оригінал статті..

    ChatGpt DALL-E 3 ШІ

    Також читайте:

    До $18 млн за одного фахівця: як Китай переманює топ-таланти ШІ

    03.04.2026

    Тім Кук уперше побачив секретні прототипи Apple

    03.04.2026

    Коли вийде iOS 26.5 і що зміниться для iPhone

    02.04.2026

    Вам буде цікаво

    До $18 млн за одного фахівця: як Китай переманює топ-таланти ШІ

    03.04.2026

    Фізики вперше зафіксували «темряву», що рухається швидше за світло

    03.04.2026

    Електрокар Mazda 6e став новим еталоном дизайну

    03.04.2026
    Facebook X (Twitter) Instagram YouTube Telegram Threads
    • Використання матеріалу
    • Редакційна політика
    • Про нас
    • Контакти
    • Редакція
    © 2026 ThemeSphere. Designed by ThemeSphere.

    Type above and press Enter to search. Press Esc to cancel.