DeepSeek досягла революційних результатів в ШІ з меншою кількістю ресурсів

Китайська компанія DeepSeek, заснована в 2023 році, стала сенсацією в світі штучного інтелекту завдяки ефективним моделям, що конкурують з продуктами OpenAI та Anthropic. Випустивши моделі V3 і R1, компанія здивувала дослідників і інвесторів, продемонструвавши високі результати за значно меншу ціну і з використанням менших обчислювальних потужностей. Модель V3 була навчена за вартістю близько 5,58 мільйона доларів, що вдесятеро дешевше за GPT-4, а для навчання було використано лише 2 000 чіпів H800.

Модель R1, що спирається на V3, є “reasoning” версією, здатною розв’язувати складні задачі через поетапне мислення. Це сприяло росту популярності DeepSeek, а також вплинуло на падіння вартості акцій компанії NVIDIA, що постачає чіпи для AI-моделей.

Головними досягненнями DeepSeek стали нові техніки ефективності, зокрема метод “рідкості”, коли тренуються лише необхідні параметри моделей, і спосіб стиснення даних для швидшого зберігання і доступу. Це дозволяє значно зменшити витрати на навчання моделей порівняно з традиційними підходами.

Читайте також: Канібальський викид зі Сонця вже торкнувся Землі: якої потужності вирує магнітна буря

Моделі DeepSeek випущені під вільною ліцензією MIT, що дає змогу дослідникам по всьому світу використовувати і модифікувати їх. Це може значно спростити доступ до AI та знизити витрати для споживачів і дослідників, зокрема тих, хто не має великих фінансових ресурсів.

Джерело