Медичний чат-бот від Google на основі штучного інтелекту отримав прохідну оцінку на жорсткому іспиті з медичного ліцензування в США, але його відповіді все ще не відповідають відповідям лікарів-людей, йдеться в рецензованому дослідженні в середу.
Минулого року випуск ChatGPT , чий розробник OpenAI підтримується конкурентом Google Microsoft, поклав початок гонці між технологічними гігантами в галузі штучного інтелекту, що розвивається.
Хоча багато було зроблено про майбутні можливості – і небезпеки – штучного інтелекту, здоров’я є однією зі сфер, де технологія вже продемонструвала відчутний прогрес, завдяки алгоритмам, здатним зчитувати певні медичні сканування, а також люди.
Google вперше представив свій інструмент штучного інтелекту для відповідей на медичні запитання під назвою Med-PaLM у дослідженні препринтів у грудні . На відміну від ChatGPT, він не був оприлюднений.
Американський технічний гігант каже, що Med-PaLM — це перша велика мовна модель, техніка штучного інтелекту, навчена на величезній кількості тексту, створеного людиною, яка пройшла іспит на медичне ліцензування США (USMLE).
Прохідний бал за іспит, який складають студенти-медики та лікарі-практиканти в Сполучених Штатах, становить близько 60 відсотків.
У лютому дослідження показало, що ChatGPT досягла прохідних або майже прохідних результатів.
У рецензованому дослідженні , опублікованому в журналі Nature у середу, дослідники Google заявили, що Med-PaLM досяг 67,6 відсотка відповідей на запитання з кількома варіантами відповідей у стилі USMLE.
«Med-PaLM показує обнадійливі результати, але все ще поступається клініцистам», — йдеться в дослідженні.
Щоб виявити та зменшити «галюцинації» — так називають випадки, коли моделі штучного інтелекту пропонують неправдиву інформацію — Google розробила новий контрольний показник.
Каран Сінгхал, дослідник Google і провідний автор нового дослідження, сказав AFP, що команда використала еталонний тест для тестування новішої версії своєї моделі з «надзахоплюючими» результатами.
Med-PaLM 2 досяг 86,5 відсотка на іспиті USMLE, перевищивши попередню версію майже на 20 відсотків, згідно з дослідженням препринтів, опублікованим у травні, яке не було рецензовано.
Слон в кімнаті
Джеймс Девенпорт, комп’ютерний науковець з Університету Бата Великобританії, який не брав участі в дослідженні, сказав, що «в кімнаті є слон» для цих медичних чат-ботів на основі ШІ.
Існує велика різниця між відповідями на «медичні запитання та справжньою медициною», яка включає діагностику та лікування справжніх проблем зі здоров’ям», – сказав він.
Ентоні Кон, експерт зі штучного інтелекту з британського Університету Лідса, сказав, що галюцинації завжди будуть проблемою для таких великих мовних моделей через їх статистичний характер.
Тому ці моделі “завжди слід розглядати як помічників, а не тих, хто приймає остаточні рішення”, – сказав Кон.
Сінгхал сказав, що в майбутньому Med-PaLM можна буде використовувати для підтримки лікарів, щоб запропонувати альтернативи, які, можливо, не розглядалися інакше.
Раніше цього тижня газета Wall Street Journal повідомила, що Med-PaLM 2 тестується в престижній американській дослідницькій лікарні Mayo Clinic з квітня.
Сінгхал сказав, що не може говорити про конкретні партнерства.
Але він підкреслив, що будь-яке тестування не буде «клінічним, спрямованим на пацієнта або здатним завдати шкоди пацієнтам».
Натомість це було б для «більше адміністративних завдань, які можна відносно легко автоматизувати, з невеликими ставками», додав він.