Новий чат-бот Google пройшов медичний іспит у США

Медичний чат-бот від Google на основі штучного інтелекту отримав прохідну оцінку на жорсткому іспиті з медичного ліцензування в США, але його відповіді все ще не відповідають відповідям лікарів-людей, йдеться в рецензованому дослідженні в середу.

Минулого року випуск ChatGPT , чий розробник OpenAI підтримується конкурентом Google Microsoft, поклав початок гонці між технологічними гігантами в галузі штучного інтелекту, що розвивається.

Хоча багато було зроблено про майбутні можливості – і небезпеки – штучного інтелекту, здоров’я є однією зі сфер, де технологія вже продемонструвала відчутний прогрес, завдяки алгоритмам, здатним зчитувати певні медичні сканування, а також люди.

Google вперше представив свій інструмент штучного інтелекту для відповідей на медичні запитання під назвою Med-PaLM у дослідженні препринтів у грудні . На відміну від ChatGPT, він не був оприлюднений.

Американський технічний гігант каже, що Med-PaLM — це перша велика мовна модель, техніка штучного інтелекту, навчена на величезній кількості тексту, створеного людиною, яка пройшла іспит на медичне ліцензування США (USMLE).

Читайте також: Google навчився вимірювати пульс людини за допомогою TWS-навушників

Прохідний бал за іспит, який складають студенти-медики та лікарі-практиканти в Сполучених Штатах, становить близько 60 відсотків.

У лютому дослідження показало, що ChatGPT досягла прохідних або майже прохідних результатів.

У рецензованому дослідженні , опублікованому в журналі Nature у середу, дослідники Google заявили, що Med-PaLM досяг 67,6 відсотка відповідей на запитання з кількома варіантами відповідей у стилі USMLE.

«Med-PaLM показує обнадійливі результати, але все ще поступається клініцистам», — йдеться в дослідженні.

Щоб виявити та зменшити «галюцинації» — так називають випадки, коли моделі штучного інтелекту пропонують неправдиву інформацію — Google розробила новий контрольний показник.

Каран Сінгхал, дослідник Google і провідний автор нового дослідження, сказав AFP, що команда використала еталонний тест для тестування новішої версії своєї моделі з «надзахоплюючими» результатами.

Читайте також: Фізик виявив, що "безпарадоксальна" подорож у часі теоретично можлива

Med-PaLM 2 досяг 86,5 відсотка на іспиті USMLE, перевищивши попередню версію майже на 20 відсотків, згідно з дослідженням препринтів, опублікованим у травні, яке не було рецензовано.

Слон в кімнаті

Джеймс Девенпорт, комп’ютерний науковець з Університету Бата Великобританії, який не брав участі в дослідженні, сказав, що «в кімнаті є слон» для цих медичних чат-ботів на основі ШІ.

Існує велика різниця між відповідями на «медичні запитання та справжньою медициною», яка включає діагностику та лікування справжніх проблем зі здоров’ям», – сказав він.

Ентоні Кон, експерт зі штучного інтелекту з британського Університету Лідса, сказав, що галюцинації завжди будуть проблемою для таких великих мовних моделей через їх статистичний характер.

Тому ці моделі “завжди слід розглядати як помічників, а не тих, хто приймає остаточні рішення”, – сказав Кон.

Сінгхал сказав, що в майбутньому Med-PaLM можна буде використовувати для підтримки лікарів, щоб запропонувати альтернативи, які, можливо, не розглядалися інакше.

Читайте також: Google працює над вирішенням однієї з найбільших проблем з Android 14

Раніше цього тижня газета Wall Street Journal повідомила, що Med-PaLM 2 тестується в престижній американській дослідницькій лікарні Mayo Clinic з квітня.

Сінгхал сказав, що не може говорити про конкретні партнерства.

Але він підкреслив, що будь-яке тестування не буде «клінічним, спрямованим на пацієнта або здатним завдати шкоди пацієнтам».

Натомість це було б для «більше адміністративних завдань, які можна відносно легко автоматизувати, з невеликими ставками», додав він.