банер_сторінки

новини

Модель великої мови (LLM) може писати переконливі статті на основі підказок, складати іспити на професійну кваліфікацію та писати зрозумілу для пацієнта та чуйну інформацію. Однак, окрім добре відомих ризиків вигадки, крихкості та неточних фактів у LLM, інші невирішені питання поступово стають у центрі уваги, такі як моделі штучного інтелекту, що містять потенційно дискримінаційні «людські цінності» під час їх створення та використання, і навіть якщо LLM більше не створює контент та усуває явно шкідливі результати, «цінності LLM» все ще можуть відхилятися від людських цінностей.

 

Незліченні приклади ілюструють, як дані, що використовуються для навчання моделей штучного інтелекту, кодують індивідуальні та соціальні цінності, які можуть закріпитися в моделі. Ці приклади охоплюють низку застосувань, включаючи автоматичну інтерпретацію рентгенівських знімків грудної клітки, класифікацію шкірних захворювань та алгоритмічне прийняття рішень щодо розподілу медичних ресурсів. Як зазначено в нещодавній статті в нашому журналі, упереджені навчальні дані можуть посилювати та виявляти цінності та упередження, присутні в суспільстві. Навпаки, дослідження також показали, що штучний інтелект можна використовувати для зменшення упередженості. Наприклад, дослідники застосували моделі глибокого навчання до рентгенівських знімків коліна та виявили фактори, які були пропущені стандартними показниками тяжкості (оціненими радіологами) в колінному суглобі, тим самим зменшуючи незрозумілі відмінності в болю між чорношкірими та білими пацієнтами.

Хоча дедалі більше людей усвідомлюють упередженість моделей ШІ, особливо з точки зору навчальних даних, багатьом іншим точкам входу в людські цінності не приділяється достатньої уваги в процесі розробки та розгортання моделей ШІ. Медичний ШІ нещодавно досяг вражаючих результатів, але значною мірою він не враховував чітко людські цінності та їхню взаємодію з оцінкою ризиків та ймовірнісним мисленням, а також не був змодельований.

 

Щоб конкретизувати ці абстрактні поняття, уявіть, що ви ендокринолог, якому потрібно призначити рекомбінантний гормон росту людини 8-річному хлопчику, вік якого менше 3-го процентиля. Рівень стимульованого гормону росту людини у хлопчика нижче 2 нг/мл (референтне значення >10 нг/мл, референтне значення для багатьох країн за межами Сполучених Штатів становить >7 нг/мл), а в його гені, що кодує гормон росту людини, виявлено рідкісні інактиваційні мутації. Ми вважаємо, що застосування терапії гормоном росту людини є очевидним і незаперечним у цих клінічних умовах.

Застосування терапії гормоном росту людини в таких сценаріях може викликати суперечки: зріст 14-річного хлопчика завжди був у 10-му процентилі його однолітків, а пік гормону росту людини після стимуляції становить 8 нг/мл. Немає відомих функціональних мутацій, які можуть впливати на зріст, а також інших відомих причин низького зросту, а його кістковий вік становить 15 років (тобто немає затримки розвитку). Лише частина суперечок пов'язана з відмінностями в порогових значеннях, визначених експертами на основі десятків досліджень щодо рівнів гормону росту людини, що використовуються для діагностики ізольованого дефіциту гормону росту. Принаймні стільки ж суперечок виникає щодо балансу ризику та користі від використання терапії гормоном росту людини з точки зору пацієнтів, батьків пацієнтів, медичних працівників, фармацевтичних компаній та платників. Дитячі ендокринологи можуть зважувати рідкісні побічні ефекти щоденних ін'єкцій гормону росту протягом 2 років з ймовірністю відсутності або лише мінімального зростання розмірів тіла дорослої людини порівняно з теперішнім часом. Хлопчики можуть вважати, що навіть якщо їхній зріст може збільшитися лише на 2 см, варто робити ін'єкції гормону росту, але платник та фармацевтична компанія можуть мати різні погляди.

 

Як приклад ми візьмемо рШКФ на основі креатиніну, який є широко використовуваним показником функції нирок для діагностики та стадіювання хронічної хвороби нирок, встановлення умов для трансплантації або донорства нирки, а також визначення критеріїв зниження та протипоказань для багатьох рецептурних препаратів. РШКФ – це просте рівняння регресії, яке використовується для оцінки виміряної швидкості клубочкової фільтрації (мШКФ), що є еталонним стандартом, але метод оцінки є відносно громіздким. Це рівняння регресії не можна вважати моделлю штучного інтелекту, але воно ілюструє багато принципів щодо людських цінностей та ймовірнісного мислення.

Першою точкою входу для значень людського походження до рШКФ є вибір даних для апроксимації рівнянь. Початкова черга, яка використовувалася для розробки формули рШКФ, здебільшого складається з чорношкірих та білих учасників, і її застосовність до багатьох інших етнічних груп неясна. Наступні точки входу для значень людського походження до цієї формули включають: вибір точності мШКФ як основної мети для оцінки функції нирок, прийнятний рівень точності, способи вимірювання точності та використання рШКФ як порогу для прийняття клінічних рішень (наприклад, визначення умов для трансплантації нирки або призначення ліків). Нарешті, під час вибору вмісту вхідної моделі значення людського походження також увійдуть до цієї формули.

Наприклад, до 2021 року рекомендації рекомендували коригувати рівні креатиніну у формулі eGFR на основі віку, статі та раси пацієнта (класифікуються лише як чорношкірі або не чорношкірі особи). Коригування на основі раси спрямоване на підвищення точності формули mGFR, але у 2020 році великі лікарні почали ставити під сумнів використання eGFR на основі раси, посилаючись на такі причини, як відтермінування права пацієнта на трансплантацію та конкретизація раси як біологічного поняття. Дослідження показали, що розробка моделей eGFR з точки зору раси може мати глибокий та різний вплив на точність та клінічні результати; тому вибіркове зосередження на точності або зосередження на частині результатів відображає ціннісні судження та може маскувати прозоре прийняття рішень. Зрештою, національна робоча група запропонувала нову формулу, яка була перероблена без врахування раси, щоб збалансувати питання продуктивності та справедливості. Цей приклад ілюструє, що навіть проста клінічна формула має багато точок входу в людські цінності.

Лікар з віртуальною реальністю в операційній кімнаті лікарні. Хірург аналізує результати тестування серця пацієнта та анатомію людини на технологічному цифровому футуристичному віртуальному інтерфейсі, цифровому голографічному, інноваційному в науці та медицині понятті.

Порівняно з клінічними формулами, що містять лише невелику кількість прогностичних показників, LLM може складатися з мільярдів, а то й сотень мільярдів параметрів (ваг моделі) або більше, що ускладнює його розуміння. Причина, чому ми кажемо «важко зрозуміти», полягає в тому, що в більшості LLM точний спосіб отримання відповідей за допомогою запитань неможливо відобразити. Кількість параметрів для GPT-4 ще не оголошена; його попередник GPT-3 мав 175 мільярдів параметрів. Більше параметрів не обов'язково означає кращі можливості, оскільки менші моделі, що включають більше обчислювальних циклів (такі як серія моделей LLaMA [Large Language Model Meta AI]), або моделі, які точно налаштовані на основі людського зворотного зв'язку, працюватимуть краще, ніж більші моделі. Наприклад, за словами оцінювачів-людей, модель InstrumentGPT (модель з 1,3 мільярдами параметрів) перевершує GPT-3 в оптимізації вихідних результатів моделі.

Конкретні деталі навчання GPT-4 ще не розкриті, але деталі моделей попереднього покоління, включаючи GPT-3, InstrumentGPT та багато інших LLM з відкритим кодом, вже розкрито. Сьогодні багато моделей ШІ постачаються з картками моделей; дані оцінки та безпеки GPT-4 були опубліковані в аналогічній системній картці, наданій компанією з створення моделей OpenAI. Створення LLM можна приблизно розділити на два етапи: початковий етап попереднього навчання та етап точного налаштування, спрямований на оптимізацію результатів моделі. На етапі попереднього навчання моделі надається великий корпус, що включає оригінальний інтернет-текст, для навчання її прогнозуванню наступного слова. Цей, здавалося б, простий процес «автоматичного завершення» створює потужну базову модель, але він також може призвести до шкідливої ​​поведінки. Людські цінності увійдуть на етап попереднього навчання, включаючи вибір даних попереднього навчання для GPT-4 та рішення про видалення невідповідного контенту, такого як порнографічний контент, з даних попереднього навчання. Незважаючи на ці зусилля, базова модель все ще може бути ні корисною, ні здатною містити шкідливі результати. На наступному етапі точного налаштування з'явиться багато корисних та нешкідливих моделей поведінки.

На етапі точного налаштування поведінка мовних моделей часто суттєво змінюється завдяки контрольованому точному налаштуванню та навчанню з підкріпленням на основі людського зворотного зв'язку. На етапі контрольованого точного налаштування найнятий персонал підрядника пише приклади відповідей для слів-підказок та безпосередньо навчає модель. На етапі навчання з підкріпленням на основі людського зворотного зв'язку люди-оцінювачі сортують результати моделі як приклади вхідного контенту. Потім застосовують наведені вище результати порівняння, щоб вивчити «модель винагороди» та додатково вдосконалити модель за допомогою навчання з підкріпленням. Дивовижна низькорівнева участь людини може точно налаштувати ці великі моделі. Наприклад, модель InstrumentGPT використовувала команду з приблизно 40 співробітників підрядника, набраних з краудсорсингових веб-сайтів, і пройшла скринінговий тест, спрямований на вибір групи анотаторів, чутливих до вподобань різних груп населення.

Як демонструють ці два крайні приклади, а саме проста клінічна формула [eGFR] та потужний метод LLM [GPT-4], прийняття рішень людиною та людські цінності відіграють невід'ємну роль у формуванні результатів моделі. Чи можуть ці моделі штучного інтелекту (ШІ) враховувати різноманітні цінності пацієнтів та лікарів? Як публічно керувати застосуванням ШІ в медицині? Як зазначено нижче, перегляд аналізу медичних рішень може забезпечити принципове рішення цих питань.

 

Аналіз медичних рішень не знайомий багатьом клініцистам, але він може розрізняти ймовірнісні міркування (для невизначених результатів, пов'язаних з прийняттям рішень, таких як питання про те, чи вводити гормон росту людини в суперечливому клінічному сценарії, показаному на рисунку 1) та фактори врахування (для суб'єктивних цінностей, пов'язаних з цими результатами, значення яких кількісно визначається як «корисність», наприклад, значення збільшення зросту чоловіка на 2 см), що забезпечує систематичні рішення для складних медичних рішень. В аналізі рішень клініцисти повинні спочатку визначити всі можливі рішення та ймовірності, пов'язані з кожним результатом, а потім врахувати корисність пацієнта (або іншої сторони), пов'язану з кожним результатом, щоб вибрати найбільш підходящий варіант. Тому валідність аналізу рішень залежить від того, чи є налаштування результату всебічним, а також від того, чи є вимірювання корисності та оцінка ймовірності точними. В ідеалі, цей підхід допомагає забезпечити, щоб рішення були засновані на доказах та відповідали вподобанням пацієнта, тим самим зменшуючи розрив між об'єктивними даними та особистими цінностями. Цей метод був впроваджений у медичну сферу кілька десятиліть тому та застосовувався для прийняття рішень індивідуальними пацієнтами та оцінки здоров'я населення, наприклад, для надання рекомендацій щодо скринінгу колоректального раку серед населення загалом.

 

В аналізі медичних рішень було розроблено різні методи для визначення корисності. Більшість традиційних методів безпосередньо отримують цінність від окремих пацієнтів. Найпростіший метод полягає у використанні шкали оцінювання, де пацієнти оцінюють свій рівень переваги певного результату за цифровою шкалою (наприклад, лінійною шкалою від 1 до 10), причому найекстремальніші результати здоров'я (такі як повне здоров'я та смерть) розташовані на обох кінцях. Метод обміну часом є ще одним поширеним методом. У цьому методі пацієнтам потрібно прийняти рішення про те, скільки здорового часу вони готові витратити в обмін на період поганого здоров'я. Стандартний метод азартних ігор є ще одним поширеним методом визначення корисності. У цьому методі пацієнтів запитують, який із двох варіантів вони віддають перевагу: або прожити певну кількість років у нормальному здоров'ї з певною ймовірністю (p)(t) та нести ризик смерті з ймовірністю 1-p; або переконатися, що вони проживуть t років за перехресних умов здоров'я. Запитуйте пацієнтів кілька разів при різних значеннях p, доки вони не виявлять переваги жодному з варіантів, щоб корисність можна було розрахувати на основі відповідей пацієнтів.
Окрім методів, що використовуються для виявлення індивідуальних уподобань пацієнтів, також були розроблені методи для отримання корисності для всієї групи пацієнтів. Зокрема, фокус-групові дискусії (залучення пацієнтів для обговорення конкретного досвіду) можуть допомогти зрозуміти їхні точки зору. Для ефективного агрегування групової корисності було запропоновано різні методи структурованих групових дискусій.
На практиці безпосереднє впровадження корисності в процес клінічної діагностики та лікування займає дуже багато часу. Як рішення, анкети для опитування зазвичай розповсюджуються серед випадково вибраних популяцій для отримання оцінок корисності на рівні популяції. Деякі приклади включають 5-вимірну анкету EuroQol, коротку форму 6-вимірної ваги корисності, індекс корисності здоров'я та інструмент Core 30 анкети якості життя Європейської організації з дослідження та лікування раку, специфічної для раку.


Час публікації: 01 червня 2024 р.