З моменту заснування IBM Watson у 2007 році людство постійно працює над розвитком медичного штучного інтелекту (ШІ). Користувальна та потужна система медичного ШІ має величезний потенціал для зміни всіх аспектів сучасної медицини, забезпечуючи розумнішу, точнішу, ефективнішу та інклюзивнішу медичну допомогу, забезпечуючи добробут медичних працівників та пацієнтів, і тим самим значно покращуючи здоров'я людини. За останні 16 років, хоча дослідники медичного ШІ накопичили свої знання в різних невеликих галузях, на цьому етапі вони ще не змогли втілити наукову фантастику в реальність.
Цього року, завдяки революційному розвитку технологій штучного інтелекту, таких як ChatGPT, медичний ШІ досяг значного прогресу в багатьох аспектах. Безпрецедентний прорив у можливостях медичного ШІ: журнал Nature постійно розпочинає дослідження моделі медичної великої мови та базової моделі медичного зображення; Google випускає Med-PaLM та його наступника, досягаючи експертного рівня у питаннях іспиту для медичних працівників США. Великі академічні журнали зосередяться на медичному ШІ: Nature публікує огляд базової моделі загального медичного ШІ; після серії оглядів ШІ в медицині на початку цього року, New England Journal of Medicine (NEJM) опублікував свій перший огляд цифрової охорони здоров'я 30 листопада та випустив перший випуск піджурналу NEJM NEJM AI 12 грудня. Ґрунт для медичного ШІ ще більше дозрів: піджурнал JAMA опублікував глобальну ініціативу щодо обміну даними медичних зображень; Управління з контролю за продуктами харчування та лікарськими засобами США (FDA) розробляє проект рекомендацій щодо регулювання медичного ШІ.
Нижче ми розглядаємо значний прогрес, якого досягли дослідники з усього світу у напрямку розробки медичного штучного інтелекту у 2023 році.
Базова модель медичного штучного інтелекту
Побудова базової моделі медичного ШІ, безсумнівно, є найгарячішим напрямком досліджень цього року. Протягом року журнали Nature публікували оглядові статті про Універсальну базову модель охорони здоров'я та модель охорони здоров'я на великій мові програмування. Medical Image Analysis, провідний журнал у галузі, розглянув та з нетерпінням чекає на виклики та можливості дослідження базових моделей в аналізі медичних зображень, а також запропонував концепцію «родоводу базової моделі» для узагальнення та керівництва розвитком дослідження базових моделей медичного ШІ. Майбутнє базових моделей ШІ для охорони здоров'я стає зрозумілішим. Спираючись на успішні приклади моделей на великих мовах програмування, таких як ChatGPT, використовуючи більш просунуті методи самостійного попереднього навчання та величезне накопичення даних для навчання, дослідники в галузі медичного ШІ намагаються створити 1) базові моделі, специфічні для захворювання, 2) загальні базові моделі та 3) мультимодальні великі моделі, які інтегрують широкий спектр режимів з масивними параметрами та розширеними можливостями.
Модель штучного інтелекту для збору медичних даних
Окрім великих моделей штучного інтелекту, які відіграють важливу роль у завданнях аналізу клінічних даних на наступних етапах, у процесі збору клінічних даних також з'явилася технологія, представлена генеративними моделями штучного інтелекту. Алгоритми штучного інтелекту можуть значно покращити процес, швидкість та якість збору даних.
Раніше цього року Nature Biomedical Engineering опублікувала дослідження, проведене Турецьким університетом Страйтс, яке зосереджувалося на використанні генеративного штучного інтелекту для вирішення проблеми патологічної діагностики за допомогою зображень у клінічних застосуваннях. Артефакти в заморожених зрізах тканини під час операції є перешкодою для швидкої діагностичної оцінки. Хоча тканина, залита формаліном та парафіном (FFPE), забезпечує зразок вищої якості, процес її виробництва є трудомістким і часто займає 12-48 годин, що робить її непридатною для використання в хірургії. Тому дослідницька група запропонувала алгоритм під назвою AI-FFPE, який може зробити зовнішній вигляд тканини в замороженому зрізі подібним до FFPE. Алгоритм успішно виправив артефакти заморожених зрізів, покращив якість зображення та одночасно зберіг клінічно значущі характеристики. Під час клінічної валідації алгоритм AI-FFPE значно покращує діагностичну точність патологів для підтипів пухлин, водночас значно скорочуючи час клінічної діагностики.
У Cell Reports Medicine повідомляється про дослідницьку роботу команди з Третього клінічного коледжу Університету Цзілінь, кафедри радіології, лікарні Чжуншань, що належить до Університету Фудань, та Шанхайського університету науки і технологій [25]. У цьому дослідженні пропонується універсальна платформа для глибокого навчання та ітеративної реконструкції (Hybrid DL-IR) з високою універсальністю та гнучкістю, що демонструє чудову продуктивність реконструкції зображень у швидкій МРТ, низькодозовій КТ та швидкій ПЕТ. Алгоритм може виконувати багатосеквенційне сканування одного органу за 100 секунд, зменшувати дозу опромінення до лише 10% зображення КТ, усувати шум та реконструювати невеликі ураження за даними ПЕТ зі прискоренням у 2-4 рази, одночасно зменшуючи вплив артефактів руху.
Медичний ШІ у співпраці з медичними працівниками
Швидкий розвиток медичного штучного інтелекту також спонукав медичних працівників серйозно розглянути та дослідити можливості співпраці зі штучним інтелектом для покращення клінічних процесів. У липні цього року DeepMind та багатоінституційна дослідницька група спільно запропонували систему штучного інтелекту під назвою «Доповнююча затримка клінічного робочого процесу» (CoDoC). Діагностичний процес спочатку діагностується за допомогою прогнозної системи штучного інтелекту, потім оцінюється іншою системою штучного інтелекту на основі попереднього результату, і якщо є сумніви, діагноз остаточно ставить клініцист для покращення точності діагностики та збалансування ефективності. Коли йдеться про скринінг раку молочної залози, CoDoC знизив рівень хибнопозитивних результатів на 25% при такому ж рівні хибнонегативних результатів, одночасно зменшивши навантаження на клініцистів на 66% порівняно з поточним процесом «арбітражу подвійного читання» у Великій Британії. Що стосується класифікації туберкульозу, рівень хибнопозитивних результатів знизився на 5-15 відсотків при такому ж рівні хибнонегативних результатів порівняно з незалежним штучним інтелектом та клінічними робочими процесами.
Аналогічно, Енні Й. Нг та ін. з компанії Kheiron у Лондоні, Велика Британія, запровадили додаткові зчитувачі на основі штучного інтелекту (у співпраці з експертами-людьми) для повторного аналізу результатів, коли в процесі арбітражу подвійного зчитування не було результатів повторного аналізу, що покращило проблему пропущеного виявлення під час раннього скринінгу раку молочної залози, і процес майже не мав хибнопозитивних результатів. В іншому дослідженні, проведеному командою з Медичної школи Макговерна Техаського університету та проведеному в чотирьох інсультних центрах, було застосовано технологію штучного інтелекту на основі комп'ютерної томографічної ангіографії (КТА) для автоматизації виявлення великого судинного оклюзійного ішемічного інсульту (ЛВО). Клініцисти та рентгенологи отримують сповіщення в режимі реального часу на свої мобільні телефони протягом кількох хвилин після завершення КТ-візуалізації, які повідомляють їх про можливу наявність ЛВО. Цей процес штучного інтелекту покращує робочі процеси в лікарні при гострому ішемічному інсульті, скорочуючи час від дверей до паху від госпіталізації до лікування та надаючи можливості для успішного порятунку. Результати опубліковані в JAMA Neurology.
Модель охорони здоров'я на основі штучного інтелекту для загального блага
У 2023 році також буде багато успішних робіт, що використовують медичний штучний інтелект для пошуку ознак, невидимих людському оку, з більш доступних даних, що дозволить проводити універсальну діагностику та ранній скринінг у великих масштабах. На початку року Nature Medicine опублікувала дослідження, проведені Очним центром Чжуншань Університету Сунь Ятсена та Другою афілійованою лікарнею Медичного університету Фуцзянь. Використовуючи смартфони як термінали додатків, вони використовували відеозображення, схожі на мультфільми, щоб викликати погляд дітей та записувати поведінку погляду дітей та риси обличчя, а також додатково аналізували аномальні моделі за допомогою моделей глибокого навчання, щоб успішно виявити 16 захворювань очей, включаючи вроджену катаракту, вроджений птоз та вроджену глаукому, із середньою точністю скринінгу понад 85%. Це забезпечує ефективні та прості у популяризації технічні засоби для масштабного раннього скринінгу порушень зорової функції у немовлят та пов'язаних з ними захворювань очей.
Наприкінці року журнал Nature Medicine повідомив про роботу, виконану понад 10 медичними та дослідницькими установами по всьому світу, включаючи Шанхайський інститут захворювань підшлункової залози та Першу афілійовану лікарню Чжецзянського університету. Автор застосував штучний інтелект для скринінгу раку підшлункової залози у безсимптомних людей у центрах фізичного обстеження, лікарнях тощо, щоб виявляти особливості уражень на знімках звичайної комп'ютерної томографії, які важко виявити лише неозброєним оком, з метою досягнення ефективного та неінвазивного раннього виявлення раку підшлункової залози. Під час аналізу даних понад 20 000 пацієнтів модель також виявила 31 випадок клінічно пропущених уражень, що значно покращило клінічні результати.
Обмін медичними даними
У 2023 році у світі з'явилося багато досконалих механізмів обміну даними та успішних випадків, що забезпечують багатоцентрову співпрацю та відкритість даних за умови захисту конфіденційності та безпеки даних.
По-перше, за допомогою самої технології штучного інтелекту, дослідники штучного інтелекту зробили свій внесок у обмін медичними даними. Ці Чанг та інші з Університету Рутгерса в США опублікували статтю в Nature Communications, запропонувавши федеральну навчальну платформу DSL на основі розподілених синтетичних змагальних мереж, яка використовує генеративний ШІ для навчання конкретних згенерованих даних багатоцентрових центрів, а потім замінює реальні дані багатоцентрових центрів згенерованими даними. Забезпечити навчання ШІ на основі великих даних багатоцентрових центрів, захищаючи при цьому конфіденційність даних. Та ж команда також опублікувала у відкритому коді набір даних згенерованих патологічних зображень та відповідні їм анотації. Модель сегментації, навчена на згенерованому наборі даних, може досягти результатів, подібних до реальних даних.
Команда Дай Цюнхая з Університету Цінхуа опублікувала статтю про npj Digital Health, запропонувавши Relay Learning, який використовує великі дані з кількох точок для навчання моделей штучного інтелекту, виходячи з принципу локального суверенітету даних та відсутності міжсайтового мережевого з'єднання. Це поєднує проблеми безпеки та конфіденційності даних з прагненням до високої продуктивності штучного інтелекту. Згодом та ж команда спільно розробила та перевірила CAIMEN, систему діагностики пухлин середостіння за допомогою комп'ютерної томографії грудної клітки, що базується на федеральному навчанні, у співпраці з Першою афілійованою лікарнею Медичного університету Гуанчжоу та 24 лікарнями по всій країні. Система, яку можна застосовувати до 12 поширених пухлин середостіння, досягла на 44,9% кращої точності при використанні окремо, ніж при використанні лише експертами-людьми, та на 19% кращої точності діагностики, коли їй допомагали експерти-люди.
З іншого боку, зараз реалізується кілька ініціатив щодо створення безпечних, глобальних, масштабних наборів медичних даних. У листопаді 2023 року Агустіна Саенс та інші з кафедри біомедичної інформатики Гарвардської медичної школи опублікували в Інтернеті в журналі Lancet Digital Health глобальну структуру для обміну даними медичних зображень під назвою «Дані штучного інтелекту для всієї охорони здоров’я» (MAIDA). Вони співпрацюють з організаціями охорони здоров’я по всьому світу, щоб надати комплексні рекомендації щодо збору даних та деідентифікації, використовуючи шаблон Федерального демонстраційного партнера США (FDP) для стандартизації обміну даними. Вони планують поступово публікувати набори даних, зібрані в різних регіонах та клінічних умовах по всьому світу. Очікується, що перший набір даних буде опубліковано на початку 2024 року, а інші будуть опубліковані в міру розширення партнерства. Цей проект є важливою спробою створити глобальний, масштабний та різноманітний набір загальнодоступних даних про штучний інтелект.
Після цієї пропозиції, Британський біобанк подав приклад. 30 листопада Британський біобанк опублікував нові дані повного секвенування геному 500 000 своїх учасників. База даних, яка публікує повну послідовність геному кожного з 500 000 британських добровольців, є найбільшою у світі повною базою даних геному людини. Дослідники з усього світу можуть запитувати доступ до цих анонімних даних та використовувати їх для дослідження генетичних основ здоров'я та хвороб. Генетичні дані завжди були дуже чутливими для перевірки в минулому, і це історичне досягнення Британського біобанку доводить, що можливо створити відкриту, вільну від конфіденційності глобальну великомасштабну базу даних. Завдяки цій технології та базі даних медичний штучний інтелект обов'язково здійснить наступний стрибок.
Верифікація та оцінка медичного ШІ
Порівняно зі швидким розвитком самої технології медичного ШІ, розвиток верифікації та оцінки медичного ШІ дещо повільний. Валідація та оцінка в загальній галузі ШІ часто ігнорують реальні потреби клініцистів та пацієнтів у ШІ. Традиційні рандомізовані контрольовані клінічні випробування є занадто трудомісткими, щоб відповідати швидкій ітерації інструментів ШІ. Якомога швидше вдосконалення системи верифікації та оцінки, придатної для медичних інструментів ШІ, є найважливішим для того, щоб медичний ШІ справді перевершив дослідження та розробки до клінічної практики.
У дослідницькій роботі Google про Med-PaLM, опублікованій у Nature, команда також опублікувала бенчмарк оцінки MultiMedQA, який використовується для оцінки здатності моделей великих мов програмування отримувати клінічні знання. Бенчмарк поєднує шість існуючих професійних наборів медичних запитань і відповідей, що охоплюють професійні медичні знання, дослідження та інші аспекти, а також набір даних медичних запитань онлайн-пошуку, що розглядає онлайн-запитання і відповіді лікаря та пацієнта, намагаючись навчити ШІ кваліфікованим лікарем з багатьох аспектів. Крім того, команда пропонує структуру, засновану на оцінці людиною, яка враховує численні виміри фактів, розуміння, міркувань та можливих упереджень. Це одне з найбільш репрезентативних досліджень з оцінки ШІ в охороні здоров'я, опубліковане цього року.
Однак, чи означає той факт, що моделі великих мов демонструють високий рівень кодування клінічних знань, що моделі великих мов компетентні для реальних клінічних завдань? Так само, як студент-медик, який склав професійний іспит на посаду лікаря з ідеальним балом, ще далеко не є головним лікарем-одинаком, критерії оцінки, запропоновані Google, можуть не бути ідеальною відповіддю на тему оцінки медичного ШІ для моделей ШІ. Ще у 2021 та 2022 роках дослідники запропонували такі рекомендації щодо звітності, як Decid-AI, SPIRIT-AI та INTRPRT, сподіваючись спрямувати ранню розробку та валідацію медичного ШІ за умови врахування таких факторів, як клінічна практичність, безпека, людські фактори та прозорість/інтерпретованість. Зовсім недавно журнал Nature Medicine опублікував дослідження дослідників з Оксфордського університету та Стенфордського університету про те, чи використовувати «зовнішню валідацію» чи «повторну локальну валідацію» для валідації інструментів ШІ.
Неупереджений характер інструментів штучного інтелекту також є важливим напрямком оцінювання, якому цього року приділяється увага як у статтях журналів Science, так і в NEJM. ШІ часто демонструє упередженість, оскільки він обмежений навчальними даними. Ця упередженість може відображати соціальну нерівність, яка надалі переростає в алгоритмічну дискримінацію. Національні інститути охорони здоров'я нещодавно запустили ініціативу Bridge2AI, вартість якої оцінюється в 130 мільйонів доларів, для створення різноманітних наборів даних (відповідно до цілей згаданої вище ініціативи MAIDA), які можна використовувати для перевірки неупередженості медичних інструментів штучного інтелекту. Ці аспекти не враховуються MultiMedQA. Питання про те, як вимірювати та перевіряти моделі медичного штучного інтелекту, все ще потребує широкого та глибокого обговорення.
У січні видання Nature Medicine опублікувало статтю під назвою «Наступне покоління доказової медицини» Вівека Суббіа з Онкологічного центру ім. доктора медичних наук Андерсона Техаського університету, в якій розглядаються обмеження клінічних випробувань, виявлені в контексті пандемії COVID-19, та вказується на суперечність між інноваціями та дотриманням клінічного дослідницького процесу. Зрештою, у статті вказується на майбутнє реструктуризації клінічних випробувань – наступне покоління клінічних випробувань з використанням штучного інтелекту, тобто використання штучного інтелекту з великої кількості історичних дослідницьких даних, даних реального світу, мультимодальних клінічних даних, даних носимих пристроїв для пошуку ключових доказів. Чи означає це, що технологія штучного інтелекту та процеси клінічної валідації за допомогою штучного інтелекту можуть взаємопідсилювати та спільно розвиватися в майбутньому? Це відкрите та спонукаюче до роздумів питання 2023 року.
Регулювання медичного ШІ
Розвиток технології штучного інтелекту також створює проблеми для регулювання ШІ, і політики в усьому світі реагують на це дуже обережно та виважено. У 2019 році FDA вперше опублікувало Запропоновану регуляторну базу для змін програмного забезпечення медичних пристроїв зі штучним інтелектом (проект для обговорення), в якій детально описало свій потенційний підхід до передринкового розгляду модифікацій програмного забезпечення на основі ШІ та машинного навчання. У 2021 році FDA запропонувало «План дій щодо програмного забезпечення на основі штучного інтелекту/машинного навчання як медичного пристрою», який уточнив п'ять конкретних заходів медичного регулювання використання ШІ. Цього року FDA переопублікувало Передринкове подання на функції програмного забезпечення пристрою, щоб надати інформацію про рекомендації щодо передринкового подання для оцінки FDA безпеки та ефективності функцій програмного забезпечення пристрою, включаючи деякі функції програмного забезпечення пристрою, які використовують моделі машинного навчання, навчені за допомогою методів машинного навчання. Регуляторна політика FDA перетворилася з початкової пропозиції на практичне керівництво.
Після публікації Європейського простору даних про охорону здоров'я в липні минулого року, ЄС знову прийняв Закон про штучний інтелект. Перший має на меті найкраще використовувати дані про здоров'я для забезпечення високоякісної медичної допомоги, зменшення нерівності та підтримки даних для профілактики, діагностики, лікування, наукових інновацій, прийняття рішень та законодавства, водночас забезпечуючи громадянам ЄС більший контроль над своїми особистими даними про здоров'я. Другий чітко вказує на те, що система медичної діагностики є системою штучного інтелекту з високим рівнем ризику, і вона повинна запровадити цілеспрямований суворий нагляд, нагляд за всім життєвим циклом та нагляд перед оцінкою. Європейське агентство з лікарських засобів (EMA) опублікувало проект аналітичного документа щодо використання штучного інтелекту для підтримки розробки, регулювання та використання ліків, з акцентом на підвищення довіри до штучного інтелекту для забезпечення безпеки пацієнтів та цілісності результатів клінічних досліджень. Загалом, регуляторний підхід ЄС поступово формується, і остаточні деталі впровадження можуть бути більш детальними та суворими. На відміну від суворого регулювання ЄС, регуляторний план Великобританії щодо штучного інтелекту чітко вказує на те, що уряд планує застосувати м'який підхід і поки що не приймати нових законопроектів чи створювати нових регуляторів.
У Китаї Центр технічного огляду медичних виробів (NMPA) Національного управління медичних виробів раніше опублікував такі документи, як «Основні моменти огляду програмного забезпечення для глибокого навчання, що допоміжне прийняття рішень», «Керівні принципи огляду реєстрації медичних виробів зі штучним інтелектом (проект для коментарів)» та «Циркуляр про керівні принципи класифікації та визначення медичних програмних продуктів зі штучним інтелектом (№ 47 у 2021 році)». Цього року знову було опубліковано «Підсумок результатів першої класифікації медичних виробів у 2023 році». Ця серія документів робить визначення, класифікацію та регулювання медичних програмних продуктів зі штучним інтелектом зрозумілішим та простішим в експлуатації, а також надає чіткі вказівки щодо стратегій позиціонування та реєстрації продуктів різних підприємств галузі. Ці документи забезпечують основу та управлінські рішення для наукового регулювання медичних виробів зі штучним інтелектом. Варто з нетерпінням чекати, що на порядку денному Китайської конференції з медичного штучного інтелекту, яка відбудеться в Ханчжоу з 21 по 23 грудня, буде створено спеціальний форум з питань цифрового медичного управління та високоякісного розвитку державних лікарень, а також форум розвитку галузі стандартизації технологій тестування та оцінки медичних виробів зі штучним інтелектом. У цей час у зустрічі візьмуть участь посадовці Національної комісії з розвитку та реформ та NMPA, які можуть оприлюднити нову інформацію.
Висновок
У 2023 році медичний ШІ почав інтегруватися в увесь медичний процес, охоплюючи збір даних лікарень, їх об'єднання, аналіз, діагностику та лікування, а також скринінг громади, а також органічно співпрацювати з медичними працівниками/працівниками з контролю захворювань, демонструючи потенціал для покращення здоров'я людини. Починають проростати корисні дослідження медичного ШІ. У майбутньому прогрес медичного ШІ залежить не лише від самого технологічного розвитку, але й потребує повної співпраці промисловості, університетів та медичних досліджень, а також підтримки політиків та регуляторів. Така міжгалузева співпраця є ключем до досягнення медичних послуг, інтегрованих зі ШІ, і, безумовно, сприятиме розвитку здоров'я людини.
Час публікації: 30 грудня 2023 р.




