Výkon algoritmů strojového učení pro predikci progrese k demenci u pacientů z kliniky paměti
Mar 20, 2022
Kontakt: Audrey Hu Whatsapp/hp: 0086 13880143964 E-mail:audrey.hu@wecistanche.com
Charlotte James, Ph.D.; Janice M. Ranson, Ph.D.; Richard Everson, Ph.D.; David J. Llewellyn, PhD
Abstraktní
DŮLEŽITÉ: Algoritmy strojového učení by mohly být použity jako základ pro klinické rozhodování pro zlepšení klinické praxe. CÍL Zhodnotit schopnost algoritmů strojového učení předpovídat výskyt demence do 2 let ve srovnání se stávajícími modely a určit optimální analytický přístup a počet požadovaných proměnných. NÁVRH, PROSTŘEDÍ A ÚČASTNÍCI: Tato prognostická studie použila data z prospektivní kohorty 15 307 účastníků bez výchozí demence k provedení sekundární analýzy faktorů, které by mohly být použity k predikci výskytu demence. Účastníci se zúčastnili Národního koordinačního centra pro Alzheimerovu chorobuPaměťkliniky po celých Spojených státech mezi 2005 a 2015. Analýzy byly prováděny od března do 2. května021. EXPOZICE: 258 proměnných zahrnujících domény klinických měření souvisejících s demencí a rizikových faktorů. HLAVNÍ VÝSLEDKY A OPATŘENÍ: Hlavním výsledkem byla demence ze všech příčin diagnostikovaná během 2 let od výchozího hodnocení. VÝSLEDKY: Ve vzorku 15 307 účastníků (průměrný [SD] věk, 72,3 [9,8] let; 9129 [60 procent ] žen a 6178 [40 procent ] mužů) bez demence na začátku, 1568 (10 procento) obdrželo diagnózu demence do 2 let od jejich počátečního posouzení. Ve srovnání se 2 existujícími modely pro predikci rizika demence (tj. kardiovaskulární rizikové faktory, stárnutí a skóre rizika demence a stručný indikátor demence screening) byly algoritmy strojového učení lepší v predikci demence ze všech příčin během 2 let. Algoritmus stromů se zesíleným gradientem měl průměrnou (SD) celkovou přesnost 92 procent (1 procento), senzitivitu 0,45 (0,05), specificitu 0,97 (0,01) a plochu pod křivkou 0,92 (0,01) při použití všech 258 proměnné. Analýza proměnné důležitosti ukázala, že pro algoritmy strojového učení bylo zapotřebí pouze 6 proměnných k dosažení přesnosti 91 procent a plochy pod křivkou alespoň 0,89. Algoritmy strojového učení také identifikovaly až 84 procent účastníků, kteří obdrželi počáteční diagnózu demence, která byla následně změněna na mírnou kognitivní poruchu nebo kognitivně bez poruchy, což naznačuje možnou chybnou diagnózu. ZÁVĚRY A RELEVANTNOST: Tato zjištění naznačují, že algoritmy strojového učení by mohly přesně předpovídat výskyt demence během 2 let u pacientů, kteří dostávají péčiPaměťkliniky používající pouze 6 proměnných. Tato zjištění by mohla být použita k informování o vývoji a ověřování pomůcek pro rozhodování vPaměťkliniky.
Úvod
Mnoho pacientů posuzovaných ve specializovaných zařízeních, jako napřPaměťkliniky, nemají demenci, když poprvé navštíví.1 Je důležité rozlišovat mezi pacienty, u kterých se demence rozvine v klinicky relevantním časovém rámci, a pacienty, u kterých se demence nevyskytuje, protože tento náhled lze použít k upřednostnění pacientů pro následná vyšetření a zásahy. Identifikace pacientů s vysokým rizikem rozvoje demence je pro klinické lékaře náročná. Jedním z přístupů je zaměřit se na ty, kteří mají mírnou kognitivní poruchu (MCI) při počátečním vyšetření, a pozvat tyto pacienty ke sledování. To však může mít za následek značnou nesprávnou klasifikaci pacientů, kteří nejsou cílem sledování, ale u nichž se rozvine demence, a pacientů, kteří jsou cílem dalších vyšetření, ale u nichž se demence nerozvine.
VětšinaPaměťklinickí pacienti s MCI neprogredují do demence ani po 10 letech, s roční mírou konverze 9,6 procenta.2 Pomůcky pro klinické rozhodování mohou zlepšit schopnost lékařů odhadnout nástup demence. Pro odhad střednědobého a dlouhodobého výskytu demence v různých populacích jsou k dispozici stávající klinické pomůcky pro rozhodování. Například skóre kardiovaskulárních rizikových faktorů, stárnutí a výskytu demence (CAIDE) Risk Score3 bylo navrženo tak, aby předpovídalo riziko rozvoje demence za 20 let u lidí středního věku, a Brief Demence Screening Indicator (BDSI)4 má za cíl identifikovat starší osoby. kognitivní screening stanovením jejich rizika rozvoje demence za 6 let. Podle našich znalostí však nebyla vyvinuta žádná klinická pomůcka pro rozhodování, která by předpovídala výskyt demencePaměťklinikách za kratší klinicky relevantní období. Strojové učení (ML) umožňuje využívat informace z velkých a složitých souborů dat. Nedávno byla použita k diagnostice demence a predikci rizik.5-9
Tyto modely však často zahrnují informace, které nejsou běžně dostupné v běžné klinické praxi, jako je pokročilé neurozobrazování, genetické testování a biomarkery mozkomíšního moku, což omezuje klinickou aplikaci na specialisty nebo výzkumná zařízení. Zkoumali jsme, zda lze techniky ML použít k předpovědi výskytu demence za 2-roční období pomocíPaměťklinická data z amerického Národního koordinačního centra pro Alzheimerovu chorobu (NACC). Také jsme zkoumali minimální sadu proměnných požadovaných pro modely ML k dosažení plného diagnostického výkonu.

Metody
Studie NACC obdržela etické schválení od institucionálního kontrolního výboru každé lokality předtím, než mohla přispět daty, a všichni účastníci poskytli informovaný písemný souhlas. Tato prognostická studie byla považována za vyňatou z institucionálního etického schválení, protože jsme použili dříve shromážděná deidentifikovaná data. Údaje použité v této studii jsou k dispozici na vyžádání u NACC. Tato studie je hlášena v souladu s pokyny pro podávání zpráv Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis (TRIPOD). Data byla analyzována od března do května 2021.
Studijní vzorek
Použili jsme dříve shromážděná data z NACC Uniform Data Set (UDS).10 UDS obsahuje prospektivní kohortová data z programu amerického Národního institutu pro stárnutí Alzheimerovy choroby pro multicentrický kolaborativní výzkum Alzheimerovy choroby a dalších neurodegenerativních poruch.11 Náš soubor dat se skládá dat paměťové kliniky shromážděných mezi zářím 2005 a únorem 2015 z 30 center Alzheimerovy choroby se sídlem ve Spojených státech. Soubor dat zahrnuje sociodemografické charakteristiky účastníka a spoluúčastníka, rodinnou anamnézu, funkční stav,12 behaviorální symptomy (posouzené výsledky Neuropsychiatrického inventárního dotazníku13), baterii neuropsychologických testů14 a diagnózu klinické demence NACC, přiřazené každým centrem pro Alzheimerovu chorobu pomocí publikovaných klinických diagnostických kritérií na základě standardizovaného klinického hodnocení UDS. Podrobnosti o diagnostických kritériích přijatých protokolem UDS a související pokyny byly zveřejněny dříve.15
Použili jsme UDS verze 1 a 2, které zahrnují 32 573 účastníků kliniky paměti se základním hodnocením. Ačkoli jsou naše modely navrženy tak, aby předpovídaly výskyt demence během 2 let, abychom zohlednili odchylky v době mezi kontrolními schůzkami, zahrnuli jsme sledování, která proběhla do 29 měsíců od první návštěvy, abychom zajistili, že návštěva byla buď první, nebo druhá následná schůzka.
Proměnná výsledku
Výslednou proměnnou byla diagnóza demence ze všech příčin během 29 měsíců (přibližně 2 roky) od výchozího hodnocení. Patří sem podtypy demence, jako je Alzheimerova demence, demence s Lewyho tělísky, vaskulární demence a další vzácnější podtypy. Alzheimerova demence byla diagnostikována podle kritérií NINCSD-ADRDA,16 vaskulární demence byla diagnostikována podle kritérií NINDS-AIREN,17 Demence s Lewyho tělísky (LBD) byla diagnostikována podle třetí zprávy Konsorcia demence s Lewyho tělísky18 a frontotemporální demence byla diagnostikována podle kritérií Nearyho a kolegů z roku 1998.19
Kandidátské prediktory
Zahrnuli jsme všechny klinicky relevantní proměnné shromážděné během úvodní návštěvy ve verzích 1 a 2 UDS (eTabulka 1 v Dodatku). Vyloučili jsme proměnné s hodnotami volného textu, jako jsou názvy léků, a proměnné, které byly u všech účastníků konstantní, jako je počet návštěv. Byly vytvořeny čtyři syntetické proměnné, které mají pomoci s hodnocením proměnlivé důležitosti (tyto proměnné by měly být zařazeny nízko); 3 z těchto proměnných byly permutacemi existujících proměnných (1 binární, 1 kategorická a 1 numerická proměnná) a 1 proměnná byla náhodně vygenerována z normálního rozdělení. Výsledkem bylo celkem 258 proměnných.
Proměnné z UDS začleněné do našich modelů zahrnují demografické charakteristiky účastníka (15 proměnných), demografické charakteristiky spoluúčastníka (7 proměnných), rodinnou anamnézu (3 proměnné), anamnézu (47 proměnných), léky (21 proměnných), fyzické (12 proměnných). ) a neurologické (4 proměnné) výsledky vyšetření, Unified Parkinson Disease Rating Scale20 (UDPRS) (28 proměnných), klinické hodnocení demence (CDR) scale21 (8 proměnných), funkční stav (10 proměnných), baterie neuropsychologických testů (50 proměnných) , škála geriatrické deprese (17 proměnných) a klinické hodnocení symptomů (32 proměnných). Z těchto proměnných 239 (93 procent ) chybělo alespoň u 1 účastníka a všem účastníkům chyběla alespoň 1 proměnná.
Vývoj modelu
Implementovali jsme 4 ML algoritmy22: logistickou regresi (LR),23 podpůrný vektorový stroj (SVM),24 náhodný les (RF),25,26 a stromy zesílené gradientem (XGB)27 (eMethods v doplňku). Tyto algoritmy provádějí klasifikační úkol: určují, zda účastník spadá do třídy 0 (předpokládá se, že zůstane bez demence 29 měsíců od výchozího stavu) nebo třídy 1 (předpokládá se, že zažije incidentní demenci do 29 měsíců od výchozího stavu). Klasifikace je založena na proměnných zaznamenaných při jejich první (základní) návštěvě kliniky paměti. K implementaci algoritmů ML jsme použili knihovnu Python sci-kit-learn (Python Software Foundation),28 s 5-násobnou křížovou validací (eMethods v dodatku). Chybějící hodnoty byly dopočítány vzorkováním s nahrazením chybějících hodnot. Veškeré zpracování a analýza dat byly implementovány v Pythonu verze 3.9, NumPy verze 1.19.4 a sci-kit-learn verze 0.24.0.
Statistická analýza
Hodnocení modelu
Výkon všech modelů jsme vyhodnotili porovnáním jejich celkové přesnosti, citlivosti a specifičnosti pro rozhodovací prahy předem specifikované v literatuře (stávající modely) nebo práh 0,5 (ML modely), který má stejnou váhu jako falešně pozitivní a falešně negativní chyby. Oblast pod křivkou provozní charakteristiky přijímače (AUC)29 byla použita k shrnutí výkonnosti modelu přes všechny možné prahové hodnoty, a tedy chybné vážení chyb klasifikace.30 Střední výkonnostní míry a SD byly získány pomocí bootstrappingu (eMethods v doplňku).
Srovnání se stávajícími modely
BDSI a CAIDE jsou existující modely predikce rizika demence, které přiřazují pacientům skóre představující jejich riziko rozvoje demence v delším časovém období. Pro odvození rizikových skóre BDSI a CAIDE jsme vybrali proměnné z UDS, které nejvíce odpovídají proměnným použitým dříve (eTabulka 2 v Dodatku). Výkon našich modelů ML byl porovnán s výkonem BDSI a CAIDE pro predikci 2-ročního výskytu demence.
Výkon modelu napříč podtypy demence
Demence může mít různé příčiny, které odpovídají různým podtypům demence. Abychom vyhodnotili schopnost modelů ML identifikovat různé podtypy demence, rozdělili jsme incidentní případy demence na Alzheimerovu demenci, LBD, vaskulární demenci a další podtypy demence. Pomocí těchto 4 stratifikací jsme vypočítali procento správně klasifikovaných účastníků (skutečně pozitivní míra) a porovnali křivky ROC pro každý model ML.
Zkoumání diagnostické stability
Je známo, že klinická diagnóza demence zahrnuje pacienty, kteří byli zpočátku špatně diagnostikováni (ve skutečnosti jak falešně pozitivní, tak falešně negativní chyby).31 Reverzi definujeme jako případ, kdy účastník, u kterého byla diagnostikována demence až 2 roky po své první návštěvě kliniky paměti a následně obdrží diagnózu bez demence (buď MCI nebo nenarušenou kognici) do 2 let od diagnózy demence. Vzhledem k tomu, že tyto reverze jsou nestabilní diagnózy a pravděpodobně byly výsledkem nesprávné diagnózy demence, zkoumali jsme přesnost klasifikace modelů ML na vzorku účastníků s reverzí (eMetody v příloze). Použili jsme kumulativní distribuční funkci (CDF) klasifikačních skóre výstupů každého modelu ML k porovnání účastníků s reverzí s pacienty, u kterých se rozvinula demence, a pacienty, kteří zůstali bez demence.

Výsledek
Po vyloučení {{0}} účastníků s diagnózou demence na začátku, 4557 účastníků, kteří neměli žádné údaje o následné kontrole, a 573 účastníků, kteří měli první kontrolu více než 29 měsíců po své první návštěvě , konečný analytický vzorek obsahoval 15 307 účastníků (průměrný [SD] věk, 72,3 [9,8] let; 9129 [60 procent ] žen a 6178 [40 procent ] mužů). Charakteristiky vzorku jsou uvedeny v tabulce 1. Během 2 let od výchozího stavu byla u 1568 účastníků (10 procent) diagnostikována demence. Z 1568 účastníků, kterým byla diagnostikována demence, bylo 273 (17 procent) diagnostikováno jediným klinikem a 1216 (78 procent) bylo diagnostikováno konsenzuálním panelem; u 79 účastníků (5 procent) nebyl zdroj diagnózy specifikován. Klíčové ukazatele výkonnosti hodnotící prediktivní schopnost každého modelu jsou uvedeny v tabulce 2. Ve srovnání se stávajícími modely byly modely ML lepší ve své schopnosti předpovědět, zda se u jednotlivce do 2 let rozvine demence, a ve všech měřeních překonaly stávající modely. Všechny modely ML si vedly podobně dobře, přičemž XGB měl největší výkon při měření celkovou přesností (92 procent ) a AUC (průměr [SD], 0,92 [0,01]). Křivka provozních charakteristik přijímače pro každý model ukazuje podobnost mezi modely ML a jejich převahu ve srovnání se 2 existujícími modely rizik (obrázek 1).

Výkon modelu napříč podtypy demence
Abychom zhodnotili výkonnost modelu ML u různých subtypů demence, rozdělili jsme populaci do 4 subtypů demence: Alzheimerova demence (1285 účastníků), LBD (82 účastníků), vaskulární demence (21 účastníků) a další subtypy demence (180 účastníků). Model LR byl nejlepší v identifikaci Alzheimerovy demence a dalších podtypů, správně klasifikoval 589 účastníků (46 procent) s Alzheimerovou demencí a 99 účastníků (55 procent) s jinými podtypy. Model SVM fungoval nejlépe u účastníků s LBD, správně klasifikoval 40 účastníků (49 procent). Všechny modely správně klasifikovaly 7 účastníků (33 procent) s vaskulární demencí. Křivky provozních charakteristik přijímače ukazují, že všechny modely fungovaly přibližně stejně dobře na každém podtypu (eObrázek 1 v Dodatku).
.
Zkoumání minimálního počtu proměnných
Jednou potenciální nevýhodou použití přístupu ML je velký počet zahrnutých proměnných. S rostoucím počtem proměnných požadovaných modelem se implementace v klinickém prostředí stává méně praktická a interpretovatelnost modelu se zhoršuje. Abychom vyhodnotili, kolik proměnných potřebuje každý model ML k dosažení ekvivalentní prediktivní schopnosti k tomu, co jsme našli pomocí všech 258 proměnných (tabulka 2), hodnotili jsme, jak se AUC měnila s počtem proměnných zahrnutých v modelech. Konkrétně jsme seřadili proměnné pro každý model tak, že jsme je seřadili v sestupném pořadí důležitosti (tj. diskriminační síla každé proměnné podle algoritmu; eMethods v doplňku). Následně jsme přeškolili každý model s rostoucím počtem proměnných, počínaje těmi nejdůležitějšími. Zjistili jsme, že všechny modely vyžadovaly pouze 22 proměnných k dosažení diagnostického výkonu statisticky nerozlišitelného od jejich optimální průměrné výkonnosti (obrázek 2; eobrázek 2 v příloze). Syntetické proměnné přidané k zajištění platnosti hodnocení důležitosti proměnné nebyly v 22 hlavních proměnných u žádného modelu, což odráží skutečnost, že po dosažení plného diagnostického výkonu bylo k dispozici jen málo informací pro silné určení pořadí proměnných.
Identifikace klíčových rizikových faktorů
Z 22 nejdůležitějších proměnných pro každý model bylo pouze 5 společných pro všechny modely (tj. klinický úsudek o poklesu paměti, kognitivních schopností, chování, schopnosti řídit záležitosti nebo motorických a pohybových změn; čas na dokončení testu tvorby stopy Část B; CDR: zhoršení orientace; CDR: zhoršení domova a koníčků; a úroveň nezávislosti). Ze zbývajících proměnných byl 1 0 pár, který měl korelaci větší než 0,7, což naznačuje, že šlo o podobné proměnné (eTabulka 3 v Dodatku). Při zohlednění této korelace výměnou proměnných, které byly vysoce korelované, jsme zjistili, že existuje 6 vysoce prediktivních proměnných (klinický úsudek o poklesu, čas na dokončení části B testu tvorby trasy, 3 složky CDR [orientace, paměť a domov a koníčky poškození] a úroveň nezávislosti), které byly společné pro všechny modely ML (eTabulka 4 v Dodatku). Trénováním každého modelu pouze pomocí těchto proměnných jsme zjistili, že u LR a XGB nedošlo k žádnému významnému poklesu diagnostického výkonu: při použití této základní sady 6 proměnných měly tyto modely střední (SD) přesnost 91 procent (0 procento ) pro LR a 91 procent (1 procento) pro XGB a střední (SD) AUC 0,89 (0.01) pro LR a 0,89 (0,02) pro XGB (eTabulka 5 v Dodatku).
Stabilita diagnostiky Z 1568 účastníků, kterým byla během 2 let diagnostikována demence, jsme identifikovali 130 (8 procent ), kteří prodělali reverzi, kteří byli pravděpodobně zpočátku špatně diagnostikováni, a proto nesprávně označeni pro účely ML. Zjistili jsme, že zatímco reverze byly hlášeny pouze u 0,8 procenta účastníků, představovaly 92 až 109 účastníků (7 procent -8 procent) špatně klasifikovaných účastníků s malým množstvím variací mezi modely (tabulka 3). RF model měl nejvyšší diagnostickou stabilitu, správně identifikoval 109 ze 130 účastníků s reverzí (84 procent) tím, že je klasifikoval jako předpokládané, že budou bez demence po 2 letech. Abychom prozkoumali diagnostickou stabilitu modelů ML, odstranili jsme účastníky s reverzí během tréninku (eMethods v doplňku). Po přeškolení modelů bez reverzí jsme zjistili, že RF identifikovala 106 účastníků, kteří zažili reverze (medián [IQR], 82 procent [78 procent -82 procent]), SVM identifikovala 93 účastníků, kteří zažili reverze (medián [IQR], 72 procent [69 procent -74 procent ]) a LR i XGB identifikovaly 92 účastníků, kteří zaznamenali reverze (medián [IQR], 71 procent [68 procent -75 procent]). IQR byly získány bootstrapingem účastníků, kteří zažili reverzi.

Abychom pochopili rozdíl mezi nesprávně klasifikovanými účastníky, účastníky s reverzí a účastníky, u kterých se vyvinula demence bez reverze, analyzovali jsme CDF klasifikačních skóre získaných z každého modelu ML. Zjistili jsme, že skóre nesprávně klasifikovaných účastníků a konkrétních účastníků s reverzí se lišilo od účastníků, u kterých se rozvinula demence, a těch, u kterých se demence nerozvinula (eObrázek 3 v Dodatku). CDF klasifikačních skóre pro účastníky, u kterých se nerozvinula demence, klesly zcela vlevo na každém grafu, což naznačuje, že modely ML přiřadily těmto účastníkům nízkou pravděpodobnost rozvoje demence. Naopak pro účastníky, u kterých se demence skutečně rozvinula, CDF spadaly napravo od grafů: byla jim přiřazena vysoká pravděpodobnost rozvoje demence. U všech modelů distribuce skóre pro účastníky s reverzí klesla nalevo od rozdělení pro účastníky, u kterých se demence rozvinula, což znamená, že účastníci s reverzí byli podle těchto modelů vyhodnoceni jako mající nižší pravděpodobnost rozvoje demence.

Diskuse
V této prognostické studii měly algoritmy ML lepší prognostickou přesnost ve srovnání s BDSI a CAIDE při predikci výskytu demence do 2 let od prvního klinického hodnocení paměti pacienta. Dva z algoritmů ML byly hodnoceny tak, aby dosáhly přesnosti 91 procent a AUC 0,89 s pouze 6 klíčovými proměnnými. Analýzy citlivosti naznačují, že modely ML by mohly správně klasifikovat vysoký podíl účastníků, u kterých došlo k reverzi, u nichž byla potenciálně chybně diagnostikována do 2 let od jejich první návštěvy. Tato studie má několik silných stránek, včetně velkého vzorku pacientů pocházejících z různých paměťových klinik po celých Spojených státech, široké škály používaných technik ML, srovnávání s existujícími rizikovými modely a zkoumání diagnostické stability a pravděpodobné chybné diagnózy.

Předchozí studie využití ML k predikci rizika demence se zaměřovaly na konverzi z neporušené kognice na Alzheimerovu demenci nebo MCI,6,8 nebo konverzi z MCI na Alzheimerovu demenci.5 Tyto přístupy jsou v klinickém prostředí méně užitečné, protože vylučují jiné typy demence5,6,8 nebo pacienti, kteří jsou zpočátku kognitivně bez poruchy.5 Údaje použité v těchto studiích zahrnovaly skenování pozitronovou emisní tomografií5,8 a biomarkery mozkomíšního moku,8 z nichž nejsou běžně dostupné v prostředí paměťové kliniky. Studie Lin et al6 to překonala použitím údajů NACC k nalezení souboru 15 neinvazivních klinických proměnných k posouzení rizika konverze z nepoškozené kognice na MCI v období 4-roku. Konstrukt MCI však zůstává poněkud kontroverzní32 a míry konverze mezi MCI a demencí jsou často nízké.32,33 Naše modely ML doplňují tyto analýzy a mají výhodu v tom, že začleňují pouze 6 klíčových proměnných během klinicky relevantního časového rámce a předpovídají výsledek demence ze všech příčin.
Ze stávajících modelů zkoumaných v naší studii byl model CAIDE nejméně přesný v predikci rizika demence na 2 roky, což není překvapivé, protože byl vyvinut k predikci dlouhodobého rizika demence u dospělých středního věku po mnohem delší dobu. sledovací období 20 let. BDSI fungoval lépe než CAIDE, což pravděpodobně odráží, že byl navržen pro použití u starších dospělých během mírnějšího období sledování 6 let. Všechny modely ML však tyto stávající modely předčily. Při použití všech proměnných byl XGB nejúčinnějším přístupem ML při predikci pacientů, u kterých byla pravděpodobnost diagnostikování demence do 2 let, což naznačuje, že způsob, jakým jsou nové rozhodovací stromy trénovány k opravě chyb posledních tří, vede k marginálnímu výkonu. získat. Zdá se však, že XGB je také přístupem, který je nejméně schopný identifikovat účastníky, kteří prodělali reverzi, tj. ty, u kterých byla původně diagnostikována demence do 2 let a tato diagnóza byla změněna do 2 let od počáteční diagnózy.
Výkon modelů ML může být značně snížen chybně označenými trénovacími daty.34 Vyloučení chybně označených trénovacích dat ne vždy zlepší výkon.35 Se zvyšující se hladinou šumu v trénovacích datech se hodnota vyloučení nebo snížení tohoto hluku snižuje, pokud stejný šum je přítomen v ověřovacích datech.36 Filtrování trénovacích dat tedy může dokonce snížit data zneplatnění výkonu, jak bylo zjištěno v této studii. Pokud je však míra chybného označení nižší než přibližně 20 až 40 procent, odstranění chybně označených dat může zlepšit přesnost validačních dat, i když obsahují chybně označená data.35,37,38 To ilustruje důležitost zkoumání diagnostické stability při školení a validační data: dokonce i standardní data kritéria obsahují chyby.
Pozorovaná míra reverze (8 procent) byla podobná jako ve studii z roku 2019 založené na jiné populaci USA.31 V naší studii bylo zjištěno, že procento falešně pozitivních výsledků kolísá od 7 procent do 19 procent, v závislosti na kognitivní použité hodnocení. Pokud je nám známo, toto je první analýza potenciálních chybných diagnóz v NACC UDS a naznačuje, že použití ML jako klinického pomocníka při rozhodování má potenciál snížit chybnou diagnózu falešně pozitivních výsledků až o 84 procent. Vzhledem k tomu, že pacienti, u kterých dojde k reverzi, jsou v diagnostickém smyslu hraniční, z klinického hlediska může být rozumné, aby byli přesto sledováni, vzhledem k tomu, že existují důvody pro klinický zájem. XGB tedy může být nejlepším modelem pro klinické rozhodování. Alternativně může být ještě užitečnější souborový přístup, který vytváří sekundární předpovědi o pravděpodobné diagnostické stabilitě a potenciálu pro chybnou klasifikaci.

Omezení
Tato studie má několik omezení. Za prvé, jak CAIDE, tak BDSI byly vyvinuty s použitím odlišných populací, než jaké byly použity v této studii. Ne všechny proměnné použité pro vývoj těchto modelů měly přesný ekvivalent v UDS, což mohlo ovlivnit jejich výkon v tomto souboru dat. Za druhé, metoda použitá k imputaci dat může vést k chybě imputace. Konkrétně imputace nahradí všechny chybějící hodnoty číselnou hodnotou, ale některé hodnoty chybí kvůli jejich vztahu s jinou hodnotou; proto skutečnost, že nějaká hodnota chybí, je informativní. Zatímco však účastníci měli v průměru 14 procent chybějících údajů, 6 identifikovaných klíčových proměnných chybělo v průměru 1 procentu účastníků. Zatřetí, ačkoli naše studie použila velký vzorek účastníků paměťové kliniky ve Spojených státech, díky čemuž jsou naše výsledky vysoce použitelné pro toto nastavení, není známo, do jaké míry se tyto výsledky zobecní na další populace.
Závěry
Tato prognostická studie zjistila, že modely ML překonaly stávající modely predikce rizika demence a mohou mít potenciál zlepšit predikci incidentní demence během 2 let na paměťových klinikách. Šest klíčových faktorů pro riziko demence identifikovaných v této studii může mít potenciál zlepšit klinickou praxi na klinikách paměti, pokud budou začleněny do budoucích pomůcek pro klinické rozhodování.

