Descrierea studiului:
Setul de date "Cirrhosis Patient Survival Prediction" este o colecție de informații care vizează predicția supraviețuirii pacienților cu ciroză hepatică. Acesta cuprinde 17 caracteristici și variabile pentru a prezice supraviețuirea și starea pacienților diagnosticați cu ciroză hepatică, inclusiv date demografice, rezultate ale testelor de laborator, informații despre tratamente și alte factori medicali relevanți.
Supraviețuirea este codificată 0 = D – deces, 1 = C – cenzurat, 2 = CL – cenzurat datorită transplantului
Obiectivul principal al acestui set de date este de a permite analiza și predicția supraviețuirii pacienților în funcție de diferitele lor caracteristici și factori medicali. Ciroza este consecința afectării prelungite a ficatului, care duce la cicatrici extinse, adesea din cauza unor afecțiuni precum hepatita sau consumul cronic de alcool. Datele sunt furnizate dintr-un studiu clinic al Clinicii Mayo privind ciroza biliară primară (CBP) a ficatului (1974 și 1984).
Înțelegerea setului de date:
Setul de date poate conține informații despre diversitatea răspunsurilor pacienților la tratamentele specifice, evoluția bolii și alte detalii clinice care pot fi cruciale pentru înțelegerea și gestionarea cirozei hepatice.
424 de pacienți cu PBC care s-au prezentat la Clinica Mayo s-au calificat pentru un studiu randomizat controlat cu placebo care a testat medicamentul D-penicilamină. Dintre aceștia, primii 312 pacienți au luat parte la studiu și au în mare parte date cuprinzătoare. Restul de 112 pacienți nu s-au alăturat studiului clinic, dar au fost de acord să înregistreze valorile de bază și să fie supuși urmăririi supraviețuirii. Șase dintre acești pacienți au fost în scurt timp imposibil de urmărit după diagnosticul lor, lăsând date pentru 106 dintre acești indivizi, în plus față de cei 312 care au făcut parte din studiul randomizat.
Acest lucru poate fi utilizat pentru a dezvolta modele predictive care să ajute medicii să evalueze riscurile și perspectivele de supraviețuire pentru pacienții diagnosticați cu ciroză hepatică. Folosind datele din acest set, algoritmi de învățare automată pot fi antrenați pentru a identifica tipare și corelații între variabilele din cadrul acestui context medical specific.
Este important să se menționeze că manipularea și analiza acestui set de date trebuie realizată cu mare atenție și etică medicală, respectând confidențialitatea și drepturile pacienților, precum și utilizând informațiile doar în scopuri de cercetare și îmbunătățire a îngrijirii medicale.
Variabilele setului de date:
Procesarea datelor și cercetarea
https://colab.research.google.com/drive/1752vdy9Zb0MLbEoB-veg5QvRLuClMdgc#scrollTo=dceff5d2
Pentru început am împărțit setul de date în următoarele capitole:
Încărcarea bibliotecilor si a setului de date
Informații despre setul de date
Validarea
Distribuția caracteristicilor numerice
Distribuția caracteristicilor categorice
Distribuția țintita
Colorarea și gruparea ierarhica
Pregătirea setului de date
Validarea încrucișata a modelului
Predicția și transmiterea rezultatelor
Am încărcat bibliotecile: numpy, pandas, matplotlib.pyplot și seaborn, împreună cu module din sklearn, scipy și module din bibliotecile de clasificare precum: xgboost, lightgbm, catboost. Apoi am încărcat seturile de date de antrenament, de test și setul de date original.
Am studiat prin statistică descriptivă toate cele 3 seturi de date.
Am efectuat validarea contradictorie pentru a vedea dacă seturile de antrenament și cel de test au distribuție similara prin determinarea scorului ROC-AUC, cu un rezultat de 0,50192, trăgând concluzia că cele două seturi sunt similare.
Am suprapus în grafice distincte pentru fiecare caracteristică din tabele (coloană) distribuția valorilor numerice observând că cele două seturi de antrenament și de test au o distribuție similară, iar setul de date original o distribuție aparte (albastru).
Am aplicat același lucru pentru variabilele categorice pentru datele din setul de antrenament, creându-ne o imagine despre câți pacienți au primit D-penicilamină, câți placebo, despre distribuția pe sexe (majoritatea fiind bărbați – 93%), despre proporția prezenței ascitei (5%), apariția hepatomegaliei a jumătate dintre pacienți.
Distribuția țintită a pacienților în setul de date de antrenament relevă că 63% au supraviețuit, 34% au decedat, iar 3% au supraviețuit în urma transplantului hepatic.
Am realizat corelarea și gruparea ierarhică prin realizarea corelațiilor dintre caracteristicile seturilor de date sub forma unui heatmap, prin care s-a observat o corelație puterinică între nivelurile serice ale cuprului și bilirubinei, al SGOT (aspartat aminotransferazei - AST) cu bilirubina, nivelul de cupru și al fosfatazei alcaline.
Am realizat pregătirea setului de date pentru Machine Learning models și am generat modele precum: regresie logistică, analiza discriminarii liniare, distribuție Gaussiană, distribuție Bernoulli, clasificarea K-Neighbors, Random forest, XGBC, LGBMC, catboost etc.
Evaluarea rezultatelor
Rezultatele generate de modelele noastre pentru regresii, distribuții și clasificări le-am reprezentat grafic într-un barplot care ne sugerează că cel mai bun model pentru următoarele predicții este GradientBoostingClassifier. În urma rezultatelor antrenăm modelul pe setul de date de antrenament, urmând a face predicțiile.
Perspective de viitor
În viitor propunem să realizăm predicțiile pentru aceste seturi de date.
Bibliografie
https://www.kaggle.com/datasets/joebeachcapital/cirrhosis-patient-survival-prediction/data
Niciun comentariu:
Trimiteți un comentariu