Αν τρέχεις στο AI με τον πρώτο πονοκέφαλο, πάρτο αλλιώς γιατί σου τα λέει λάθος

Όσ@ απευθύνονται στο AI κάθε φορά που πονάνε λίγο πιο αριστερά στην κοιλιά ή κάθε που χτυπάει η ημικρανία, μάλλον πρέπει να αναθεωρήσουν.

Τεχνητή νοημοσύνη, chatbot Unsplash
28.06.2026 | 14:18
Διαβάζεται σε 6'
Προσθέστε το Rosa.gr ως προτιμώμενη πηγή στην Google

Ανακαλύψτε περισσότερα άρθρα στα αποτελέσματα αναζήτησης.

Προσθήκη του Rosa.gr στην Google

Όσ@ απευθύνονται στο AI κάθε φορά που πονάνε λίγο πιο αριστερά στην κοιλιά ή κάθε που χτυπάει η ημικρανία, μάλλον πρέπει να αναθεωρήσουν. Σύμφωνα με μια πρόσφατη μελέτη που παρουσιάστηκε στο επιστημονικό περιοδικό Nature Medicine, αυτή η πρώτη ψηφιακή επαφή ενδέχεται να καθοδηγήσει τους χρήστες σε εντελώς εσφαλμένα συμπεράσματα.

Αναμφίβολα, τα εξελιγμένα μεγάλα γλωσσικά μοντέλα, όπως το GPT-4o, το Llama 3 και το Command R+, έχουν αποδείξει την ικανότητά τους να ανταποκρίνονται υποδειγματικά σε θεωρητικά ιατρικά τεστ. Καταγράφουν εξαιρετικές επιδόσεις σε εξετάσεις και διαμορφώνουν τόσο πειστικές απαντήσεις, ώστε να δίνουν την ψευδαίσθηση ότι «καταλαβαίνουν» το πρόβλημα. Αυτό, ωστόσο, δεν εγγυάται ότι η χρήση τους είναι ασφαλής για έναν απλό πολίτη που προσπαθεί να αξιολογήσει τα συμπτώματά του, τη σοβαρότητα της κατάστασής του και τα επόμενα βήματά του.

Οι ερευνητές εστίασαν ακριβώς σε αυτό το κομμάτι: όχι στην αποθηκευμένη ιατρική γνώση της τεχνητής νοημοσύνης σε θεωρητικό επίπεδο, αλλά στην πρακτική της χρησιμότητα για το ευρύ κοινό υπό πραγματικές συνθήκες, όπου ένας ανήσυχος άνθρωπος ανοίγει ένα chatbot για να ζητήσει βοήθεια.

Ανησυχητικά ευρήματα

Στην έρευνα συμμετείχαν 1.298 άτομα από το Ηνωμένο Βασίλειο, τα οποία κλήθηκαν να μελετήσουν δέκα υποθετικά ιατρικά σενάρια που είχαν συντάξει επαγγελματίες υγείας. Οι εθελοντές έπρεπε να ανταποκριθούν σε δύο άξονες: να αναγνωρίσουν τις πιθανές ασθένειες πίσω από τα συμπτώματα και να επιλέξουν την ορθή αντιμετώπιση (παραμονή στο σπίτι, επίσκεψη σε γιατρό, μετάβαση στα επείγοντα ή κλήση ασθενοφόρου).

Οι συμμετέχοντες χωρίστηκαν σε υποομάδες, με κάποιες από αυτές να χρησιμοποιούν ένα από τα τρία υπό εξέταση γλωσσικά μοντέλα, ενώ η ομάδα ελέγχου βασίστηκε στις συνήθεις μεθόδους, όπως η κλασική αναζήτηση στο ίντερνετ και οι υγειονομικές ιστοσελίδες.

Τα αποτελέσματα προκαλούν προβληματισμό λόγω της πολυπλοκότητάς τους:

Διάγνωση παθήσεων: Όταν τα μοντέλα είχαν στη διάθεσή τους το πλήρες ιστορικό και τα συμπτώματα, αποδείχθηκαν ιδιαίτερα αποτελεσματικά, εντοπίζοντας τις σχετικές παθήσεις στο 94,9% των περιπτώσεων.

Καθοδήγηση ενεργειών: Όταν κλήθηκαν να προτείνουν την κατάλληλη ιατρική ενέργεια, η ευστοχία τους υποχώρησε δραματικά, αγγίζοντας μόλις το 56,3%.

Συνεπώς, ακόμη και στην ιδανική περίπτωση όπου η AI λειτουργούσε αυτόνομα, χωρίς τα λάθη μιας ανθρώπινης συνομιλίας, τα σφάλματα ήταν υπαρκτά. Όταν όμως προστέθηκε στην εξίσωση ο ανθρώπινος παράγοντας, η κατάσταση επιδεινώθηκε.

Το πρόβλημα της ανθρώπινης αλληλεπίδρασης με το AI

Οι χρήστες που συμβουλεύτηκαν τα γλωσσικά μοντέλα δεν εμφάνισαν καλύτερες επιδόσεις από την ομάδα ελέγχου. Μάλιστα, όσον αφορά την αναγνώριση των παθήσεων, τα πήγαν χειρότερα από όσους κατέφυγαν σε παραδοσιακές πηγές ενημέρωσης, ενώ στο κρίσιμο ερώτημα της σωστής αντίδρασης δεν σημειώθηκε καμία ουσιαστική βελτίωση.

Αυτό αποτελεί και τον πυρήνα των συμπερασμάτων της μελέτης. Το ρίσκο δεν έγκειται μόνο στην πιθανότητα σφάλματος της AI, αλλά στο ότι η χρήση της από άτομα χωρίς ιατρικό υπόβαθρο πυροδοτεί μια σειρά από παρερμηνείες:

Ο ασθενής μπορεί να μην είναι σε θέση να ιεραρχήσει τη σοβαρότητα των συμπτωμάτων του ή να τα περιγράψει ελλιπώς.

Συχνά διατυπώνονται καθοδηγητικές ερωτήσεις (π.χ. «μήπως φταίει το άγχος;»), περιορίζοντας το εύρος ανταπόκρισης του αλγορίθμου.

Κατά τη διάρκεια της συζήτησης, ο χρήστης ενδέχεται να προσπεράσει μια σωστή ιατρική εκτίμηση του μοντέλου και να μην τη συμπεριλάβει στο τελικό του συμπέρασμα.

Οι επιστήμονες εντόπισαν πληθώρα τέτοιων αστοχιών στις συνομιλίες. Πολλές αρχικές περιγραφές δεν παρείχαν τα απαραίτητα δεδομένα για μια έγκυρη σύσταση, ενώ άλλοτε τα μοντέλα πρότειναν τη σωστή πάθηση, αλλά οι χρήστες αδυνατούσαν να αντιληφθούν τη βαρύτητά της.

Παράλληλα, καταγράφηκαν σοβαρά λάθη κατανόησης και από την πλευρά των ίδιων των μοντέλων, τα οποία εστίαζαν σε ασήμαντες λέξεις, έδιναν μπερδεμένες οδηγίες ή παρέπεμπαν σε τηλεφωνικά νούμερα έκτακτης ανάγκης άλλων κρατών. Χαρακτηριστικό είναι το παράδειγμα δύο χρηστών με πανομοιότυπα συμπτώματα (έντονη κεφαλαλγία, αυχενική δυσκαμψία και φωτοευαισθησία): στο έναν το μοντέλο πρότεινε απλή ξεκούραση στο σπίτι, ενώ στον άλλον συνέστησε ορθώς την άμεση μετάβαση στα επείγοντα.

Αυτή η έλλειψη σταθερότητας είναι καθοριστική. Στον τομέα της υγείας, μια απάντηση δεν αρκεί να μοιάζει λογική· πρέπει να είναι απόλυτα αξιόπιστη και ασφαλής, ειδικά όταν ο αποδέκτης δεν διαθέτει τις γνώσεις για να την αμφισβητήσει.

Η ψευδαίσθηση της αυθεντίας

Ένας ακόμη κίνδυνος είναι η αίσθηση βεβαιότητας που εκπέμπουν τα chatbots. Λόγω του συγκροτημένου, νηφάλιου και πειστικού τρόπου γραφής τους, οι χρήστες τείνουν να τα αντιμετωπίζουν ως αυθεντίες. Στο πλαίσιο της έρευνας, ορισμένοι εθελοντές αντιμετώπισαν τις απαντήσεις της AI σαν να προέρχονταν από πραγματικό γιατρό, σχολιάζοντας ότι το σύστημα «φαινόταν αρκετά σίγουρη».

Ωστόσο, ο σίγουρος τόνος δεν συνεπάγεται ιατρική εγκυρότητα.

Αναθεώρηση των Μεθόδων Αξιολόγησης
Η μελέτη αναδεικνύει επίσης ότι τα καθιερωμένα τεστ αξιολόγησης των LLMs είναι ελλιπή. Ένα μοντέλο μπορεί να αριστεύει σε τυποποιημένες ιατρικές εξετάσεις, αλλά να αποτυγχάνει παταγωδώς όταν καλείται να καθοδηγήσει έναν πραγματικό άνθρωπο μέσω διαλόγου.

Όταν οι ερευνητές αντικατέστησαν τους ανθρώπους με εικονικούς ασθενείς (επίσης βασισμένους σε AI), τα αποτελέσματα ήταν σαφώς πιο οργανωμένα και επιτυχή, όμως δεν αντικατοπτρίζουν την ανθρώπινη απρόβλεπτη συμπεριφορά. Οι πραγματικοί ασθενείς δεν διατυπώνουν πάντα σωστά τις ερωτήσεις τους ούτε αξιολογούν πάντα ορθά τις απαντήσεις που λαμβάνουν.

Αυτό είναι ίσως το πιο ουσιαστικό μήνυμα για όσους αναπτύσσουν ή ελέγχουν θεσμικά την τεχνητή νοημοσύνη στην υγεία: οι δοκιμές δεν πρέπει να περιορίζονται σε θεωρητικά τεστ γνώσεων, αλλά να γίνονται με πραγματικούς χρήστες σε αληθινές συνθήκες επικοινωνίας.

Οι συντάκτες της μελέτης δεν απορρίπτουν τη συμβολή της τεχνητής νοημοσύνης στην ιατρική, καθώς αναγνωρίζουν ότι μπορεί να διευκολύνει την πρόσβαση στην πληροφορία και να αποσυμφορήσει τα πιεσμένα συστήματα υγείας. Το ζήτημα, όμως, είναι το πλαίσιο και οι δικλείδες ασφαλείας.

Προς το παρόν, η διαπίστωσή τους παραμένει ξεκάθαρη: κανένα από τα εργαλεία που δοκιμάστηκαν δεν είναι έτοιμο να αναλάβει την άμεση ιατρική καθοδήγηση ασθενών.

Στην πραγματικότητα, ο άνθρωπος που αναζητά βοήθεια σε ένα chatbot δεν διαθέτει έναν πλήρη και δομημένο ιατρικό φάκελο. Προσέρχεται με άγχος, αποσπασματικές πληροφορίες και λανθασμένες ερωτήσεις. Αν το σύστημα αδυνατεί να τον κατευθύνει ώστε να περιγράψει σωστά την κατάστασή του, τότε η ιατρική γνώση που είναι αποθηκευμένη στον αλγόριθμο παραμένει άχρηστη, καθώς δεν φτάνει ποτέ με ασφάλεια στον αποδέκτη.

Στην ιατρική, μια λανθασμένη οδηγία μπορεί να αποβεί μοιραία, καθυστερώντας την αναζήτηση της κατάλληλης φροντίδας, οδηγώντας στην υποτίμηση ενός σοβαρού συμπτώματος ή, αντίθετα, προκαλώντας άσκοπη προσέλευση σε νοσοκομεία.

Η τεχνητή νοημοσύνη μπορεί να λειτουργήσει ως ένα χρήσιμο μέσο ενημέρωσης, αλλά δεν είναι γιατρός και δεν μπορεί να υποκαταστήσει την ιατρική κρίση. Η υπόσχεση για άμεση ψηφιακή διάγνωση ανά πάσα στιγμή είναι ελκυστική, όμως η ευκολία αυτή δεν εγγυάται μια ασφαλή απόφαση για την υγεία μας.