Οι μισές απαντήσεις των AI για την υγεία είναι λάθος, αν και ακούγονται πειστικές

Νέα μελέτη δείχνει ότι πέντε δημοφιλή AI chatbots έδωσαν προβληματικές απαντήσεις σε σχεδόν τις μισές ιατρικές και υγειονομικές ερωτήσεις που τους τέθηκαν.

Οι μισές απαντήσεις των AI για την υγεία είναι λάθος, αν και ακούγονται πειστικές

Μια νέα μελέτη που δημοσιεύτηκε στο BMJ Open εγείρει σοβαρά ερωτήματα για την αξιοπιστία των AI chatbots όταν χρησιμοποιούνται για ιατρικές και υγειονομικές πληροφορίες. Σύμφωνα με τα ευρήματα, περίπου οι μισές απαντήσεις που έδωσαν πέντε δημόσια διαθέσιμα chatbots σε ερωτήσεις σχετικές με την υγεία ήταν ανακριβείς ή ελλιπείς.

Η μελέτη πραγματοποιήθηκε από ερευνητική ομάδα με επικεφαλής επιστήμονα από το Πανεπιστήμιο της Καλιφόρνιας στο Λος Άντζελες και εξέτασε τα Gemini της Google, DeepSeek της High-Flyer, Meta AI της Meta, ChatGPT της OpenAI και Grok της xAI.

Τον Φεβρουάριο του 2025, οι ερευνητές υπέβαλαν σε κάθε chatbot δέκα ερωτήσεις σε πέντε θεματικές κατηγορίες: καρκίνος, εμβόλια, βλαστοκύτταρα, διατροφή και αθλητική απόδοση. Ζήτησαν επίσης από τα chatbots να παραθέσουν επιστημονικές πηγές. Οι ερωτήσεις ήταν ανοιχτού και κλειστού τύπου και σχεδιάστηκαν έτσι ώστε να μοιάζουν με συνηθισμένες απορίες που αναζητούν οι χρήστες στο διαδίκτυο, αλλά και να ελέγχουν την ευαλωτότητα των μοντέλων απέναντι σε παραπληροφόρηση ή συμβουλές αντίθετες με τα ιατρικά πρότυπα.

Οι απαντήσεις αξιολογήθηκαν από ειδικούς κάθε κατηγορίας ως μη προβληματικές, κάπως προβληματικές, ιδιαίτερα προβληματικές ή δυνητικά επιβλαβείς. Παράλληλα, αξιολογήθηκαν η ακρίβεια και η πληρότητα των παραπομπών, καθώς και η αναγνωσιμότητα των απαντήσεων.

Τα αποτελέσματα έδειξαν ότι το 49,6% των απαντήσεων ήταν προβληματικές. Από αυτές, το 30% κρίθηκε κάπως προβληματικό και το 19,6% ιδιαίτερα προβληματικό. Η συνολική ποιότητα των απαντήσεων δεν διέφερε σημαντικά μεταξύ των chatbots, ωστόσο το Grok παρήγαγε περισσότερες ιδιαίτερα προβληματικές απαντήσεις από όσες θα αναμένονταν τυχαία. Αντίθετα, το Gemini είχε τις λιγότερες ιδιαίτερα προβληματικές και τις περισσότερες μη προβληματικές απαντήσεις.

Η καλύτερη απόδοση καταγράφηκε στις ερωτήσεις για τα εμβόλια και τον καρκίνο, ενώ οι πιο αδύναμες επιδόσεις εμφανίστηκαν στις κατηγορίες των βλαστοκυττάρων, της αθλητικής απόδοσης και της διατροφής. Οι ερευνητές σημείωσαν επίσης ότι τα chatbots απαντούσαν σχεδόν πάντα με σιγουριά και βεβαιότητα, δίνοντας ελάχιστες προειδοποιήσεις ή επιφυλάξεις. Από τις 250 συνολικές ερωτήσεις, μόνο δύο οδήγησαν σε άρνηση απάντησης, και οι δύο από το Meta AI.

Ιδιαίτερα προβληματική κρίθηκε και η ποιότητα των επιστημονικών παραπομπών. Οι ερευνητές διαπίστωσαν ότι κανένα chatbot δεν κατάφερε να παρέχει πλήρως ακριβή λίστα πηγών, λόγω φαινομένων όπως οι «παραισθήσεις» και οι κατασκευασμένες παραπομπές. Η διάμεση βαθμολογία πληρότητας των παραπομπών ήταν μόλις 40%. Επιπλέον, οι απαντήσεις χαρακτηρίστηκαν δύσκολες ως προς την αναγνωσιμότητα, απαιτώντας τουλάχιστον κάποιο επίπεδο πανεπιστημιακής εκπαίδευσης για να γίνουν εύκολα κατανοητές.

Οι συγγραφείς της μελέτης υπενθυμίζουν ότι τα chatbots, από προεπιλογή, δεν έχουν πρόσβαση σε δεδομένα πραγματικού χρόνου. Αντίθετα, παράγουν απαντήσεις προβλέποντας πιθανές ακολουθίες λέξεων με βάση τα δεδομένα εκπαίδευσής τους. Όπως σημειώνουν, δεν συλλογίζονται, δεν σταθμίζουν αποδεικτικά στοιχεία και δεν μπορούν να κάνουν ηθικές ή αξιακές κρίσεις.

Παράλληλα, οι απαντήσεις τους βασίζονται εν μέρει σε φόρουμ ερωτήσεων-απαντήσεων και μέσα κοινωνικής δικτύωσης, ενώ η επιστημονική πληροφορία στην οποία έχουν πρόσβαση περιορίζεται κυρίως σε δημόσια διαθέσιμες μελέτες, οι οποίες αντιπροσωπεύουν μόνο ένα μέρος της συνολικής δημοσιευμένης έρευνας. Αυτό, σύμφωνα με τους ερευνητές, μπορεί να βελτιώνει τη φυσικότητα της συνομιλίας, αλλά εις βάρος της επιστημονικής ακρίβειας.

Οι ίδιοι αναγνωρίζουν ότι η μελέτη έχει περιορισμούς, καθώς εξέτασε μόνο πέντε chatbots σε ένα πεδίο που εξελίσσεται πολύ γρήγορα. Επίσης, οι ερωτήσεις ήταν εν μέρει σχεδιασμένες για να πιέζουν τα μοντέλα προς παραπλανητικές ή προβληματικές απαντήσεις, κάτι που ίσως υπερεκτιμά τη συχνότητα του προβληματικού περιεχομένου σε πραγματικές συνθήκες χρήσης.

Παρόλα αυτά, το συμπέρασμα των ερευνητών είναι σαφές: τα chatbots είχαν κακή απόδοση όταν κλήθηκαν να απαντήσουν σε ερωτήσεις υγείας και ιατρικής σε πεδία επιρρεπή στην παραπληροφόρηση. Η συνέχιση της χρήσης τους χωρίς ενημέρωση του κοινού και χωρίς εποπτεία, προειδοποιούν, μπορεί να ενισχύσει τη διάδοση λανθασμένων ιατρικών πληροφοριών.

Πηγή: CIDRAP

Μπείτε στη συζήτηση

σχόλια

v