Τι συμβαίνει όταν ρωτάμε τη Τεχνητή Νοημοσύνη για την υγεία μας – Ποιες ερωτήσεις οδηγούν σε λάθος απαντήσεις

τεχνητή νοημοσύνη για συμβουλές υγείας

Σύνοψη

  • Μια πρόσφατη έρευνα φέρνει στο φως ανησυχητικά ευρήματα για την αξιοπιστία των AI chatbots, καθώς σημαντικό ποσοστό των απαντήσεών τους σε ερωτήσεις υγείας ήταν προβληματικό.
  • Ιδιαίτερα προβληματικές είναι οι απαντήσεις σε ανοιχτού τύπου ερωτήσεις, ενώ συχνά οι «επιστημονικές» αναφορές που παραθέτουν τα chatbots είναι ανακριβείς ή και εντελώς επινοημένες.
  • Παρόλο που μπορούν να λειτουργήσουν ως αφετηρία για έρευνα, τα chatbots δεν μπορούν να αντικαταστήσουν την ιατρική κρίση και η ασφαλής χρήση τους προϋποθέτει επιβεβαίωση των πληροφοριών.

Μια πρόσφατη έρευνα φέρνει στο φως ανησυχητικά ευρήματα για την αξιοπιστία των AI chatbots όταν καλούνται να απαντήσουν σε ερωτήσεις υγείας, αποδεικνύοντας ότι οι καλογραμμένες απαντήσεις από την Τεχνητή Νοημοσύνη δεν είναι πάντα και σωστές.

Νέο εργαλείο AI διαβάζει τη φωτογραφία μας και προβλέπει τη βιολογική ηλικία και τον κίνδυνο θανάτου από καρκίνο

Τι συμβαίνει όταν ρωτάμε AI για την υγεία μας

Φανταστείτε να έχετε μόλις διαγνωστεί με καρκίνο σε πρώιμο στάδιο και, πριν επισκεφθείτε ξανά τον γιατρό σας, να αναζητάτε απαντήσεις σε ένα chatbot. Η απάντηση που λαμβάνετε είναι καλογραμμένη και πειστική, με υποσημειώσεις που μοιάζουν επιστημονικές.

Ωστόσο, πίσω από αυτή την εικόνα αξιοπιστίας μπορεί να κρύβονται ανακρίβειες, ανύπαρκτες πηγές και ισχυρισμοί που δεν στηρίζονται σε δεδομένα.

Τα βασικά ευρήματα της μελέτης

Η εικόνα αυτή δεν είναι υποθετική. Μια ομάδα επτά ερευνητών εξέτασε συστηματικά πέντε από τα πιο γνωστά chatbots, με τη μελέτη να δημοσιεύεται στο BMJ Open.

Τα chatbots κλήθηκαν να απαντήσουν σε 50 ερωτήσεις που κάλυπταν θέματα όπως καρκίνος, εμβόλια, βλαστοκύτταρα, διατροφή και αθλητική απόδοση. Δύο ειδικοί αξιολόγησαν ανεξάρτητα κάθε απάντηση.

Τα αποτελέσματα έδειξαν ότι σημαντικό ποσοστό των απαντήσεων ήταν προβληματικό, ενώ καμία πλατφόρμα δεν κατάφερε να παρέχει απόλυτα αξιόπιστες επιστημονικές αναφορές.

«Έχασα 12 κιλά σε 4 μήνες με τη βοήθεια του AI» – Το κόλπο της 30χρονης για απώλεια βάρους

Παρόμοια εικόνα σε όλα τα chatbots

Συνολικά, τα πέντε συστήματα είχαν παρόμοια απόδοση, αν και με διακυμάνσεις. Το Grok κατέγραψε τα υψηλότερα ποσοστά προβληματικών απαντήσεων, ενώ ακολούθησαν το ChatGPT και το Meta AI.

Παρά τις διαφορές, κανένα από τα εργαλεία δεν ξεχώρισε ως πραγματικά αξιόπιστο, κάτι που δείχνει ότι το πρόβλημα δεν αφορά μία μόνο πλατφόρμα αλλά τη συνολική τεχνολογία.

Η απόδοση των chatbots εξαρτάται σε μεγάλο βαθμό από το θέμα. Σε πεδία όπως τα εμβόλια και ο καρκίνος, όπου υπάρχει εκτεταμένη και δομημένη επιστημονική γνώση, οι απαντήσεις ήταν πιο ακριβείς.

Αντίθετα, σε τομείς όπως η διατροφή και η αθλητική απόδοση, όπου κυκλοφορούν αντικρουόμενες πληροφορίες, τα λάθη ήταν πιο συχνά.

Οι ανοιχτές ερωτήσεις κρύβουν τον μεγαλύτερο κίνδυνο

Το πιο ανησυχητικό εύρημα της μελέτης αφορά τις ανοιχτού τύπου ερωτήσεις, δηλαδή εκείνες που δεν έχουν σαφή σωστή ή λάθος απάντηση.

Σε αυτές τις περιπτώσεις, τα chatbots τείνουν να δίνουν πιο εκτενείς και σίγουρες απαντήσεις, οι οποίες όμως είναι συχνά παραπλανητικές.

Η πιο κρίσιμη διαπίστωση:

  • 32% των απαντήσεων σε ανοιχτές ερωτήσεις ήταν ιδιαίτερα προβληματικές
  • Στις κλειστές ερωτήσεις το ποσοστό έπεφτε στο 7%
  • Οι περισσότερες ερωτήσεις των χρηστών στην πράξη είναι ανοιχτού τύπου

Αυτό σημαίνει ότι το ρίσκο αυξάνεται ακριβώς στον τρόπο που χρησιμοποιούνται καθημερινά αυτά τα εργαλεία.

Έξυπνο έμπλαστρο με τεχνολογία AI αποκαλύπτει τα συναισθήματά μας ακόμη κι όταν τα κρύβουμε

Όταν οι «επιστημονικές» αναφορές δεν είναι αληθινές

Ένα ακόμη σοβαρό ζήτημα αφορά τις παραπομπές. Όταν οι ερευνητές ζήτησαν από τα chatbots να παραθέσουν επιστημονικές αναφορές, η πληρότητα ήταν χαμηλή και τα λάθη συχνά.

Σε πολλές περιπτώσεις εντοπίστηκαν λανθασμένοι συγγραφείς, κατεστραμμένοι σύνδεσμοι ή ακόμη και εντελώς επινοημένες μελέτες.

Το πρόβλημα είναι ότι μια καλοδιατυπωμένη λίστα αναφορών δημιουργεί την εντύπωση εγκυρότητας, ακόμη και όταν δεν ισχύει.

Γιατί συμβαίνουν αυτά τα λάθη

Ο λόγος πίσω από αυτά τα φαινόμενα είναι θεμελιώδης. Τα γλωσσικά μοντέλα δεν λειτουργούν όπως οι ειδικοί επιστήμονες.

Δεν αξιολογούν αποδείξεις ούτε «γνωρίζουν» πληροφορίες. Αντίθετα, προβλέπουν την πιο πιθανή συνέχεια ενός κειμένου, βασισμένα σε τεράστιους όγκους δεδομένων που περιλαμβάνουν τόσο αξιόπιστες όσο και αμφίβολες πηγές.

Οι ερευνητές μάλιστα χρησιμοποίησαν την τεχνική «red teaming», σχεδιάζοντας ερωτήσεις που ωθούν σκόπιμα τα συστήματα σε λάθη.

AI: Μπορεί η τεχνητή νοημοσύνη να κάνει διάγνωση δερματικών παθήσεων;

Τι δείχνουν και άλλες έρευνες

Τα συμπεράσματα επιβεβαιώνονται και από άλλες επιστημονικές μελέτες.

Έρευνα στο Nature Medicine έδειξε ότι, ενώ τα chatbots μπορούν να δώσουν σωστές απαντήσεις σε ποσοστό 95%, οι χρήστες δυσκολεύονται να τις αξιοποιήσουν σωστά.

Μια πρόσφατη μελέτη στο Jama Network Open εξέτασε 21 κορυφαία μοντέλα AI. Οι ερευνητές τους ζήτησαν να εντοπίσουν πιθανές ιατρικές διαγνώσεις. Όταν τα μοντέλα είχαν μόνο βασικές πληροφορίες – όπως ηλικία, φύλο και συμπτώματα – δυσκολεύονταν, αποτυγχάνοντας να προτείνουν το σωστό σύνολο πιθανών παθήσεων σε πάνω από το 80% των περιπτώσεων. Όταν προστέθηκαν ευρήματα εξετάσεων και εργαστηριακά δεδομένα, η ακρίβεια ξεπέρασε το 90%.

Χρήσιμα εργαλεία, αλλά όχι «γιατροί»

Τα chatbots δεν είναι άχρηστα. Μπορούν να βοηθήσουν στην κατανόηση σύνθετων θεμάτων ή να λειτουργήσουν ως αφετηρία για περαιτέρω έρευνα.

Ωστόσο, δεν μπορούν να αντικαταστήσουν την ιατρική κρίση και δεν πρέπει να αντιμετωπίζονται ως αξιόπιστες πηγές διάγνωσης ή θεραπείας.

Η ασφαλής χρήση τους προϋποθέτει επιβεβαίωση των πληροφοριών και κριτική σκέψη απέναντι στις απαντήσεις που παρέχουν.

Πηγές:

Αλέξανδρος Παντελάκης

O Αλέξανδρος Παντελάκης είναι αρχισυντάκτης του «Όλο Υγεία». Έχει συνεργαστεί με blog, εφημερίδες και περιοδικά ποικίλης θεματολογίας αποκτώντας σφαιρική εμπειρία σε διάφορα είδη δημοσιογραφικής γραφής. Πιστεύει ότι σήμερα, με την πληθώρα πληροφοριών που μας κατακλύζει, η ανάγκη για αξιόπιστη και τεκμηριωμένη ενημέρωση από έμπιστα Μέσα είναι πιο σημαντική από ποτέ.

Scroll to Top