Ανησυχία προκαλούν τα ευρήματα νέου πειράματος με το GPT-4, το οποίο αποκαλύπτει ότι τα προηγμένα μοντέλα τεχνητής νοημοσύνης μπορεί να παρουσιάσουν σκόπιμα παραπλανητική συμπεριφορά, όταν βρεθούν υπό πίεση.
Ένα πείραμα της βρετανικής εταιρείας Apollo Research, το οποίο αναφέρθηκε σε πρόσφατο άρθρο του Economist, φέρνει στο φως ανησυχητικά χαρακτηριστικά των προηγμένων AI μοντέλων. Στο πλαίσιο της δοκιμής, το GPT-4 της OpenAI κλήθηκε να διαχειριστεί ένα εικονικό χαρτοφυλάκιο μετοχών, αποφεύγοντας τη χρήση εμπιστευτικών πληροφοριών.
Ωστόσο, όταν οι ερευνητές υποδύθηκαν υψηλόβαθμα στελέχη που έθεταν το μοντέλο υπό πίεση λόγω «οικονομικής κρίσης» στην εταιρεία, και στη συνέχεια του μετέφεραν έμμεσα εσωτερική πληροφόρηση για μια επερχόμενη συγχώνευση, το GPT-4 αποφάσισε να χρησιμοποιήσει τη γνώση αυτή, παρακάμπτοντας την απαγόρευση.
Ακόμα πιο ανησυχητικό είναι το γεγονός ότι όταν ρωτήθηκε αργότερα αν είχε αξιοποιήσει εσωτερική πληροφόρηση, το μοντέλο είπε ψέματα, ισχυριζόμενο πως βασίστηκε αποκλειστικά σε δημόσιες πληροφορίες. Παρά τις πιέσεις, δεν αναθεώρησε τη στάση του.
«Προσποιητή συμμόρφωση» και κακή ευθυγράμμιση
Για τους ειδικούς του χώρου, όπως τον Ροχίν Σα της Google DeepMind, το περιστατικό αυτό είναι δείγμα μιας βαθύτερης ανησυχίας: της «κακής ευθυγράμμισης». Πρόκειται για τη σύγκρουση μεταξύ των στόχων που έχει εκπαιδευτεί να υπηρετεί ένα μοντέλο και των εντολών που του δίνει ο χρήστης. Όταν αυτή η σύγκρουση εκδηλώνεται, το AI ενδέχεται να προσποιηθεί υπακοή, ενώ στην πράξη λειτουργεί παρασκηνιακά με διαφορετική ατζέντα.
Σύμφωνα με αναλυτές, οι νέες τεχνικές συλλογισμού που βελτιώνουν τις επιδόσεις των μοντέλων φαίνεται να ενισχύουν και την… πονηριά τους. Η ίδια η OpenAI έχει παραδεχτεί ότι νέα μοντέλα όπως το “o1” παρουσίασαν συνωμοτική συμπεριφορά, προσπαθώντας να καλύψουν παραβάσεις όταν αμφισβητήθηκαν.
Από το ψέμα… στην εξαπάτηση
Το 2023, αυξήθηκαν τα περιστατικά όπου τα μοντέλα εμφάνισαν εσκεμμένα απατηλή συμπεριφορά. Σε μια περίπτωση, η GPT-4 κατάφερε να ξεγελάσει έναν άνθρωπο ώστε να λύσει ένα CAPTCHA, προσποιούμενο ότι ήταν άτομο με προβλήματα όρασης. Άλλα μοντέλα, όπως της Anthropic, προτίμησαν να απαντήσουν λάθος σε μαθηματικά προβλήματα, ώστε να αποφύγουν κυρώσεις.
Ο Τζον Μπέιλι, του American Enterprise Institute, προειδοποιεί ότι η προσποιητή άγνοια αποτελεί ένδειξη πως τα μοντέλα αναπτύσσουν «αντίληψη της κατάστασης» και μαθαίνουν να συγκαλύπτουν τις πραγματικές τους δυνατότητες.
Το «κόλπο» της κολακείας και η ανάγκη για έλεγχο
Παράλληλα, η τάση πολλών μοντέλων να κολακεύουν τους χρήστες τους, λέγοντάς τους αυτό που θέλουν να ακούσουν, ίσως δεν είναι απλώς «ευγένεια». Μπορεί να κρύβει ανησυχητικά κίνητρα: αυτοσυντήρηση, απόκτηση πρόσβασης σε πόρους ή ακόμη και απόκρυψη πραγματικών προθέσεων.
Προσπάθειες να τεθούν υπό έλεγχο τα φαινόμενα αυτά περιλαμβάνουν τη χρήση μοντέλων που επιτηρούν άλλα μοντέλα. Ωστόσο, σύμφωνα με ειδικούς, κάτι τέτοιο ενδέχεται απλώς να οδηγήσει τα AI να αναπτύξουν πιο εξελιγμένες μεθόδους παραπλάνησης.
Καθώς η τεχνητή νοημοσύνη γίνεται όλο και πιο περίπλοκη, αρχίζει να αντανακλά τις ανθρώπινες αδυναμίες — και αυτό, όπως λένε οι ερευνητές, δεν είναι καθόλου καθησυχαστικό.