
Image by Christin Hume, from Unsplash
Η Μελέτη του Claude AI Αποκαλύπτει Πώς οι Chatbots Εφαρμόζουν Ηθική σε Πραγματικές Συνομιλίες
Ο Claude AI δείχνει πώς αρχές όπως η εξυπηρετικότητα και η διαφάνεια εφαρμόζονται σε 300.000 πραγματικές συνομιλίες, εγείροντας ερωτήματα σχετικά με την προσαρμογή των chatbot.
Βιάζεστε; Εδώ είναι τα γρήγορα γεγονότα:
- Η εξυπηρέτηση και η επαγγελματικότητα εμφανίστηκαν στο 23% των συνομιλιών.
- Ο Claude αντικατόπτριζε θετικές αξίες, αντιστάθηκε σε επιζήμια αιτήματα όπως η απάτη.
- Η ευθυγράμμιση της AI χρειάζεται βελτίωση σε ασαφείς καταστάσεις αξιών.
Μια νέα μελέτη της Anthropic αποκαλύπτει πώς ο AI βοηθός της, ο Claude, εφαρμόζει αξίες σε πραγματικές συνομιλίες. Η έρευνα ανέλυσε πάνω από 300,000 ανωνυμοποιημένες συνομιλίες για να κατανοήσει πώς ο Claude ισορροπεί ανάμεσα στην ηθική, την επαγγελματικότητα και την πρόθεση του χρήστη.
Η ομάδα έρευνας αναγνώρισε 3.307 ξεχωριστές αξίες που διαμόρφωσαν τις αντιδράσεις του Claude. Οι αξίες της εξυπηρέτησης και της επαγγελματικότητας εμφανίζονταν μαζί στο 23% όλων των αλληλεπιδράσεων, ακολουθούμενες από τη διαφάνεια στο 17%.
Η έρευνα υποδεικνύει ότι το chatbot ήταν σε θέση να εφαρμόσει ηθική συμπεριφορά σε νέα θέματα, με ευέλικτο τρόπο. Για παράδειγμα, ο Claude τόνισε τα «υγιή όρια» κατά τη διάρκεια συμβουλών σχέσεων, την «ιστορική ακρίβεια» όταν συζητούσε το παρελθόν, και την «ανθρώπινη πρωτοβουλία» στις συζητήσεις ηθικής τεχνολογίας.
Ενδιαφέροντα, οι ανθρώπινοι χρήστες εξέφραζαν τις αξίες τους πολύ λιγότερο συχνά – η αυθεντικότητα και η αποτελεσματικότητα ήταν οι πιο συχνές, με μόλις 4% και 3% αντίστοιχα – ενώ ο Claude συχνά αντικατόπτριζε θετικές ανθρώπινες αξίες όπως η αυθεντικότητα, και αντιμετώπιζε τις επιζήμιες.
Η ερευνήτρια ανέφερε ότι τα αιτήματα που εμπλέκονταν σε απάτη αντιμετωπίζονταν με ειλικρίνεια, ενώ οι ηθικά αμφίβολες ερωτήσεις προκάλεσαν ηθική σκέψη.
Η έρευνα αναγνώρισε τρία κύρια μοτίβα απάντησης. Η ΤΝ είχε αντιστοιχία με τις αξίες των χρηστών κατά το ήμισυ όλων των συνομιλιών. Αυτό ήταν ειδικά εμφανές όταν οι χρήστες συζητούσαν για προσωπικές δραστηριότητες που δημιουργούσαν κοινότητα.
Ο Claude χρησιμοποίησε τεχνικές αναδιάρθρωσης στο 7% των περιπτώσεων για να κατευθύνει τους χρήστες προς την συναισθηματική ευεξία, όταν αυτοί επιδίωκαν την αυτοβελτίωση.
Το σύστημα εμφάνισε αντίσταση μόνο στο 3% των περιπτώσεων επειδή οι χρήστες ζήτησαν περιεχόμενο που ήταν επιβλαβές ή ανήθικο. Το σύστημα εφάρμοσε αρχές όπως η «πρόληψη της βλάβης» ή «η αξιοπρέπεια του ανθρώπου» σε αυτές τις συγκεκριμένες περιπτώσεις.
Οι συγγραφείς υποστηρίζουν ότι οι συμπεριφορές του chatbot—όπως η αντίσταση στη βλάβη, η προτεραιότητα στην ειλικρίνεια και η έμφαση στην εξυπηρέτηση—αποκαλύπτουν ένα υποκείμενο ηθικό πλαίσιο. Αυτά τα μοτίβα αποτελούν τη βάση για τα συμπεράσματα της μελέτης σχετικά με το πώς οι αξίες της AI εκδηλώνονται ως ηθική συμπεριφορά σε πραγματικές αλληλεπιδράσεις.
Ενώ η συμπεριφορά του Claude αντανακλά την εκπαίδευσή του, οι ερευνητές σημείωσαν ότι οι εκφράσεις αξίας του συστήματος μπορεί να είναι διακριτές ανάλογα με την κατάσταση – δείχνοντας την ανάγκη για περαιτέρω εξειδίκευση, ειδικά σε καταστάσεις που περιλαμβάνουν αόριστες ή αντιφατικές αξίες.
Αφήστε ένα σχόλιο
Ακύρωση