AI Aces the Quiz But Flunks the Real Test

Το θέμα είναι ότι τα μοντέλα ΤΝ καταστρέφουν κάθε κατάταξη που τους ρίχνουμε. Το GPT-4 περνά την εξέταση δικηγόρων. Το Claude χειρίζεται ανταγωνιστικό προγραμματισμό. Αλλά σημαίνει κάτι από αυτό ότι πραγματικά καταλαβαίνουν τι κάνουν, ή απλώς κάνουν αναγνώριση μοτίβων σε επίπεδο υπερδύναμης; Αυτή είναι η ερώτηση που κρατά τους ερευνητές ξύπνιους.

Ένα νέο κύμα δοκιμών προσπαθεί να απαντήσει αυτό φτιάχνοντας τεστ που δεν μπορούν να λυθούν μόνο μέσω απομνημόνευσης. Δεν είναι τροποποιήσεις υπαρχόντων εξετάσεων. Σχεδιάστηκαν για να μετρήσουν πραγματικό συλλογισμό, κοινή λογική και την ικανότητα να χειριστούν καταστάσεις που το μοντέλο δεν έχει δει ποτέ. Το είδος των πραγμάτων που κάνουν οι άνθρωποι χωρίς να σκεφτούν δύο φορές. Όταν οι ερευνητές έτρεξαν τα τρέχοντα συστήματα ΤΝ μέσα από αυτές τις δυσκολότερες δοκιμές, τα αποτελέσματα έγιναν σύντομα άσχημα. Ξαφνικά εκείνη η ακρίβεια 95 τοις εκατό από τα τυπικά benchmark φαίνεται πολύ λιγότερο εντυπωσιακή.

Γιατί σημαίνει αυτό; Επειδή τοποθετούμε αυτά τα συστήματα σε παραγωγή. Τα χρησιμοποιούμε για να βοηθήσουν στον κώδικα, να λάβουν αποφάσεις, να συμβουλεύσουν ανθρώπους σε πραγματικά προβλήματα. Αν είναι απλώς πολύ καλά στην αναγνώριση μοτίβων, αυτό είναι χρήσιμο αλλά περιορισμένο. Αν πραγματικά συλλογίζονται, αυτό αλλάζει τα πάντα σχετικά με το πώς πρέπει να τα αναπτύξουμε και σε τι πρέπει να τα εμπιστευόμαστε.

Η τεχνητή νοημοσύνη περνά το κουίζ αλλά αποτυγχάνει στην εξέταση

Σχετικά Άρθρα