Αποτελέσματα αξιολόγησης Grok-4: Κορυφαίο στα μαθηματικά, δεύτερο στον προγραμματισμό

Η εταιρεία τεχνητής νοημοσύνης του Elon Musk, xAI, κυκλοφόρησε το τελευταίο της μοντέλο, το Grok-4, το οποίο έχει επιδείξει εντυπωσιακές επιδόσεις σε μια σειρά από ακαδημαϊκές αξιολογήσεις και αξιολογήσεις επίλυσης προβλημάτων, τοποθετώντας το ως έναν ισχυρό ανταγωνιστή έναντι των καθιερωμένων μοντέλων από την OpenAI, την Google και την Anthropic. Σύμφωνα με ανεξάρτητες αξιολογήσεις από την LMArena.ai, μια ανοιχτή πλατφόρμα για crowdsourced αξιολόγηση AI, το Grok-4 κατατάσσεται στην κορυφή των κατηγοριών, εξασφαλίζοντας την #1 θέση στα μαθηματικά και τη #2 στον προγραμματισμό.

Αυτά τα αποτελέσματα υπογραμμίζουν τις σημαντικές προόδους του Grok-4, ειδικά στον τομέα της μαθηματικής λογικής. Η έκδοση Grok-4 Heavy πέτυχε τέλειο σκορ 100% στην αξιολόγηση AIME 2025. Επιπλέον, το Grok-4 Heavy ηγήθηκε και στην αξιολόγηση USAMO 2025 με σκορ 61,9%. Αυτές οι επιδόσεις τοποθετούν το Grok-4 μπροστά από ανταγωνιστές όπως το o3 της OpenAI, το Gemini 2.5 Pro της Google και το Claude 4 Opus της Anthropic σε απαιτητικές μαθηματικές δοκιμασίες.

Στον τομέα του προγραμματισμού, το Grok-4 είναι επίσης εξαιρετικά ανταγωνιστικό. Ξεπέρασε τα ανταγωνιστικά μοντέλα στο LiveCodeBench, μια αξιολόγηση προγραμματισμού. Ωστόσο, το Gemini 2.5 Pro και το Claude εξακολουθούν να θεωρούνται τα κορυφαία μοντέλα για προγραμματισμό, αν και αυτό μπορεί να αλλάξει με την αναμενόμενη κυκλοφορία του Grok-4 Code τον Αύγουστο, το οποίο θα είναι βελτιστοποιημένο για εργασίες προγραμματισμού. Σε δοκιμές που αξιολογούν την ικανότητα συγγραφής και επεξεργασίας κώδικα, το Grok-4 Heavy κατέλαβε την τέταρτη θέση με 79,6% σωστών επιλύσεων.

Το μοντέλο έχει επίσης θέσει νέα ρεκόρ σε αξιολογήσεις που μετρούν την αφηρημένη λογική. Στην αξιολόγηση ARC-AGI-2, το Grok-4 πέτυχε ένα πρωτοφανές σκορ 15,9-16,2%, σχεδόν διπλασιάζοντας το προηγούμενο κορυφαίο αποτέλεσμα. Αυτή η αξιολόγηση είναι ιδιαίτερα σημαντική καθώς δοκιμάζει την αναγνώριση προτύπων και την αφηρημένη λογική, κρίσιμους δείκτες για την πρόοδο προς την τεχνητή γενική νοημοσύνη. Το Grok-4 διαθέτει ένα παράθυρο περιβάλλοντος 256K tokens και ενσωματώνει εγγενώς ζωντανά δεδομένα από το «X» και άλλες διαδικτυακές πηγές.

Η xAI προσφέρει το Grok-4 μέσω ενός API, με την τιμολόγηση να παραμένει ανταγωνιστική. Η εταιρεία προσφέρει επίσης μια premium έκδοση, το «Heavy», με κόστος 300$ ανά θέση τον μήνα, η οποία χρησιμοποιεί πέντε παράλληλους παράγοντες Grok-4 για την επίλυση των πιο δύσκολων εργασιών. Ενώ οι επιδόσεις του Grok-4 στις αξιολογήσεις είναι εντυπωσιακές, ορισμένοι ειδικοί προειδοποιούν ότι αυτές οι μετρήσεις δεν αποτυπώνουν πλήρως την απόδοση στον πραγματικό κόσμο και ότι μοντέλα όπως το GPT-4o και το Claude Opus 4 παραμένουν εξαιρετικά αξιόπιστα για εταιρικές ροές εργασίας.

Αποτελέσματα αξιολόγησης Grok-4: Κορυφαίο στα μαθηματικά, δεύτερο στον προγραμματισμό

Εγγραφείτε για νέα και αναλύσεις σχετικά με AI & Κυβερνοασφάλεια