Η OpenAI ετοιμάζεται να κυκλοφορήσει το Sora 2, μια νέα έκδοση του μοντέλου δημιουργίας βίντεο από κείμενο, με στόχο να ανταγωνιστεί το Veo 3 της Google . Το Sora, που κυκλοφόρησε στις 9 Δεκεμβρίου 2024, έχει ήδη ενσωματωθεί στο Bing Video Creator της Microsoft .
Το Sora είναι ένα μοντέλο τεχνητής νοημοσύνης που δημιουργεί βίντεο από κείμενο, ικανό να παράγει βίντεο διάρκειας έως και ενός λεπτού, διατηρώντας παράλληλα την ποιότητα της εικόνας και την ακρίβεια στην ερμηνεία των εντολών του χρήστη . Μπορεί να δημιουργήσει σύνθετες σκηνές με πολλαπλούς χαρακτήρες, συγκεκριμένους τύπους κίνησης και ακριβείς λεπτομέρειες του θέματος και του φόντου . Το μοντέλο κατανοεί τη γλώσσα σε βάθος, επιτρέποντάς του να ερμηνεύει με ακρίβεια τις προτροπές και να δημιουργεί συναρπαστικούς χαρακτήρες που εκφράζουν ζωντανά συναισθήματα .
Η Google, από την άλλη πλευρά, έχει ήδη ανακοινώσει το Veo 3, το οποίο επιτρέπει στους χρήστες να προσθέτουν ηχητικά εφέ, ήχους περιβάλλοντος, ακόμη και διαλόγους στις δημιουργίες τους, παράγοντας όλο τον ήχο εγγενώς . Το Veo 3 διαθέτει επίσης βελτιωμένη συνοχή προτροπών, που σημαίνει ακριβέστερες απαντήσεις στις οδηγίες . Επιπλέον, το Veo 3 είναι διαθέσιμο μέσω του Gemini API στο Google AI Studio και σε συνδρομητές Google AI στην εφαρμογή Gemini .
Ενώ το Sora έχει τη δυνατότητα να δημιουργεί ρεαλιστικές και ευφάνταστες σκηνές από γραπτές οδηγίες , εξακολουθούν να υπάρχουν προκλήσεις όσον αφορά τη φυσική και τις πολύπλοκες ενέργειες μεγάλης διάρκειας . Η OpenAI έχει λάβει μέτρα για την αντιμετώπιση πιθανών καταχρήσεων, όπως η δημιουργία ακραίας βίας, σεξουαλικού περιεχομένου ή υλικού που παραβιάζει την πνευματική ιδιοκτησία .
Η κυκλοφορία του Sora 2 αναμένεται να φέρει βελτιώσεις σε αυτούς τους τομείς και να προσφέρει μια πιο ολοκληρωμένη εμπειρία δημιουργίας βίντεο. Ωστόσο, η OpenAI ενδέχεται να μην διαθέτει την τεχνολογική υποδομή για να ανταγωνιστεί το Veo 3, τουλάχιστον μέχρι το τέλος του 2026 .
Η μάχη μεταξύ του Sora 2 και του Veo 3 αναμένεται να εντείνει τον ανταγωνισμό στον τομέα της δημιουργίας βίντεο με τεχνητή νοημοσύνη, προσφέροντας στους χρήστες περισσότερες επιλογές και δυνατότητες .