- Η Microsoft εισάγει τρία εσωτερικά μοντέλα τεχνητής νοημοσύνης για μεταγραφή, παραγωγή φωνής και δημιουργία εικόνας, με στόχο τη μείωση της εξάρτησης από το OpenAI.
- Το MAI-Transcribe-1 υποστηρίζει 25 γλώσσες και λειτουργεί περίπου 2.5 φορές πιο γρήγορα από την τρέχουσα προσφορά μεταγραφής Azure Fast της Microsoft.
- Το MAI-Voice-1 μπορεί να δημιουργήσει 60 δευτερόλεπτα προσαρμόσιμου ήχου σε περίπου ένα δευτερόλεπτο, ενώ το MAI-Image-2 στοχεύει στην προηγμένη δημιουργία εικόνας και βίντεο.
- Τα μοντέλα ενσωματώνονται στα Microsoft Foundry, MAI Playground, Teams και Azure, με επιθετική τιμολόγηση και έναν οδικό χάρτη προς μεγάλα μοντέλα αιχμής έως το 2027.

Η Microsoft κάνει ένα σαφές βήμα προς την... μεγαλύτερη αυτονομία στην τεχνητή νοημοσύνη εισάγοντας τρία από τα δικά της βασικά μοντέλα που στοχεύουν στη μεταγραφή, την παραγωγή ομιλίας και τη δημιουργία εικόνας. Η κίνηση αυτή σηματοδοτεί ότι η εταιρεία επιθυμεί μια βαθύτερη, πολυτροπική στοίβα τεχνητής νοημοσύνης που θα ελέγχει πλήρως, ακόμη και αν διατηρεί μια στενή εμπορική συμμαχία με την OpenAI.
Αυτά τα νέα συστήματα, που αναπτύχθηκαν στο πλαίσιο του Microsoft AI / MAI SuperIntelligence ομάδες, έχουν σχεδιαστεί για να συνδέονται απευθείας με προϊόντα όπως το Teams και το Azure καθώς και σε εσωτερικές πλατφόρμες πειραματισμού. Στην πράξη, η Microsoft θέτει τις βάσεις για μια μακροπρόθεσμη στρατηγική όπου τα δικά της μοντέλα καλύπτουν ένα αυξανόμενο μερίδιο των καθημερινών φόρτων εργασίας, διατηρώντας εξωτερικά μοντέλα όπως αυτά από το OpenAI για περιπτώσεις όπου προσφέρουν σαφή, διαφοροποιημένη αξία.
Τρία βασικά μοντέλα που έχουν κατασκευαστεί από τη Microsoft για μεταγραφή, φωνή και εικόνες
Η κυκλοφορία περιστρέφεται γύρω από τρία βασικά μοντέλα: MAI-Μεταγραφή-1 για μετατροπή ομιλίας σε κείμενο, MAI-Φωνή-1 για μετατροπή κειμένου σε ομιλία και MAI-Εικόνα-2 για οπτική παραγωγή. Μαζί σχηματίζουν ένα πρώτο, πολύ ορατό στρώμα ενός εσωτερικού πολυτροπική στοίβα τεχνητής νοημοσύνης που μπορεί να χειριστεί κείμενο, ήχο και εικόνες μέσα στο οικοσύστημα της Microsoft.
Αντί να βασίζεται αποκλειστικά σε μεγάλα, γενικής χρήσης μοντέλα, η Microsoft στοιχηματίζει σε συστήματα που εστιάζουν στις εργασίες και είναι φθηνότερα και ταχύτερα για συνήθεις περιπτώσεις χρήσης σε επιχειρήσεις. Αυτή η προσέγγιση είναι ιδιαίτερα σημαντική καθώς ο αριθμός των χρηστών του Copilot και των λειτουργιών που υποστηρίζονται από την Τεχνητή Νοημοσύνη στο Office, το Teams και το Azure συνεχίζει να αυξάνεται, με κόστος που διαφορετικά θα κλιμακωνόταν σχεδόν γραμμικά με τη χρήση του API.
Μοντέλα θεμελίωσης αυτού του είδους εκπαιδεύονται σε μεγάλα και ποικίλα σύνολα δεδομένων, ώστε να μπορούν αργότερα να προσαρμοστούν σε ένα ευρύ φάσμα σεναρίων. Εδώ, αυτό σημαίνει ότι τροφοδοτούνται τα πάντα, από την απομαγνητοφώνηση τηλεφωνικού κέντρου και τις περιλήψεις συσκέψεων έως τις συνθετικές φωνές, τα εργαλεία προσβασιμότητας και τους αυτοματοποιημένους αγωγούς δημιουργίας περιεχομένου.
MAI-Transcribe-1: ταχύτερη, πολύγλωσση μετατροπή ομιλίας σε κείμενο για 25 γλώσσες
Το MAI-Transcribe-1 είναι το νέο της Microsoft μηχανή μετατροπής ομιλίας σε κείμενο και ένα από τα κεντρικά κομμάτια αυτής της κυκλοφορίας. Το μοντέλο υποστηρίζει μεταγραφή σε 25 διαφορετικές γλώσσες και έχει αξιολογηθεί εσωτερικά ως περίπου 2.5 φορές πιο γρήγορο από την υπάρχουσα προσφορά μεταγραφής Azure Fast της εταιρείας, η οποία αποτελεί σημείο αναφοράς στο τρέχον χαρτοφυλάκιό της.
Αυτή η βελτίωση στην απόδοση έχει σημασία επειδή Τα φόρτα εργασίας μεταγραφής είναι ιδιαίτερα ευαίσθητα στην καθυστέρηση, ειδικά σε σενάρια πραγματικού χρόνου, όπως ζωντανές λεζάντες, υποστήριξη πελατών ή υβριδικές συσκέψεις. Η ευρύτερη γλωσσική κάλυψη ευθυγραμμίζεται επίσης με το παγκόσμιο αποτύπωμα της Microsoft, διευκολύνοντας τους πολυεθνικούς πελάτες να τυποποιήσουν σε έναν μόνο πάροχο αντί να συνδυάζουν περιφερειακά εργαλεία.
Από την άποψη του προϊόντος, η Microsoft σχεδιάζει να συνδέσει το MAI-Transcribe-1 απευθείας στο Οι ομάδες της Microsoft για τη διαχείριση των μεταγραφών των συναντήσεων και των ζωντανών λεζάντων. Με την πάροδο του χρόνου, η ίδια μηχανή αναμένεται να εμφανιστεί κάτω από το καπό άλλων εργαλείων παραγωγικότητας, έτσι ώστε οι χρήστες βλέπουν καλύτερη ταχύτητα και χαμηλότερο κόστος χωρίς απαραίτητα να παρατηρούν αλλαγή επωνυμίας.
Η τιμολόγηση έχει τοποθετηθεί επιθετικά: Το MAI-Transcribe-1 ξεκινά από περίπου 0.36 $ ανά ώρα επεξεργασμένου ήχου, ένα ποσό που στοχεύει στην υποτίμηση συγκρίσιμων προσφορών τόσο από την Google όσο και από την OpenAI, ενώ παράλληλα λειτουργεί στην υποδομή cloud της Microsoft.
MAI-Voice-1: εξαιρετικά γρήγορη μετατροπή κειμένου σε ομιλία με προσαρμοσμένες φωνές
Από την πλευρά της παραγωγής ήχου, MAI-Φωνή-1 είναι το νέο μοντέλο της Microsoft για μετατροπή κειμένου σε ομιλίαΣύμφωνα με την εταιρεία, μπορεί να παράγει περίπου 60 δευτερόλεπτα ήχου σε περίπου ένα δευτερόλεπτο χρόνου επεξεργασίας, το οποίο αποτελεί αξιοσημείωτο άλμα για περιπτώσεις χρήσης όπου η ανταπόκριση είναι κρίσιμη.
Πέρα από την ακατέργαστη ταχύτητα, μια βασική υπόσχεση είναι η υποστήριξη για προσαρμοσμένες φωνές, ευθυγραμμισμένες με την επωνυμίαΟι οργανισμοί θα μπορούν να ορίζουν φωνές που ταιριάζουν με την ταυτότητά τους ή με συγκεκριμένες περιπτώσεις χρήσης, από γραμμές υποστήριξης και εκπροσώπους συνομιλίας έως εκπαιδευτικό υλικό, podcast και λειτουργίες προσβασιμότητας. Αυτό το επίπεδο ελέγχου είναι ολοένα και πιο σημαντικό καθώς η συνθετική ομιλία γίνεται πιο συνηθισμένη και οι ακροατές γίνονται πιο απαιτητικοί ως προς τον τόνο και τη σαφήνεια.
Η Microsoft στοχεύει ξεκάθαρα στο MAI-Voice-1 προγραμματιστές και επιχειρήσεις που κατασκευάζουν προϊόντα με έντονη φωνητική υποστήριξη: τηλεφωνικά κέντρα, βοηθοί εντός εφαρμογής, εργαλεία εκμάθησης γλωσσών, πλατφόρμες πολυμέσων ή οποιαδήποτε υπηρεσία που χρειάζεται επεκτάσιμη αφήγηση. Με τιμές που ξεκινούν περίπου 22 δολάρια ανά ένα εκατομμύριο χαρακτήρες, το μοντέλο προορίζεται να είναι οικονομικά βιώσιμο τόσο σε μικρούς όσο και σε πολύ μεγάλους όγκους.
Από την άποψη της υποδομής, το MAI-Voice-1 προσφέρεται μέσω Azure APIs, Microsoft Foundry και MAI Playground, επιτρέποντας στις ομάδες να δοκιμάζουν γρήγορα τις φωνές και στη συνέχεια να προχωρούν στην παραγωγή χωρίς να αλλάζουν περιβάλλοντα. Η ιδέα είναι να βελτιστοποιηθεί η πλήρης διαδρομή από τον πειραματισμό έως την ανάπτυξη εντός της στοίβας της Microsoft.
MAI-Image-2: δημιουργία εικόνας και βίντεο ενσωματωμένη στη στοίβα της Microsoft
Το τρίτο μοντέλο, MAI-Εικόνα-2, επικεντρώνεται δημιουργία εικόνας (και σε ορισμένες περιγραφές, βίντεο) από μηνύματα κειμένουΕνώ η εταιρεία δεν έχει αποκαλύψει κάθε τεχνική λεπτομέρεια, τοποθετεί το μοντέλο ως οπτικό αντίστοιχο των συστημάτων κειμένου και ήχου της, με στόχο την αυτοματοποίηση της δημιουργίας μάρκετινγκ, οπτικών στοιχείων προϊόντων, storyboard και άλλων μέσων.
Είναι ενδιαφέρον ότι το MAI-Image-2 εμφανίστηκε για πρώτη φορά πιο ήσυχα το Παιδική χαρά MAI, το πειραματικό περιβάλλον της Microsoft για μεγάλα μοντέλα, στα μέσα Μαρτίου. Η τρέχουσα ανακοίνωση επισημοποιεί τον ρόλο της ως μέρος του ευρύτερου Χυτήριο και Azure οικοσύστημα, όπου οι επιχειρήσεις μπορούν να έχουν πρόσβαση σε αυτό ως τυπικό στοιχείο και όχι ως καθαρή ερευνητική επίδειξη.
Η τιμολόγηση είναι και πάλι δομημένη για να ανταγωνιστεί: η εταιρεία αναφέρει ένα σημείο εισόδου περίπου 5 δολάρια ανά ένα εκατομμύριο διακριτικά εισόδου για κείμενο και γύρω 33 δολάρια ανά ένα εκατομμύριο διακριτικά εξόδου για δημιουργημένες εικόνεςΑυτοί οι αριθμοί παρουσιάζονται ως ισότιμοι ή κατώτεροι από παρόμοιους βαθμούς ανταγωνιστικών παρόχων, ενώ παράλληλα επωφελούνται από το πακέτο ασφάλειας και συμμόρφωσης για επιχειρήσεις της Microsoft.
Οι περιπτώσεις χρήσης κυμαίνονται από αυτοματοποιημένες δημιουργικές ροές εργασίας και εξατομικευμένα οπτικά στοιχεία μάρκετινγκ έως ταχεία δημιουργία πρωτοτύπων για σχεδιασμό προϊόντων. Για πολλούς πελάτες που έχουν ήδη τυποποιηθεί στο Azure, το βασικό πλεονέκτημα είναι ότι μπορούν να πειραματιστούν με τη δημιουργία εικόνων χωρίς να προσελκύσουν έναν επιπλέον εξωτερικό προμηθευτή.
Ενσωμάτωση σε Azure, Foundry, MAI Playground και Microsoft 365
Μια καθοριστική πτυχή αυτής της κυκλοφορίας είναι το πόσο στενά είναι συνυφασμένα τα νέα μοντέλα Οι υπάρχουσες πλατφόρμες cloud και παραγωγικότητας της MicrosoftΚαι τα τρία συστήματα – MAI-Transcribe-1, MAI-Voice-1 και MAI-Image-2 – τίθενται σε εφαρμογή μέσω Microsoft Foundry, το περιβάλλον της εταιρείας για την πρόσβαση και την κλιμάκωση μοντέλων θεμελίωσης.
Οι προγραμματιστές μπορούν να ξεκινήσουν με Παιδική χαρά MAI, όπου τα ίδια μοντέλα εκτίθενται σε μια πιο πειραματική διεπαφή. Αυτή η ρύθμιση έχει ως στόχο να μειώσει το εμπόδιο για ομάδες που θέλουν να δοκιμάσουν δυνατότητες όπως η μεταγραφή, οι συνθετικές φωνές ή η οπτική παραγωγή χωρίς να δεσμευτούν αμέσως για πλήρη ενσωμάτωση.
Από την πλευρά του προϊόντος, η Microsoft ήδη υποδεικνύει Οι ομάδες της Microsoft ως πρώιμος δικαιούχος. Το MAI-Transcribe-1 έχει ρυθμιστεί για να υποστηρίζει τα αντίγραφα και τους υπότιτλους των συναντήσεων, ενώ τα MAI-Voice-1 και MAI-Image-2 αναμένεται να εμφανιστούν με την πάροδο του χρόνου σε διάφορες Εμπειρίες Copilot και Microsoft 365, ακόμη και αν οι τελικοί χρήστες ενδέχεται να μην βλέπουν σαφή επωνυμία μοντέλου.
Για τις εταιρείες, η υπόσχεση είναι ενιαία, συνεκτική στοίβα όπου η μεταγραφή, η φωνή και οι εικόνες βρίσκονται δίπλα σε γλωσσικά μοντέλα, υπηρεσίες δεδομένων και αναλυτικά στοιχεία στο Azure. Αυτό θα μπορούσε να απλοποιήσει τη συμμόρφωση, τους ελέγχους ασφαλείας και τη διαχείριση προμηθευτών σε σύγκριση με τη συνένωση πολλαπλών εξωτερικών παρόχων τεχνητής νοημοσύνης.
Στρατηγική τιμολόγησης και ανταγωνισμός με την OpenAI και την Google
Παράλληλα με τις τεχνικές προδιαγραφές, η Microsoft δίνει μεγάλη έμφαση στις ανταγωνιστικότητα τιμολόγησηςΗ εταιρεία τοποθετεί ανοιχτά αυτά τα μοντέλα ως εναλλακτικές λύσεις που μπορούν να ταιριάξουν ή να υποβαθμίσουν παρόμοιες προσφορές από OpenAI και Google, ειδικά για παρατεταμένη χρήση μεγάλου όγκου.
Οι δημοσιευμένες τιμές – 0.36 $ ανά ώρα ήχου για το MAI-Transcribe-1, 22 δολάρια ανά εκατομμύριο χαρακτήρες για το MAI-Voice-1 και το $5 / $33 ανά εκατομμύριο διακριτικό δομή για το MAI-Image-2 – δεν είναι απλώς τεχνικές λεπτομέρειες. Αποτελούν μέρος ενός ευρύτερου μηνύματος ότι η Microsoft θέλει να θεωρείται ως οικονομικά αποδοτικός, ολοκληρωμένος πάροχος παραγωγικής τεχνητής νοημοσύνης αντί να είναι απλώς ένας μεταπωλητής μοντέλων συνεργατών.
Σε μια αγορά όπου όλο και περισσότεροι οργανισμοί ενσωματώνουν την Τεχνητή Νοημοσύνη στις καθημερινές τους λειτουργίες, Το κόστος ανά αίτημα μπορεί γρήγορα να γίνει μια στρατηγική μεταβλητήΔιαθέτοντας τα δικά της μοντέλα, η Microsoft μπορεί να βελτιστοποιήσει την αντιστάθμιση μεταξύ των υπολογιστικών εξόδων, της πολυπλοκότητας του μοντέλου και της τιμολόγησης των χρηστών αντί να πληρώνει μεγάλα περιθώρια κέρδους σε εξωτερικούς παρόχους.
Υπάρχει επίσης ένα φαινόμενο σηματοδότησης: επισημαίνοντας τα δικά της benchmarks και τους δικούς της πίνακες τιμών, η Microsoft ουσιαστικά λέει στους πελάτες ότι δεν χρειάζεται πλέον να χρησιμοποιούν από προεπιλογή μοντέλα τρίτων για βασικά φόρτα εργασίας, όπως η μεταγραφή, η ομιλία και οι εικόνες, εάν έχουν ήδη δεσμευτεί στο Azure.
Ο Μουσταφά Σουλεϊμάν και το «ανθρωποκεντρικό» όραμα AI
Τα τρία νέα μοντέλα προέρχονται από ομάδες που ομαδοποιούνται σε Microsoft AI / MAI SuperIntelligence, με επικεφαλής τον Μουσταφά Σουλεϊμάν, ο οποίος τώρα ηγείται της Microsoft AI. Ο Σουλεϊμάν, γνωστός για τους προηγούμενους ρόλους του στον κλάδο της Τεχνητής Νοημοσύνης, έχει σκιαγραφήσει δημόσια ένα όραμα που περιγράφει ως «ανθρωπιστική Τεχνητή Νοημοσύνη» ή τεχνητή νοημοσύνη με επίκεντρο τον άνθρωπο.
Στις ανακοινώσεις της Microsoft σχετικά με την κυκλοφορία, ο Σουλεϊμάν τονίζει ότι αυτά τα μοντέλα έχουν σχεδιαστεί για να αντικατοπτρίζουν τον τρόπο με τον οποίο οι άνθρωποι επικοινωνούν στην πραγματικότητα, ιεράρχηση προτεραιοτήτων πρακτική χρησιμότητα και ασφάλειαΣτόχος, σύμφωνα με τα λεγόμενά του, είναι η δημιουργία συστημάτων που είναι λιγότερο αφηρημένα ερευνητικά έργα και περισσότερα εργαλεία που ταιριάζουν στις καθημερινές ροές εργασίας στην εργασία και στο σπίτι.
Έχει επίσης υπονοήσει ότι η τρέχουσα τριάδα μοντέλων είναι μόνο η αρχή ενός ευρύτερου χαρτοφυλακίουΗ Microsoft σχεδιάζει να λανσάρει επιπλέον μοντέλα βάσης μέσω της Foundry και απευθείας εντός των προϊόντων, επεκτείνοντας σταδιακά τις εσωτερικές της δυνατότητες πέρα από την ομιλία και τις εικόνες, ώστε να καλύπτει περισσότερες μεθόδους και πιο εξειδικευμένες εργασίες.
Αυτό το χρονοδιάγραμμα υπογραμμίζει την πρόθεση της Microsoft να θεωρείται όχι μόνο ως πλατφόρμα για την Τεχνητή Νοημοσύνη άλλων ανθρώπων, αλλά και ως κατασκευαστής των δικών της προηγμένων μοντέλων που μπορούν να συνδυάζονται με προσφορές από μακροχρόνιους συνεργάτες όπως η OpenAI.
Μια αναβαθμονομημένη σχέση με το OpenAI και ένας στόχος μοντέλου ορίων για το 2027
Μία από τις πιο ευαίσθητες πτυχές αυτής της στρατηγικής είναι ο τρόπος με τον οποίο σχετίζεται με Η υψηλού προφίλ συνεργασία της Microsoft με την OpenAIΟι εταιρείες παραμένουν στενά συνδεδεμένες: Η Microsoft έχει επενδύσει πάνω από $ 13 δισ. στο OpenAI, φιλοξενεί τα μοντέλα του στο Azure και ενσωματώνει συστήματα όπως το GPT σε προϊόντα όπως το Copilot.
Ωστόσο, πρόσφατες αναφορές υποδεικνύουν μια επαναδιαπραγμάτευση της σχέσης Αυτό δίνει στη Microsoft περισσότερο περιθώριο να διεξάγει παράλληλα τη δική της έρευνα και σειρές προϊόντων τεχνητής νοημοσύνης. Ο Σουλεϊμάν έχει χαρακτηρίσει αυτή τη μετατόπιση ως μια φυσική εξέλιξη και όχι ως ρήξη - μοιάζει περισσότερο με το να σχεδιάζει η εταιρεία ορισμένα από τα δικά της τσιπ ενώ εξακολουθεί να αγοράζει από εξωτερικούς προμηθευτές.
Σύμφωνα με το Bloomberg και άλλα μέσα ενημέρωσης, η Microsoft στοχεύει να έχει τα δικά της μεγάλης κλίμακας, πρωτοποριακά μοντέλα θα τεθούν σε λειτουργία περίπου το 2027Τα πρόσφατα ανακοινωθέντα συστήματα βρίσκονται ελαφρώς ανοδικά προς αυτή τη φιλοδοξία: δεν έχουν ακόμη τοποθετηθεί ως γενικής χρήσης, πρωτοποριακά γλωσσικά μοντέλα, αλλά μάλλον ως εξειδικευμένα στοιχεία που μειώνουν την εξάρτηση από τα API συνεργατών για τα καθημερινά φόρτα εργασίας.
Στην πράξη, αυτό σημαίνει ότι η Microsoft μπορεί να συνεχίσει να χρησιμοποιεί μοντέλα OpenAI όπως το GPT-5.4 όπου έχουν νόημα, ενώ σταδιακά εναλλάσσοντας τα δικά του μοντέλα όπου ο λόγος κόστους-απόδοσης ή οι στρατηγικές παράμετροι ευνοούν την εσωτερική τεχνολογία. Οι χρήστες μπορεί απλώς να παρατηρήσουν ότι οι λειτουργίες γίνονται ταχύτερες ή φθηνότερες καθώς αυτές οι μεταβάσεις συμβαίνουν στο παρασκήνιο.
Για την ευρύτερη αγορά Τεχνητής Νοημοσύνης, αυτή η διπλή πορεία υπογραμμίζει μια σαφή τάση: οι μεγάλες εταιρείες τεχνολογίας επιδιώκουν ένα ισορροπία μεταξύ συνεργασίας και αυτάρκειας, χρησιμοποιώντας συμμαχίες για να κινηθούν γρήγορα, αλλά χτίζοντας τις δικές τους δυνατότητες για να αποφύγουν τον περιορισμό σε έναν μόνο προμηθευτή μακροπρόθεσμα.
Με αυτά τα τρία μοντέλα, η Microsoft ουσιαστικά βάζει μια σημαία: θέλει να ανταγωνιστεί σε πολλαπλά επίπεδα της στοίβας Τεχνητής Νοημοσύνης - από την υποδομή και τα εργαλεία έως τα ίδια τα θεμελιώδη μοντέλα - αφήνοντας παράλληλα χώρο για συνεργάτες όπως η OpenAI, όπου προσφέρουν μοναδικά πλεονεκτήματα. Για τους πελάτες, αυτό θα μπορούσε να μεταφραστεί σε περισσότερες επιλογές, πιο αυστηρές τιμές και μια σταδιακή στροφή προς την Τεχνητή Νοημοσύνη με το εμπορικό σήμα της Microsoft, η οποία θα υποστηρίζει οικεία προϊόντα και υπηρεσίες.
