Herzlich Willkommen zum AI FIRST Newsletter!
Wer hätte gedacht, dass die letzten Wochen des Jahres in der AI-Welt noch einmal so spannend werden?
OpenAI hat mit seiner "Shipmas" Aktion 12 Produkt-Ankündigungen in 12 Tagen gemacht und damit mächtig Bewegung in den Markt gebracht.
Auch andere Anbieter wie zB Google sind wieder mitgezogen und wir als Anwender von AI können uns über viele neue Möglichkeiten freuen.
Im letzten Newsletter diesen Jahres gebe ich Dir einen Überblick über die Ankündigungen und was wir daraus für die Zukunft ableiten können.
Let's go.
#1: Vollständiges o1-Modell und ChatGPT Pro
Das vollständige o1-Reasoning-Modell wurde freigegeben, das komplexe Probleme durch Kettendenken lösen kann. Es ist 50% schneller als die Vorschauversion und macht 34% weniger schwerwiegende Fehler. Zusätzlich wurde ein neues Premium-Abonnement namens ChatGPT Pro für 200 Dollar pro Monat eingeführt, das unbegrenzten Zugang zum o1-Modell sowie der Video-KI Sora bietet (noch nicht in DE verfügbar).
Ich bin leider selbst noch nicht zum testen gekommen, doch habe einen guten Testbericht gefunden:
Was Du daraus ableiten kannst:
Verschiedene Modelle für verschiedene Use Cases: o1 gut für Mathematik/Coding, GPT4o für Alltagsaufgaben, Claude 3.5 Sonnet für Copywriting. Anbieter könnten jetzt anfangen die Kosten zu steigern, um die hohen Verluste zu reduzieren. Aus diesem Grund bleibt eine Multi-Modell Strategie aus Open und Closed-Source wichtig!
#2: Reinforcement Fine-Tuning
OpenAI erweiterte sein "Reinforcement Fine-Tuning Research Program", das Entwicklern und ML-Engineers ermöglicht, Expertenmodelle für spezifische, komplexe Aufgaben zu erstellen. Diese Ankündigung richtet sich hauptsächlich an Entwickler und deutet auf eine Zukunft hin, in der Unternehmen und möglicherweise sogar Einzelpersonen domänenspezifische Modelle trainieren können.
Was Du daraus ableiten kannst:
Dieser Schritt deutet auf einen Trend im hin, bei dem die Personalisierung und Spezialisierung von KI-Modellen für bestimmte Aufgaben und Branchen zunehmend in den Vordergrund rückt. Das "erschlagen" sämtlicher Anwendungsfälle mit allgemein-trainierten großen Sprachmodellen ist auf Dauer wenig effizient und effektiv. Spezialisierte Sprachmodelle für bestimmte Anwendungsfälle werden aus Kosten- und Qualitätsgründen immer wichtiger werden.
#3: Sora
OpenAI veröffentlichte Sora, sein hochmodernes Videogenerierungsmodell, das Texte in Videos von 5 bis 20 Sekunden Länge umwandeln kann. Das Tool bietet verschiedene Auflösungen und Seitenverhältnisse sowie ein Storyboard-Tool zur präzisen Kontrolle der Videos.
Was Du daraus ableiten kannst:
Nachdem Text, Bild und Audio in der Qualität extrem fortgeschritten sind, ist jetzt Video dran. Weiterhin bleibt die Erstellung von Videos teuer und die Kontrolle der Inhalte schwierig, weshalb OpenAI dafür direkt diverse Features mitliefert. Video-KIs werden eine riesige Content-Schwemme auf sozialen Medien auslösen. Durchschnittliche Inhalte werden bedeutunglos. Authentizität und originelle Ideen werden immer wichtiger.
#4: Updates für ChatGPT Canvas
OpenAI verbesserte die Canvas-Funktion in ChatGPT. Canvas kann nun Code ausführen und wird nicht mehr als separates Modell behandelt. Zudem können GPTs (angepasste ChatGPT-Versionen) jetzt auch Canvas nutzen, was die Funktionalität und Flexibilität des Tools erweitert.
Was Du daraus ableiten kannst:
Die Canvas Funktion ist ein Beispiel für einen Trend, den wir weiterhin sehen werden. Größere Sprachmodelle werden immer teurer (in der Entwicklung und im Betrieb), aber durch Funktionen wie Canvas können die schon vorhandenen Modelle deutlich intuitiver in der Nutzung werden. Auch ich erlebe meistens, dass Tools wie ChatGPT nicht richtig eingesetzt werden, was auch an der schlechten UX liegt. Anstatt also immer nur größere Modelle zu entwickeln, arbeiten Anbieter wie OpenAI an Features um die vorhandenen Modelle besser nutzbar zu machen.
#5: Apple Intelligence
OpenAI integrierte ChatGPT in Apples Betriebssysteme, was eine engere Zusammenarbeit zwischen den beiden Unternehmen zeigt. Diese Integration ermöglicht es Nutzern, ChatGPT nahtlos auf Apple-Geräten zu verwenden und von den KI-Fähigkeiten in verschiedenen Apple-Anwendungen zu profitieren.
Was Du daraus ableiten kannst:
KI kommt da hin, wo wir arbeiten und leben. Sprachmodelle werden als Feature in viele Produkte integriert: Smartphones, Software, Autos, Kühlschränke. Im Unternehmen wird es immer wichtiger werden, diese Funktionen richtig einzusetzen, um wettbewerbsfähig zu bleiben. In der Entwicklung von Produkten und Erbringung von Services müssen KI-Fähigkeiten mitgedacht werden, um das beste Produkt und Erlebnis für den Kunden zu gewährleisten. Es wird auf kurz oder lang keine leistungsfähige Software mehr ohne KI im Kern geben.
#6: Multimodaler Advanced Voice Mode (und Santa Mode)
Der Advanced Voice Mode wurde um Videounterstützung und Bildschirmfreigabe erweitert, was die Interaktionsmöglichkeiten mit ChatGPT erweitert. Du kannst jetzt dein Umfeld per Video zeigen und dazu Fragen stellen oder das Gesehene anderweitig verarbeiten lassen.
Zusätzlich wurde ein "Santa Mode" eingeführt, der ChatGPT in einen festlichen Begleiter verwandelt und besonders für Unterhaltung und Spaß während der Feiertage gedacht ist.
Der Santa Mode ist meiner Meinung nach nur ein kleines Ablenkungsmanöver, um eine Technologie die immer mächtiger wird, weiterhin harmlos wirken zu lassen.
Was Du daraus ableiten kannst:
Auch hier setzt sich der Trend fort, dass Features um Sprachmodelle entwickelt werden, welche die Nutzung verbessern. Außerdem werden KI-Systeme maximal flexibel in der Verarbeitung von Inputs: egal ob Sprache, Text, Code, Dateien oder jetzt auch Video. Assistenten wie ChatGPT können diese Inputs verarbeiten und basierend darauf Aktionen ausführen. Damit werden sie zum ultimativen Assistenten im (Arbeits-)Alltag.
#7: Projekte und Ordner für ChatGPT
OpenAI führte die Funktion "ChatGPT Projects" ein, die es Nutzern ermöglicht, ihre Arbeit in ChatGPT besser zu organisieren. Diese Funktion ist zunächst für Plus-, Pro- und Teams-Nutzer verfügbar und soll 2025 auch für kostenlose Nutzer zugänglich gemacht werden.
In Projects können thematisch zusammengehörige Chats, Dateien und Prompts in einem Projekt gebündelt werden, wodurch der Kontext über mehrere Sitzungen hinweg erhalten bleibt und die Effizienz bei der Arbeit mit dem KI-Assistenten gesteigert wird.
Was Du daraus ableiten kannst:
Kontext ist König bei der Arbeit mit Sprachmodellen und KI Assistenten. Je mehr sie über Dich, dein Unternehmen, deine Prozesse etc. wissen, umso relevanter sind die Antworten. Funktionen wie “Projects” zeigen uns, dass es immer einfacher werden wird, den Assistenten sämtliches Wissen über uns bereitzustellen. Fraglich nur, ob wir das alles in ChatGPT haben wollen…
#8: Suche
Am achten Tag präsentierte OpenAI Verbesserungen der Suchfunktion in ChatGPT. Die Suchfunktion wurde um Echtzeit-Informationen erweitert und bietet nun eine bessere Integration von Karten und interaktiven Widgets. Die Suchfunktion wird jetzt auch für kostenlose Nutzerverfügbar gemacht.
Was Du daraus ableiten kannst:
Neben Perplexity greift auch OpenAI den von Google dominierten Suchmarkt an. KI Assistenten werden durch die Suche ein wichtigeres Interface über das immer mehr Aktionen abgewickelt werden. Für Unternehmen ist dies relevant, da es eine Verschiebung in der Art und Weise andeutet, wie Informationen gesucht und verarbeitet werden, was neue Strategien für digitales Marketing und Kundeninteraktion erfordert. Aktuell sind die Suchanfragen über KI Tools aber noch verhältnismäßig gering.
#9: Entwickler-Tools
OpenAI hat natürlich auch die Entwickler-Tools und APIs verbessert:
- o1 Modell mit stärkeren Reasoning-Fähigkeiten wird jetzt per API bereitgestellt.
- Realtime API zur Sprachverarbeitung wird 60% günstiger.
Was Du daraus ableiten kannst:
Durch leistungsfähigere, flexiblere und günstigere APIs wird die Einbindung von Sprachmodellen in Software immer weiter zunehmen. Die Fähigkeiten zur natürlichen Sprachverarbeitung und Erzeugung aus ChatGPT werden Einhalt in immer mehr Business-Software und Alltagsprodukte finden. Auch hier sollte eine Multi-Modell-Strategie beachtet werden, um den Lock-In eines Anbieters zu vermeiden.
#10: 1-800-ChatGPT
ChatGPT kann jetzt angerufen werden (nur in den USA) und per WhatsApp kontaktiert werden. Füge dafür einfach +18002428478 als Kontakt hinzu. Die Antworten basieren auf dem o1-mini-Modell und sind auf den Wissensstand von Januar 2022 beschränkt.
Was Du daraus ableiten kannst:
OpenAI versucht weiter Marktanteile zu gewinnen und Nutzungsbarrieren abzubauen - das Ziel: 1 Mrd. Nutzer in 2025. Wir dürfen nicht vergessen, dass die meisten Menschen noch gar nicht oder nur rudimentär Tools wie ChatGPT genutzt haben. Durch die WhatsApp Integration können Nutzungsbarrieren reduziert werden, um ChatGPT einer breiten Masse zugänglich zu machen - und später zu monetarisieren.
#11: Arbeit mit Apps
OpenAI hat mit dem "Work with Apps"-Update für die ChatGPT Desktop-App die Integration mit verschiedenen Produktivitäts- und Entwicklungsanwendungen erheblich verbessert, darunter Apple Notes, Notion und IDEs wie Xcode. Zusätzlich wurde die Sprachsteuerungsfunktion erweitert, sodass Nutzer nun auch sprachgesteuert mit diesen Anwendungen interagieren können, während gleichzeitig der Datenschutz durch manuelle Aktivierung der App-Integrationen gewährleistet bleibt.
Was Du daraus ableiten kannst:
Damit zeigt OpenAI klar den Weg zu "Agentic AI" auf, bei der ChatGPT nicht nur auf Befehle reagiert, sondern aktiv mit Benutzern zusammenarbeitet, um Aufgaben effizient zu erledigen. Spracheingaben könnten die zentrale Steuerung werden. Somit haben wir unseren Sparringspartner immer dabei und können wie mit einem Kollegen kommunizieren und Aufgaben delegieren.
#12: Ankündiung der Modell-Generation o3
Das Beste kam zum Schluss!
OpenAI hat die neue Modellreihe "o3" vorgestellt, bestehend aus o3 und o3-mini. Die Modelle werden schrittweise eingeführt, wobei o3-mini Ende Januar und o3 kurz danach verfügbar sein sollen.
In Benchmark Tests schneidet o3 beeindruckend ab:
- 87,5% bei ARC-AGI (o1 lag bei 30%)
- 25,2 % Frontier Math von EpochAI (kein anderes LLM erreichte 2%)
- 96,7% bei AIME 2024 (nur 1 Frage falsch)
- 71,7% bei Software-Engineering (o1 war 48,9%)
- 87,7 % auf PhD-Niveau Wissenschaftsfragen (besser als menschl. Experten)
Damit schlägt o3 alles, was wir bisher gesehen haben.
Mit weitem Abstand.
Was Du daraus ableiten kannst:
Der Fortschritt in den Benchmarks ist beeindruckend und ein klares Signal, dass wir wohl doch noch nicht das Plateau der Leistungsfähigkeit von Sprachmodellen gesehen haben. Basierend auf den Benchmarks könnte o3 in der Lage sein, viele kognitive Aufgaben effizienter zu lösen als ein Mensch - auch wenn das für den Moment noch extem teuer ist.
o3 ist damit ein großer Durchbruch in der Entwicklung von Künstlicher Intelligenz.
Ich bleibe dabei: Wir müssen diese Technologie verstehen und anwenden lernen, wenn wir in der Wirtschaftswelt wettbewerbsfähig bleiben wollen.
Das Tempo bleibt vorerst hoch.
🏁 Fazit
Mit Shipmas hat OpenAI wieder einmal viel Bewegung in die AI-Welt gebracht. Aus den vorgestellten Features, Partnerschaften und Verbesserungen können wir einige Trends für das kommende Jahr ableiten.
Key Takeaways:
- Features: Funktionen wie Projects, Canvas und die Apps werden helfen, die schon vorhandenen Modelle noch stärker zu heben und alle kommenden Modelle noch wertvoller zu machen. Selbstgebaute Workflows mit Make/Zapier oder Agent-Plattformen werden wahrscheinlich immer mehr obsolet, da viele der Funktionen im Laufe des nächsten Jahres direkt in Tools wie ChatGPT angeboten werden.
- Modelle: Das Plateau von Sprachmodellen scheint noch nicht erreicht, womit OpenAI mal wieder überrascht. Es bleibt abzuwarten, wie o3 im Live-Betrieb funktionieren und zu welchem Preis.
- Das Video-Rennen ist eröffnet: Sora ist offiziell verfügbar und Google hat mit Veo 2 direkt nachgezogen. Video wird in 2025 noch ganz groß werden und uns viel Kummer in Sozialen Medien bereiten.
- Die Zukunft ist agentisch: Durch Integrationen in andere Systeme, Internetsuche und Bedienung des PCs werden AI-Modelle immer mehr Aufgaben für uns übernehmen. Agenten kommen 2025 in die Büros und werden die Art und Weise, wie intelligente Fleißarbeit erledigt wird, auf den Kopf stellen. Eine Welt in der Büromitarbeiter diese Agents ganz einfach steuern können indem sie ihren Bildschirm teilen und in ein Mikrofon sprechen, ist greifbar.
Was für ein Endspurt in 2024!
Das Entwicklungstempo bleibt enorm hoch.
Jetzt gilt mehr denn je: AI verstehen, Potenziale für unsere Unternehmen ableiten und die Anwendung meistern. Diesen Weg muss jeder für sich selbst gehen. Die Technologie ist jedenfalls bereit.
Auch in 2025 können wir uns auf ein mindestens genauso spannendes AI-Jahr einstellen.
Dir wünsche ich frohe Weihnachten und wir hören uns nach einer kurzen AI FIRST Pause in 2025 wieder.
Logge Dich ein oder registriere Dich, um am Austausch teilzunehmen.
Diskutiere mit