This is a success message.
This is an error message.

GPT-5 Deep Dive

Test der Fähigkeiten an 10 konkreten Use Cases

10.8.2025
in
Horizont
von
Felix Schlenther
Felix ist der CEO und Gründer der Unternehmensberatung von AI FIRST. Jede Woche erkundet er die Grenzen der AI in praxisnahen Beiträgen und in seinem Podcast AI FIRST.

Herzlich Willkommen zu den AI FIRST Insights!


OpenAI hat das lang erwartete Frontier-Modell GPT-5 veröffentlicht und die Community hat heiß diskutiert. Von Enttäuschung bis "Game Changer" waren wie immer alle Meinungen vertreten.


Ich gehe bei neuen Modell-Releases anders vor.


Anstatt mir die technischen Specs oder Demos anzuschauen, lasse ich Modell durch typische Use Cases im Alltag sowie meine KI-Assistenten & -Agenten laufen und vergleiche die Ergebnisse miteinander.


Mit diesem Vorgehen kommst du viel schneller in eine produktive Bewertung und kannst das Modell dann dort anwenden, wo es dich wirklich weiterbringt.


Für diese Aufgabe habe ich GPT-5 durch 10 Use Cases laufen lassen und teile die Ergebnisse mit dir.


Los geht's!



Bringe dein Unternehmen erfolgreich in die KI-Ära

Vor 3 Monaten habe ich das AI Collective mit der Mission gegründet, Führungskräfte im Mittelstand fit für die KI-Ära zu machen.

Ab September öffenen wir das AI Collective für weitere Mitglieder, die die KI-Transformation in ihrem Unternehmen vorantreiben.



Wenn du bereit bist, die KI-Verantwortung in deinem Unternehmen zu übernehmen und deine Karriere auf die nächste Stufe zu heben, ist das deine Einladung.

👉 Mehr über das AI Collective erfahren



#1: Wettbewerbsrecherche und Analyse

Ich wollte testen, ob GPT-5 mit Deep Research mehr Quellen durchsucht und / oder umfangreiche Ergebnisse produziert.



Das Ergebnis

Kein besonderer Unterschied zur Recherche mit o3, sowohl in Umfang der Quellen als auch im Umfang der Ergebnisse. Deep Research mit Gemini 2.5 Pro bleibt in Recherchen für mich weiterhin an der Spitze.




#2: Authentischen Text im Tone of Voice schreiben

Das Schreiben menschlicher Texte in einem vorgegebenen Tone of Voice war bisher eher eine Schwäched er OpenAI-Modelle. GPT-5 hat die Anweisung bekommen, einen Newsletter zu GPT-5 in meinem ToV zu schreiben, den ich detailliert in einem 20-seitigen Doc beschrieben habe.



Ergebnis

Solide Resultate, insbesondere in der Struktur, zB "Herzlich Willkommen z den AI FIRST Insights!", "Los geht's" oder das "Fazit" wurden zu 100% korrekt übernommen.

Einige Formatvorgaben wie "nutze Bullet Points bei Aufzählungen" wurden jedoch zu exzessiv genutzt.

In dieser Kategorie bleibt GPT-5 dem Claude 4 Sonnet Modell unterlegen.




#3: Informationssynthese aus verschiedenen Dokumenten

In diesem Test wollte ich verstehen, wie GPT-5 mit der Verarbeitung von Informationen aus verschiedenen Dokumenten umgeht.



Ergebnis

GPT-5 hat alle 4 PDFs verarbeitet und in den Ergebnissen korrekt zitiert. Das größte Dokument wurde am häufigsten zitiert. Insgesamt bin ich mit dem Ergebnis zufrieden, erkenne jedoch keinen Unterschied zu anderen Reasoning-LLMs.




#4: Kundensegmentierung basierend auf csv-Datei

GPT-5 hat eine csv-Datei mit 200 Transaktionen erhalten und sollte daraus Kunden-Segmente ableiten. Außerdem wollte ich testen, inwiefern GPT-5 bei den Maßnahmen-Empfehlungen halluziniert, weil es für diese Aufgabe nicht ausreichend Informationen hatte.



Ergebnis

Die abgeleiteten Segmente und Herleitung war anhand der wenigen zur Verfügung stehenden Informationen sinnvoll. Außerdem hat GPT-5 zur Maßnahmen-Herleitung weiterführende Analysen vorgeschlagen und keine zufälligen Empfehlungen ausgesprochen.

Die Tabellenauswertung von ChatGPT war nach meiner Empfindung schon immer die Beste und funktioniert auch in GPT-5 sehr gut.

Mir ist aufgefallen, dass der Analyse-Prozess in mehrere Unterschritte runtergebrochen wird und trotzdem schneller abläuft als in vorherigen Modellen.




#5: Auswertung von Kundenfeedback

Im 2. Datenanalyse-Test wollte ich Kundenfeedback anhand eine Customer Satisfaction Scores und Freitext-Feedback auswerten lassen. Diesen Test habe ich bereits dutzende Mal mit verschiedenen LLMs und Agenten durchgeführt und kann die Ergebnisse daher gut vergleichen.



Ergebnis

Die gelieferten Antworten waren korrekt. Die Stärken wurden leicht ausgeführt, die Schwächen jedoch nicht. Die Handlungsempfehlungen waren als 1. Orientierung ausreichend.

Spätestens bei diesem Test ist mir jedoch aufgefallen, wie kurz sich GPT-5 bei Antworten hält, bei denen deutlich mehr Kontext hätte gegeben werden können.




#6: Erstellung einer Lern-Website

Im Canvas-Modus bietet ChatGPT die Möglichkeit einer Code Vorschau. Ich wollte die Coding-Fähigkeiten testen und habe die Aufgabe der Erstellung einer Lernwebsite gegeben. Die gleiche Aufgabe habe ich vor wenigen Wochen mit bolt.new bearbeitet (spezialisiertes AI Coding Tool) und konnte die Ergebnisse daher gut vergleichen.



Ergebnis

Zum ersten Mal hatte ich mit GPT-5 einen kleinen Wow-Moment. Ich habe in wenigen Sekunden die Seiten-Struktur, Module, Inhalte hinter dem Modul, Quizzes, Fortschrittsanzeigen etc. erhalten. Mit einem Prompt. Mit AI Coding Tools waren oft mehrere Prompts notwendig, um zu dem Arbeitsstand zu kommen.

Das setzt die Einstiegshürde für Prototyping noch einmal deutlich niedriger!




#7: Erstellung von PowerPoint-Folien zur Einführung von KI in Unternehmen

Beeindruckt von den Coding-Fähigkeiten von GPT-5 wollte ich jetzt wissen, ob auch das Problem der Folienerstellung lösbar ist. Als Komplexität habe ich eingebaut, dass das Modell vorab die Design-Sprache unserer Website identifizieren und auf die Folien anwenden soll.



Ergebnis

Sieh selbst :) GPT-5 schreibt zwar einen Code, der eine PPT-Datei generiert, aber kann weiterhin nicht ausreichend auf die Formattierung zugreifen.




#8: Multimodale Datenauswertung (Text, Bild, Video, Audio)

Die Fähigkeit von LLMs, nicht nur Texte, sondern auch Bilder, Videos, Audio oder Code auswerten zu können, ist für mich weiterhin eines der spannendsten Entwicklungsfelder, weil mit jedem neuen Datentyp eine große Anzahl neuer Use Cases freigeschalten wird.


Ich wollte verstehen, wie gut GPT-5 in der Auswertung verschiedener Datentypen zur selben Zeit ist. Als Input habe ich eine mp4-Datei aus unserer Akademie, eine sehr visuelle Präsentation als pdf und ein Text-Dokument gegeben.



Ergebnis

GPT-5 hat auch nach mehreren Anläufen und Prompts immer nur das Doc und die Präsi ausgewertet, aber nie die mp4-Datei.



Ich habe die mp4-Datei noch einmal einzeln hochgeladen und siehe da, eine sehr akkurate Übersicht über alle Inhalte des Videos.




#9: KI-Strategie Entwicklung (Strategie, Roadmap, OKRs)

Ich wollte natürlich auch die planerischen Fähigkeiten von GPT-5 testen und habe ein Canvas als Vorlage und eine Aufgabe mit vorgelagerter Recherche eingebaut.



Ergebnis

Hier kommen die Stärken von GPT-5 voll zum Vorschein. Das Modell hat in einem Schritt eine mehrstufige Recherche durchgeführt, die Ergebnisse in den Canvas eingearbeitet und eine Mini-Roadmap visualisiert.




#10: Event Planung: Dinner, Location, Agenda, Speaker, Einladungsschreiben mit Bild

Abschließend wollte ich noch unsere Planung des AI Collective Days mit der Planung von GPT-5 vergleichen. Auch hier kommt es auf die Planungs des Prozesses, die Anwendung verschiedener Tools und das strukturierte Zusammentragen der Ergebnisse an.



Ergebnis

Auch bei dieser Aufgabe hat GPT-5 sehr gut abgeliefert und wirklich sehr passende Vorschläge basierend auf meinen Inputs gemacht inkl. der dazu passenden Recherche von Restaurants, Location und Speakern.




🏁 Fazit

GPT-5 löst insbesondere ein Problem: Nutzer müssen nicht mehr über die Auswahl des Modells entscheiden. Dadurch steigt die Effektivität des Modells für einen Großteil der Nutzer, was die Ergebnisse im Durchschnitt stark verbessern wird.


Ich konnte für mich keinen signifikanten Qualitätsgewinn in den Ergebnissen feststellen - weder in den 10 Use Cases dieses Tests, noch in meinen bestehenden Assistenten und Agenten.




Trotzdem finde ich die mehrstufige Bearbeitung von Aufgaben inkl. Datenanalyse, Recherche, Coding und Tool-Nutzung, die out-of-the-box in GPT-5 mitgeliefert wird, extrem stark.


Welche Erfahrungen hast du mit GPT-5 gemacht?


Bis nächsten Sonntag,

Felix

P.S. Im AI Collective machen wir Deep Dives zu neuen Modell-Releases und diskutieren die Erfahrungen unserer Mitglieder. Wir haben noch ein paar wenige Plätze für den Start im September verfügbar. Hier erfährst du alles weitere und kannst dich bewerben.

Logge Dich ein oder registriere Dich,
um am Austausch teilzunehmen.

Eröffne die Diskussion 💬 🌞
Jemand tippt
Nicht
angegeben
Moderator
4 years ago
Dein Kommentar wird sichtbar, sobald er von einem Moderator freigegeben wurde.
This is the actual comment. It's can be long or short. And must contain only text information.
(Bearbeitet)
Nicht
angegeben
Moderator
2 years ago
Dein Kommentar wird sichtbar, sobald er von einem Moderator freigegeben wurde.
This is the actual comment. It's can be long or short. And must contain only text information.
(Bearbeitet)
Weitere Antworten laden ↓
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Weitere Antworten laden ↓