Benchmark-Tests von GPT 4.1 zeigen erhebliche Verbesserungen in mehreren Kennzahlen, einschließlich einer Abschlussquote von 54,6 % im SWE-bench-Test (im Vergleich zu 33,2 % für GPT-4o), einer Verbesserung der Gesprächskohärenz um 10,5 % und einer Verbesserung der Genauigkeit bei komplexer Steueranalyse um 53 %.