Les tests de référence de GPT 4.1 montrent des améliorations significatives dans plusieurs mesures, y compris un taux d'achèvement de 54,6 % au test SWE-bench (contre 33,2 % pour GPT-4o), une amélioration de 10,5 % de la cohérence conversationnelle, et une amélioration de 53 % de la précision sur des analyses fiscales complexes.