Os testes de benchmark do GPT 4.1 mostram melhorias significativas em várias métricas, incluindo uma taxa de conclusão de 54,6% no teste SWE-bench (em comparação com 33,2% para o GPT-4o), uma melhoria de 10,5% na coerência conversacional, e uma melhoria de 53% na precisão em análises fiscais complexas.