Task

Detailed breakdown of individual task performance across different models.

claude-4-6-sonnet	gemini-3.1-pro	glm-4.7	gpt-5.2-codex	gpt-5.2-codex-with-skills
88.6s	66.8s	334.3s	120.7s	58.3s
173.5s	95.2s	199.7s	99.3s	56.9s
112.1s	123.2s	251.5s	82.6s	59.2s
149.9s	282.6s	351.5s	471.7s	204.6s
106.3s	96.8s	171.6s	88.8s	91.5s
91.9s	144.1s	130.1s	109.9s	99.6s
130.6s	161.5s	201.0s	45.6s	41.0s
335.2s	600.1s	600.0s	52.4s	67.0s
129.0s	71.3s	318.9s	59.6s	91.4s
139.5s	100.0s	91.8s	37.9s	47.0s
214.1s	128.8s	166.5s	107.4s	92.6s