Task

Detailed breakdown of individual task performance across different models.

claude-4-6-sonnet	gemini-3.1-pro	glm-4.7	gpt-5.2-codex
83.3s	194.4s	437.1s	97.8s
118.9s	255.1s	524.6s	155.2s
98.4s	40.1s	408.6s	73.3s
27.7s	188.6s	230.3s	73.2s
270.2s	327.9s	356.2s	122.3s
72.1s	327.5s	126.8s	24.1s
56.1s	62.1s	85.0s	20.2s
48.2s	213.9s	287.9s	98.0s
97.0s	58.2s	245.2s	19.7s
74.0s	74.3s	422.7s	51.2s