Дослідження виявило, що сучасні моделі ШІ недостатньо ефективні у виконанні IT-завдань, отримуючи оцінки нижче 50% на першому бенчмаркінг-тестуванні.
Основна увага приділялася агентним операціям у сфері інформаційних технологій, що дозволило виявити суттєві недоліки моделей.
Ця робота була здійснена спільно з компаніями Artificial Analysis та IBM, що визначає важливість подальшого розвитку технологій штучного інтелекту.