Артур выпускает инструмент с открытым исходным кодом, чтобы помочь компаниям найти лучшего LLM для работы

Arthur, стартап по мониторингу машинного обучения, в этом году извлек выгоду из интереса к генеративному искусственному интеллекту и разрабатывает инструменты, которые помогут компаниям более эффективно работать с LLM. Сегодня компания выпускает Arthur Bench, инструмент с открытым исходным кодом, который поможет пользователям найти лучший LLM для определенного набора данных.

Адам Венчел, генеральный директор и соучредитель компании Arthur, говорит, что компания заметила большой интерес к генеративному искусственному интеллекту и LLM, поэтому они приложили много усилий для создания продуктов.

Он говорит, что сегодня, хотя с момента выпуска ChatGPT прошло меньше года, у компаний нет организованного способа измерения эффективности одного инструмента по сравнению с другим, и именно поэтому они создали Артура Бенча.

«Артур Бенч решает одну из важнейших проблем, о которой мы слышим от каждого клиента: какая из моделей лучше всего подходит для вашего конкретного применения», — сказал Венчел TechCrunch.

Он поставляется с набором инструментов, которые вы можете использовать для методического тестирования производительности, но реальная ценность заключается в том, что он позволяет вам тестировать и измерять, как типы подсказок, которые ваши пользователи будут использовать для вашего конкретного приложения, будут работать с различными LLM.

Кредиты изображений:Артур

«Потенциально вы можете протестировать 100 различных подсказок, а затем посмотреть, как два разных LLM — например, Anthropic сравнивается с OpenAI — в отношении типов подсказок, которые ваши пользователи могут использовать», — сказал Венчел. Более того, он говорит, что вы можете сделать это в большом масштабе и принять более правильное решение о том, какая модель лучше всего подходит для вашего конкретного случая использования.

Arthur Bench выпускается сегодня как инструмент с открытым исходным кодом. Также будет версия SaaS для клиентов, которые не хотят иметь дело со сложностями управления версией с открытым исходным кодом или имеют более высокие требования к тестированию и готовы за это платить. Но на данный момент, по словам Венчела, они концентрируются на проекте с открытым исходным кодом.

Новый инструмент появился вслед за выпуском в мае Arthur Shield, своего рода межсетевого экрана LLM, который предназначен для обнаружения галлюцинаций у моделей, одновременно защищая от токсичной информации и утечек личных данных.

Кредиты изображений: