Прогресс

Ни один ИИ не безопасен. Но некоторые лучше других

Anthropic позиционирует себя как лидера в области безопасности ИИ, и анализы подтверждают это

Исследования безопасности искусственного интеллекта показали, что ни одна из современных моделей больших языковых моделей (LLM) не является полностью защищенной от создания вредного контента, но модель Claude 3.

5 от Anthropic оказалась лучшей среди протестированных. Британская компания Chatterbox Labs протестировала восемь популярных LLM, включая модели от Microsoft, Google и OpenAI, в рамках набора тестов AIMI, которые оценивают модели по таким критериям, как справедливость, безопасность и конфиденциальность.

Все протестированные модели были способны генерировать вредный контент, но Claude 3.5 от Anthropic проявил наибольшую устойчивость к таким атакам, демонстрируя способность отклонять вредоносные запросы или перенаправлять их. Тем не менее, даже лучшие модели можно «взломать» с помощью специальных запросов, что подтверждает необходимость дальнейшего развития систем защиты.

Anthropic использует уникальный подход к созданию безопасных моделей ИИ, включая методы «конституционного ИИ», который позволяет моделям обучаться самостоятельно через анализ этических принципов и следование им. Эта техника помогает моделям ИИ самостоятельно корректировать свое поведение в сложных ситуациях. В компании уверены, что их методы будут способствовать более безопасному развитию ИИ в будущем, но признают, что предстоит еще много работы для создания полностью защищенных систем.

Когда появится сильный искусственный интеллект:

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов