인공지능(AI)의 성능을 비교하기 위해 동일한 문제나 과제를 제시해 점수를 매기는 시험 도구를 ‘벤치마크’라고 한다. 모델의 지식, 추론, 코드 작성, 생산성 등 특정 능력을 평가하는 기준으로 활용된다. 최근 AI 경쟁이 치열해지면서 모델 간 성능 격차가 좁혀지고 AI가 상향 평준화됐다. 이에 따라 성능 평가 테스트 도구도 새롭게 개발되고 있다.
아직까
코딩·업무·전문 분야 등에서 성능 대폭 향상카플란 CSO “속임수·비위 맞추기 답변 감소”연말까지 1~2번의 추가 모델 출시 예고
인공지능(AI) 스타트업 앤스로픽이 새로운 AI 모델 ‘클로드 소네트 4.5’ 출시를 밝히며 오픈AI와의 경쟁을 가속화하고 있다.
29일(현지시간) 가디언에 따르면 앤스로픽이 이번에 출시한 모델은 지난달 내놓은 프리미엄