인공지능(AI)의 성능을 비교하기 위해 동일한 문제나 과제를 제시해 점수를 매기는 시험 도구를 ‘벤치마크’라고 한다. 모델의 지식, 추론, 코드 작성, 생산성 등 특정 능력을 평가하는 기준으로 활용된다. 최근 AI 경쟁이 치열해지면서 모델 간 성능 격차가 좁혀지고 AI가 상향 평준화됐다. 이에 따라 성능 평가 테스트 도구도 새롭게 개발되고 있다.
아직까
삼성전자가 자체 개발한 인공지능(AI) 업무 생산성 벤치마크 '트루벤치(TRUEBench)'를 공개했다고 25일 밝혔다.
트루벤치는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크로 AI 모델의 업무 생산성 성능을 평가한다.
삼성전자는 많은 기업이 업무 전반에 AI를 도입하고 있지만, 기