전체 용어로 돌아가기
에이전트 / AI 개발 개념

하네스(Harness)

하네스(Harness)는 AI 모델이나 에이전트를 실행하고 평가하기 위해 감싸는 테스트/운영 틀입니다.

정확한 개념

하네스(Harness)는 모델이나 에이전트를 실행, 평가, 관찰하기 위해 감싸는 테스트/운영 틀입니다.

왜 중요한가

AI 코딩 결과가 안정적인지 보려면 단순히 답변만 보는 것이 아니라 입력, 도구 호출, 결과 검증을 반복 가능한 구조로 봐야 합니다.

Understanding

이렇게 이해하면 쉽습니다

같은 프롬프트를 여러 모델에 넣어 결과를 비교하거나, 에이전트가 특정 작업을 끝까지 수행하는지 자동으로 확인하는 틀이 하네스가 될 수 있습니다.

하네스가 부실하면 에이전트가 실제로는 실패했는데 성공처럼 보일 수 있습니다.

Checklist

실제로 볼 때 확인할 것

  1. 01

    입력과 기대 결과를 명확히 둔다

  2. 02

    실패 기준을 정한다

  3. 03

    평가 결과를 반복해서 비교할 수 있게 저장한다

관계 지도