Kuidas süsteemselt seadistada LLM evaluatsioone (mõõdikud, ühiktestid, LLM-as-a-Judge)