(Template Matters) Understanding the Role of Instruction Templatesin Multimodal Language Model Evaluation and Training

이 논문은 멀티모달 언어 모델(MLM)의 평가와 훈련 과정에서 지시어 형식(instruction format)이 모델 성능에 큰 영향을 미칠 수 있다는 점을 지적하며, 이를 효과적으로 다루는 새로운 방법을 제안합니다.

문제점

현재 멀티모달 언어 모델(MLM)의 평가 및 훈련에서는 지시어 형식이 모델 성능에 미치는 영향을 간과하고 있음. 예: 같은 데이터라도 지시어 형식에 따라 모델의 응답 품질이 달라질 수 있음.
이전 연구들은 수작업으로 지시어를 작성하는 방식을 사용했으나, 이는 다양성과 확장성에서 한계가 있어 중요한 통찰을 제공하지 못함.

제안하는 방법 1. 프로그램 기반의 지시어 템플릿 생성기 개발:

39억 개 이상의 고유한 템플릿 조합을 생성 가능.
메타 템플릿(meta templates)에 위치 동의어(positional synonyms)와 가중치 기반 샘플링(weighted sampling)을 적용하여 다양한 템플릿 생성.
1. 목적:
다양한 지시어 템플릿을 활용해 MLM 성능을 체계적으로 평가.
모델이 템플릿에 얼마나 민감한지 확인.

실험 결과

8개의 MLM 모델과 5개의 벤치마크 데이터셋에서 실험한 결과:
템플릿에 따라 최대 29% 성능 차이가 발생.
즉, 지시어 형식은 모델 성능에 매우 큰 영향을 미침.
LLaVA-1.5 모델(LLaVA-1.5-7B, LLaVA-1.5-13B)의 지시어 튜닝 데이터셋을 증강:
제안된 템플릿 생성기를 사용해 데이터셋 증강 후 모델을 튜닝.
동일한 규모의 MLM과 비교 시, 75배 적은 데이터를 사용하면서도 최고 성능 달성.

Paper Link

Code Link

Programmatically Scaling Instruction Templates

프로그램 기반의 지시어 템플릿 생성기를 제안하며, 이를 통해 다양한 템플릿을 효율적으로 생성하는 방법과 이를 조직적으로 샘플링하는 방식을 설명합니다.

핵심 아이디어 1. 다양하고 문법적으로 올바른 지시어 템플릿 생성:

기존 질문-답변(QA) 쌍은 그대로 유지하며, 지시어 템플릿을 다양하게 생성.
메타 템플릿(meta template)과 위치 동의어(positional synonyms: placeholder를 대체할 수 있는 단어 또는 구의 집합으로 문법적으로 적절하고, 의미적으로도 사용가능한 동의어들이 포함됨)를 조합해 템플릿 다양성을 확보.
1. 지시어 템플릿의 체계적 샘플링:
문장 패턴 트리(sentence pattern tree)를 사용해 템플릿 공간을 체계적으로 구성.
트리 기반의 가중치 샘플링(weighted sampling)을 통해 템플릿 간 샘플링 확률을 균일하게 유지.

메타 템플릿 생성
- 메타 템플릿(meta template):
- 지시어 템플릿을 생성하기 위한 기본 청사진.
- Fixed String과 placeholder로 구성.
- 예: <verb> me <answer> to the question <related> the <image>: {question} - 플레이스홀더는 특정 문맥에 적합한 위치 동의어 집합(positional synonyms)와 연결.
- → “give”, “provide”, “offer”
- → “related to”, “concerning”, “regarding” - 랜덤으로 동의어를 선택해 템플릿을 생성.
- 예: “give me a response to the question concerning the provided image: {question}”
문장 패턴 트리를 통한 샘플링
- 문장 패턴 트리 (Sentence Pattern Tree): 문장을 체계적으로 구성하고 분류하기 위한 계층적 트리구조로, 문장의 유형을 여러 레벨로 세분화하여 다양한 템플릿을 효율적으로 생성하고 샘플링할 . 수있도록 도와줍니다.
- 트리 구조로 지시어 템플릿을 체계적으로 구성:
  - Level 1: 문장의 기본 유형 (명령문: 요청 전달 문장, 서술문: 정보 전달 문장).
  - Level 2: 문장의 구조 (간단한 문장(simple: S+V), 복합문(complex: 종속절이 포함), 병렬문(compound: 여러 문장이 연결))
  - Level 3: 세부 구조 (주어-동사, 주어-목적어 등).
  - Level 4 (leaf): 메타 템플릿 (실제 지시어 템플릿 생성의 기본 단위).
- 예: 시각적 질문에 대한 템플릿 24개, 선택형 템플릿 14개를 포함해 약 15K 시각적 질문 템플릿과 249K 선택형 템플릿 생성 가능.
가중치 샘플링 (Weighted Sampling)
- 템플릿 다양성을 보장하기 위해 가중치 기반 샘플링 적용:
1. 트리의 말단 노드(leaf)에 연결된 템플릿 수를 가중치로 설정.
2. 가중치는 트리의 상위 레벨로 누적되며, 각 노드의 샘플링 확률은 해당 가중치에 비례.
3. 상위 레벨에서 하위 레벨로 내려가는 위에서 아래(top-down) 방식으로 샘플링.
4. 이 과정을 통해 템플릿 샘플링 확률을 균일하게 유지하면서 템플릿 다양성을 보장.

- Level 1: 문장 유형 (명령문)
	    •	Node A: 명령문 (가중치 6)
- Level 2: 문장 구조 (단순문, 복합문)
	    •	Node B: 단순문 (가중치 4)
	    •	Node C: 복합문 (가중치 2)
- Level 3: 세부 구조
	    •	Node D: 단순문 - 주어/술어 구조 (가중치 2)
	    •	Node E: 단순문 - 주어/목적어 구조 (가중치 2)
	    •	Node F: 복합문 - 주어/목적어 구조 (가중치 2)

이 방식은:

다양한 템플릿 생성: 기존 질문-답변 데이터의 의미를 유지하며 다양성을 극대화.
체계적 샘플링: 템플릿 샘플링의 균일성과 다양성을 동시에 보장.

The Impact of Instruction Templates on MLM Performance

실험 설정

1) 평가 데이터셋

5개의 인기 벤치마크 데이터셋을 사용:

BLINK, SeedBench, MMBench, TaskMeAnything, MMMU
각 데이터는 이미지(1개), 질문, 선택지, 정답을 포함.
데이터셋에서 단일 이미지만 포함된 샘플 100개씩 무작위로 선택.

2) 템플릿 유형

Simple 템플릿 (3개):
흔히 사용되는 간단한 형식:
1. {question}\n{choices}
2. Question: {question}\nChoices: {choices}
3. Question: {question}\nSelect from the following choices: {choices}
Complex 템플릿 (100개):
제안된 프로그램 생성기를 사용해 복잡하고 다양한 템플릿 생성.

3) 평가 방식

선택지 순서 고정: 템플릿 형식 외 다른 요소가 결과에 영향을 미치지 않도록 설정.
정답 매칭:
모델 출력과 정답이 일치하는지 확인 (선택지 번호, 내용, 또는 둘 다).
일치하지 않으면 임베딩 유사도를 계산해 가장 유사한 선택지 선택.
성과 측정:
평균 정확도: 다양한 템플릿에서의 성능.
Max-Min: 템플릿에 따른 성능 변동폭(최대-최소 정확도).

주요 결과

1) 템플릿 형식에 대한 민감도

MLM은 템플릿 형식에 큰 민감도를 보임:
예: InternVL-Chat-1.5-24B 모델은 MMBench에서 Complex 템플릿으로 29%의 성능 차이(Max-Min) 발생.
템플릿 다양성에 따라 성능이 크게 달라짐.

2) 모델 크기와 민감도

모델 크기가 커져도 템플릿 민감도가 줄어들지 않음:
예: LLaVA-1.5와 LLaVA-Next의 7B/13B 버전 모두 비슷한 Max-Min 값을 기록.
더 큰 모델도 템플릿 형식 변화에 민감.

3) 모델 순위 변화

템플릿에 따라 모델 성능 비교 결과가 뒤바뀜:
예: BLINK 데이터셋에서, Simple 템플릿으로는 LLaVA-1.5-7B가 더 우수하지만, Complex 템플릿으로는 LLaVA-1.5-13B가 더 나음.
한 가지 템플릿으로만 평가하면 잘못된 결론에 이를 수 있음.

4) Simple vs Complex 템플릿

Simple 템플릿은 성능 변동폭을 과소평가:
예: InternVL-Chat-1.5-24B의 MMBench 결과:
Simple 템플릿 Max-Min: 7
Complex 템플릿 Max-Min: 29
단순한 템플릿만 사용하면 모델의 민감도와 성능 변동성을 제대로 평가하지 못함.

Visual Instruction Tuning with Diverse Instruction Templates

제안 방법: 지시어 템플릿을 활용한 성능 개선

핵심 아이디어
- 기존 질문-답변(QA) 데이터에 랜덤으로 생성된 지시어 템플릿을 적용.
- 추가적인 데이터 없이 템플릿만 다양화하여 모델의 성능과 템플릿 민감도를 개선.
- 모델의 성능 변동폭(민감도)을 줄이고, 템플릿 다양성에 더 잘 대응하도록 만듦.
훈련 데이터
- 665K 멀티모달 QA 데이터를 사용.
- 기존 데이터를 변형하지 않고 템플릿을 다양화해 새로운 데이터셋 생성.
모델 훈련
- LLaVA-1.5-7B-Base와 LLaVA-1.5-13B-Base를 기반으로 훈련.
- LoRA를 사용해 효율적으로 파인튜닝.
- 16대의 A100 GPU(40GB)로 훈련.
평가 방법
- 5개 데이터셋(BLINK, MMBench, SeedBench, TaskMeAnything, MMMU)에서 테스트.
- 세 가지 템플릿 설정으로 평가:
1. In-domain 템플릿: 훈련에서 사용된 템플릿.
2. Out-of-domain 템플릿: 훈련 시 보지 못한 템플릿.
3. Simple 템플릿: 단순하고 흔히 쓰이는 템플릿.

주요 결과

템플릿 다양화로 성능 및 민감도 개선
- 템플릿 다양화로 훈련된 모델은 기존 LLaVA-1.5보다 더 높은 성능을 보임.
- 특히, 같은 크기의 다른 모델(LLaVA-Next, Qwen-VL 등)보다도 적은 데이터로 더 좋은 성능을 달성.
성능 변동폭(Max-Min) 감소
- 템플릿 다양화로 훈련된 모델은 다양한 템플릿 설정에서도 성능 변동폭 감소.
- 특히, 훈련 시 사용하지 않은 Out-of-domain 템플릿에서도 성능 안정성을 유지.
Out-of-domain에서도 일반화
- 훈련에 사용되지 않은 템플릿에서도 높은 성능과 작은 변동폭을 보여, 템플릿을 단순히 암기한 것이 아님을 입증.
효율적인 데이터 활용
- 다른 모델들이 최대 75배 많은 데이터를 사용한 것에 비해, 적은 데이터로도 효율적인 훈련 가능.

템플릿 대 데이터 비율의 영향

템플릿-데이터 비율이 성능에 영향을 미침
- 데이터와 템플릿의 비율이 성능에 중요한 역할을 함.
- 예:
- 7B 모델: 최적 비율은 7.5 × 10⁻³.
- 13B 모델: 최적 비율은 1.5 × 10⁻⁴.
비율에 따른 데이터셋별 성능 차이
- 데이터셋마다 최적 비율이 다름.
- 부적절한 비율은 성능 저하나 변동폭 증가를 유발할 수 있음.
일관된 스케일링 경향
- 템플릿-데이터 비율이 적절하면 In-domain과 Out-of-domain 설정 모두에서 일관된 성능 향상을 보임.