본문 바로가기

AI Theory/Trends

LLM 사용 전술, Dragonfly VLM

LLM 사용전술

1. 전술적 측면

  • 프롬프팅 기법 활용에 집중:
    • n-shot prompting, 문맥내 학습, CoT, 관련 리소스 제공 등
    • 입출력 구조화하기
    • 작고 한 가지 일을 잘하는 프롬프트를 만들 것
    • 컨텍스트 토큰 만들기
  • 정보검색/RAG
    • 새로운 지식에 대해서는 파인튜닝보다 RAG를 더 선호
  • 워크플로우 튜닝 및 최적화
  • 평가 및 모니터링

 

2. 운영적 측면

  • 데이터
  • 개발-프로덕션 편향 확인
  • 매일 LLM 입출력 샘플 확인하기
  • 모델 버전 관리 및 고정하기
  • 작업을 완료할 수 있는 가장 작은 모델 선택하기
  • 초기부터 디자인을 INVOLVE하기
  • 항상 실험하기

 

3. 전략적 측면

  • 대부분의 조직에서 LLM을 거의 처음부터 pretraining하는 것은 의미없음
  • 필요하다고 확인되기 전까지는 fine tuning 금지
  • llmovps
  • ai를 루프안에 넣고 사람을 중심에 둘 것

 

Dragonfly VLM

  • 고해상도 이미지를 여러 작은 영역으로 나누어 분석하여 세부적 이해와 추론이 가능한 오픈소스 VLM
  • 크기는 8B이며, 일반 도메인과 의료 도메인에서 학습된 모델이 있음
  • 시각적 상식 추론, 이미지 캡셔닝 등에서 우수한 성능을 보이며 특히 의료 도메인을 학습한 Dragonfly-Med의 경우 의료 이미지 이해 분야에서 Med-Gemini 등 기존 모델을 능가함
  • 아키텍처
    • Multi-resolution Visual Encoding: 저/중/고해상도로 이미지를 처리. 각 이미지를 해상도에 따라 여러 서브이미지로 나누고 이를 시각토큰으로 인코딩하여 language space와 projection함
    • Zoom-in Patch selection: 고해상도 이미지에서 중요한 시각적 디테일에 집중하기 위한 selective approach로, 중요도가 높은 고해상도 서브이미지만 선별해서 사용
  • 성능 평가 방식
    • AI2D, ScienceQA: 과학 도메인에서의 시각적 상식추론 평가
    • MMMU, MMVet: vision-language 능력 종합 평가
    • POPE: 객체 단위 hallucination 평가

 

References

 

Dragonfly - 멀티 해상도 줌이 가능한 대규모 비젼-언어 모델 | GeekNews

고해상도 이미지를 여러 작은 영역으로 나누어 분석하여 세부적인 이해와 추론이 가능한 vision-language 아키텍처 모델Llama-3-8b-Dragonfly-v1 (일반 도메인), Llama-3-8b-Dragonfly-Med-v1 (의료 도메인) 등 2개의

news.hada.io

 

 

1년 동안 LLM과 함께 구축하며 배운 점 | GeekNews

대규모 언어 모델(LLM)을 사용한 개발이 흥미로운 시기임지난 1년 동안 LLM이 실제 애플리케이션에 "충분히 좋은" 수준이 되었으며, 매년 더 좋아지고 저렴해지고 있음소셜 미디어의 데모와 함께,

news.hada.io