VLM

Vision Language Model. It's an advanced AI systems that combine computer vision and natural language processing to understand, interpret, and generate content from both images/videos and text.

비전 언어 모델(VLM)은 컴퓨팅 비전과 자연어 처리(NLP) 기능을 결합한 인공 지능(AI) 모델입니다. VLM은 텍스트 데이터와 이미지 또는 동영상과 같은 시각적 데이터 간의 관계를 매핑하는 방법을 학습하여, 시각적 입력에서 텍스트를 생성하거나 시각적 정보의 맥락에서 자연어 프롬프트를 이해할 수 있습니다. (출처: https://www.ibm.com/kr-ko/think/topics/vision-language-models)

텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델 (출처: https://naakjii.tistory.com/141)

이미지를 보고 설명 생성하기 (Image Captioning)
이미지 속 객체나 장면에 대해 질의응답 (Visual Question Answering)
이미지 속 특정 영역을 지목하고 설명하기 (Referring Expression, Region Grounding)
멀티모달 추론 (예: “이 사람은 어떤 감정을 느끼고 있을까?”)

VLM은 시각 정보를 언어로 해석하고 언어 명령을 시각 정보와 연관해 통합적으로 이해하는 역할을 한다.

VLM

라이언의 꿀팁백과