생성적 AI의 현황과 임상적용
2023.05.26
정규환 교수 (성균관대학교 삼성융합의과학원)
※ image
GAN -> diffusion model
이미지 Foundation model (기초 모델)
- GPT도 언어 모델에 있어 기초이듯이 이미지에도 기초 모델이 있음
1. Segment Anything
+ 추가로 Segment everything everywhere all at once. 발표됨
2. CLIP (contrastive language-image pre-training)
- 이 모델과 같이 앞으로는 multi-modal 방향으로 갈 것!
3. DALL-E 2
4. diffusion.. 등
※ text
입력 -> BERT(분류, 해석) -> GPT(생성) -> 출력
위와 같은 파이프라인에서 gpt가 auto-regressive model?
gpt (LLM : large language model)
- 지금의 gpt3.5/ gpt4 (=chat gpt)는 다음과 같은 과정으로 만들어진 Instruct GPT
GPT -> Human Feedback 으로 fine-tuning (어떻게 보면 human 강화학습) -> Instruct GPT (채팅을 잘 할 수 있게 됨)
- 직접 gpt가 낸 답변들 중 사람이 가장 맘에 드는? 답변에 점수를 줘서 그것을 학습
gpt의 가능한 기술들
1. In-context learning
- zero shot, one shot, few shot 처럼 예시를 준 적 없는 기능인 번역, 삼행시 지어줘.. 와 같은 질문도 잘 답변함
- 이것은 모델이 커질수록 가능해짐.
2. Chain of Thought (CoT)
- 수학 계산 같은 논리적인 연산은 잘 못했는데 예시를 들어주면 잘 함 (예를 들어 이런이런 계산을 해줘..)
- 추가로 ‘천천히 생각해 봐’와 같은 명령을 해도 더 잘해짐.
- 이 기능도 모델이 커지면 가능해짐
3. Prompt Engineering
- 이렇게 위와 같이 어떻게 쓰느냐에 따라 답변을 더 잘하게 되는 것.
gpt의 한계
- 그럴 듯 하지만 말을 지어냄
(예를 들어 이러이러한 논문을 찾아달라고 하면 없는 저널, 없는 저자의 없는 논문을 알려주기도 함)
- 오타에 대해서 마음대로 해석
(‘정규환에 대해 알려줘”와 같이 사람에 대해 알려 달라고 했더니 “정규포현식은 ~~ 입니다” 이렇게 답변함)
- 사용자 의도를 되묻지 않고 답변만 함
- 비교적 예전에 학습된 데이터..
- 최신 정보를 주려면 Chat GPT Plugin 사용 (이미지도 가능? 써드파티 플러그인..)
Med-PaLM
- 메디컬 분야 MLP (구글)
조직 이미지에 대해서 auto segmentation 알고리즘을 구현하고자 애를 먹고 있던 참이였는데, 이번 학술 세미나를 통해 segment anything에 알게 되었다. prompts를 입력하면 자동으로 segmentation을 그것도 아주 잘! 해주는 모델이라니.. SAM (sement anything model)을 직접 구현해보고 더욱 그 뛰어남을 느낄 수 있었다 😅
chat GPT 사용에 있어서 Prompt Engineering 방법의 예시도 몇 가지 볼 수 있었고, 실제로 막히는 알고리즘이 있을 때 막연하게 gpt한테 물어보곤 했는데 이젠 더 똑똑하게 물어보는 방법을 공부해야겠다는 필요성을 느꼈다.
지난 가을 대한의료인공지능학회에 참석한 뒤, SHAP을 알게 되었는데 이번 세미나를 통해서도 많은 지식을 얻을 수 있었고 앞으로는 다른 세미나도 찾아보고 참석해야겠다고 느꼈다.