간단히 말하자면, 파운데이션 모델은 방대한 데이터셋으로 학습된 대규모 범용 AI 모델이며, 프롬프트, 미세 조정, 도구 또는 검색을 통해 다양한 작업(쓰기, 검색, 코딩, 이미지 처리)에 맞게 조정됩니다. 신뢰할 수 있는 결과가 필요하다면, 모델이 즉흥적으로 작동하도록 두기보다는 그라운딩(RAG와 같은 알고리즘), 명확한 제약 조건 및 검증 절차를 함께 사용하는 것이 좋습니다.
핵심 요약:
정의 : 여러 작업에 걸쳐 재사용되는, 광범위하게 학습된 하나의 기본 모델. 즉, 모델 하나당 하나의 작업에만 사용하는 것이 아닙니다.
적응 : 행동을 유도하기 위해 프롬프트, 미세 조정, LoRA/어댑터, RAG 및 도구를 사용합니다.
생성형 적합성 : 텍스트, 이미지, 오디오, 코드 및 멀티모달 콘텐츠 생성을 지원합니다.
품질 신호 : 제어 가능성, 환각 감소, 다중 모드 기능 및 효율적인 추론을 우선시합니다.
위험 관리 : 환각, 편견, 개인정보 유출 및 신속한 주사에 대비하여 관리 및 테스트를 계획합니다.

이 글을 읽고 나서 읽어보시면 좋을 만한 글들:
🔗 AI 회사란 무엇인가
AI 기업들이 제품, 팀, 수익 모델을 구축하는 방식을 이해하십시오.
🔗 AI 코드는 어떤 모습일까요?
파이썬 모델부터 API까지, AI 코드의 예시를 살펴보세요.
🔗 AI 알고리즘이란 무엇인가
인공지능 알고리즘이란 무엇이며 어떻게 의사결정을 내리는지 알아보세요.
🔗 AI 기술이란 무엇인가
자동화, 분석 및 지능형 앱을 지원하는 핵심 AI 기술을 살펴보세요.
1) 기초 모델 - 모호함 없는 정의 🧠
기초 모델 은 광범위한 데이터(보통 엄청난 양)로 학습된 대규모 범용 AI 모델로, 단일 작업이 아닌 여러 작업에 적용할 수 있습니다( NIST , Stanford CRFM ).
다음과 같은 경우에 대해 별도의 모델을 구축하는 대신:
-
이메일 작성
-
질문에 답하기
-
PDF 요약
-
이미지 생성
-
지원 티켓 분류
-
언어 번역
-
코드 제안하기
…하나의 큰 기본 모델을 훈련시켜 퍼지 통계적 방식으로 "세상을 학습"한 다음 프롬프트, 미세 조정 또는 추가 도구를 사용하여 특정 작업에 맞게 조정합니다 Bommasani et al., 2021 ).
다시 말해, 범용 엔진 .
네, 핵심 키워드는 "일반적인"입니다. 바로 그게 핵심이죠.
2) 생성형 AI에서 기초 모델이란 무엇인가요? (구체적으로 어떤 역할을 하나요?) 🎨📝
그렇다면 생성형 AI에서 기초 모델이란 무엇일까요? 텍스트, 이미지, 오디오, 코드, 비디오, 그리고 점점 더 이러한 모든 요소의 조합과 같은 새로운 콘텐츠를 생성 할 수 있는 시스템을 구동하는 기반 모델입니다 NIST , NIST 생성형 AI 프로필 ).
생성형 AI는 단순히 "스팸/스팸 아님"과 같은 레이블을 예측하는 것만이 아닙니다. 마치 사람이 만든 것처럼 보이는 결과물을 만들어내는 것입니다.
-
단락
-
시
-
제품 설명
-
삽화
-
멜로디
-
앱 프로토타입
-
합성 음성
-
그리고 때로는 믿기 힘들 정도로 자신만만한 헛소리를 하기도 하죠 🙃
파운데이션 모델이 특히 이 경우에 적합한 이유는 다음과 같습니다.
-
그들은 방대한 데이터 세트에서 광범위한 패턴을 흡수했습니다( Bommasani et al., 2021 ).
-
그들은 새로운 자극(심지어 특이한 자극까지)에 일반화할 수 있다( Brown et al., 2020 ).
-
이러한 모델은 처음부터 다시 학습할 필요 없이 수십 가지 출력에 맞게 용도를 변경할 수 있습니다( Bommasani et al., 2021 ).
이건 마치 빵 반죽처럼 "기본층" 같은 거예요. 바게트, 피자, 시나몬 롤 같은 데 넣어서 구울 수 있죠… 완벽한 비유는 아니지만, 무슨 말인지 아시겠죠? 😄
3) 그들이 모든 것을 바꾼 이유 (그리고 사람들이 그들에 대해 끊임없이 이야기하는 이유) 🚀
기초 모델이 등장하기 전에는 많은 AI가 특정 작업에만 국한되었습니다
-
감정 분석 모델을 학습시키세요
-
번역을 위해 다른 사람을 훈련시키세요
-
이미지 분류를 위한 다른 프로그램을 훈련시키세요
-
개체명 인식을 위한 다른 훈련을 실시하세요
그 방법도 효과는 있었지만, 속도가 느리고 비용이 많이 들었으며… 내구성이 약했습니다.
기초 모델이 상황을 뒤집었습니다
-
사전 학습은 한 번만 하면 됩니다 (상당한 노력이 필요합니다)
-
어디에서나 재사용(큰 보상)( Bommasani et al., 2021 )
재사용이 바로 시너지 효과를 내는 요소입니다. 기업은 바퀴를 20번 새로 발명하는 대신, 하나의 모델 제품군 위에 20가지 기능을 구축할 수 있습니다.
또한 사용자 경험이 더욱 자연스러워졌습니다
-
"분류기를 사용하지 않습니다."
-
모델에게 마치 잠도 안 자는 친절한 동료처럼 말을 걸어요 ☕🤝
때로는 모든 걸 자신만만하게 오해하는 동료 같기도 하지만, 뭐, 성장의 과정이죠.
4) 핵심 아이디어: 사전 훈련 + 적응 🧩
거의 모든 기초 모델은 일정한 패턴을 따릅니다( 스탠포드 CRFM , NIST ).
사전 학습 (인터넷 정보를 흡수하는 단계) 📚
이 모델은 자기지도 학습을 사용하여 방대하고 광범위한 데이터 세트로 훈련됩니다( NIST ). 언어 모델의 경우, 이는 일반적으로 누락된 단어 또는 다음 토큰을 예측하는 것을 의미합니다( Devlin et al., 2018 , Brown et al., 2020 ).
핵심은 특정 작업을 가르치는 것이 아닙니다. 핵심은 일반적인 표현 방식을 .
-
문법
-
사실 (일종의)
-
추론 패턴(때때로)
-
글쓰기 스타일
-
코드 구조
-
인간의 공통된 의도
적응 단계 (실용화 단계) 🛠️
그런 다음 다음 중 하나 이상을 사용하여 조정합니다
-
안내 (쉬운 언어로 된 지시사항)
-
지침 조정 (지시를 따르도록 훈련)( Wei et al., 2021 )
-
미세 조정 (도메인 데이터를 사용한 학습)
-
LoRA/어댑터 (경량 튜닝 방법)( Hu et al., 2021 )
-
RAG (검색 증강 생성 - 모델이 사용자의 문서를 참조함)( Lewis et al., 2020 )
-
도구 사용 (함수 호출, 내부 시스템 탐색 등)
그래서 같은 기본 모델이 로맨스 장면을 쓰고 나서 5초 만에 SQL 쿼리 디버깅까지 도와줄 수 있는 겁니다 😭
5) 좋은 기초 모델이란 무엇일까요? ✅
이 부분은 사람들이 건너뛰고 나중에 후회하는 부분입니다.
"좋은" 기초 모델은 단순히 "규모가 큰" 것만이 아닙니다. 규모가 크면 물론 도움이 되지만, 그것만이 전부는 아닙니다. 좋은 기초 모델은 일반적으로 다음과 같은 특징을 갖습니다
강한 일반화 🧠
이 시스템은 작업별 재훈련이 필요 없이 다양한 작업에서 우수한 성능을 보입니다( Bommasani et al., 2021 ).
조향 및 제어성 🎛️
다음과 같은 지시사항을 정확하게 따를 수 있습니다:
-
간결하게 작성하세요
-
"글머리 기호를 사용하세요"
-
“친근한 어조로 쓰세요”
-
"기밀 정보를 누설하지 마세요"
일부 모델은 똑똑하지만 미끄러워요. 마치 샤워 중에 비누를 잡으려고 하는 것과 같아요. 유용하긴 하지만 다루기가 힘들죠 😅
환각 경향이 낮음 (또는 적어도 솔직한 불확실성) 🧯
어떤 모델도 환각에서 자유로울 수는 없지만, 훌륭한 모델은 예외입니다
-
환각을 덜 경험하다
-
불확실성을 더 자주 인정하세요
-
검색을 사용할 때 제공된 컨텍스트에 더 가깝게 유지하십시오( Ji et al., 2023 , Lewis et al., 2020 ).
(필요시) 뛰어난 멀티모달 기능 🖼️🎧
이미지를 읽거나, 차트를 해석하거나, 오디오를 이해하는 보조 도구를 구축하는 경우 멀티모달이 매우 중요합니다( Radford et al., 2021 ).
효율적인 추론 ⚡
지연 시간과 비용은 중요합니다. 강력하지만 속도가 느린 모델은 마치 타이어에 바람이 빠진 스포츠카와 같습니다.
안전 및 정렬 동작 🧩
단순히 "모든 것을 거부하는 것"이 아니라, 다음과 같은 의미입니다
-
유해한 지시를 피하세요
-
편견을 줄이는 것
-
민감한 주제는 신중하게 다루세요
-
기본적인 탈옥 시도에 어느 정도 저항함 ( NIST AI RMF 1.0 , NIST 생성형 AI 프로필 )
문서화 + 생태계 🌱
좀 건조하게 들릴 수도 있지만, 사실입니다
-
압형
-
평가용 하네스
-
배포 옵션
-
기업 통제
-
미세 조정 지원
네, "생태계"라는 단어는 모호하죠. 저도 그 단어를 싫어해요. 하지만 중요한 단어입니다.
6) 비교표 - 일반적인 기초 모델 옵션 (및 각 모델의 장점) 🧾
아래는 실용적이지만 다소 불완전한 비교표입니다. "유일무이한 정답"이라기보다는 사람들이 실제로 선택하는 것들을 보여주는 표에 가깝습니다.
| 도구/모델 유형 | 청중 | 가격 | 작동 원리 |
|---|---|---|---|
| 독점 LLM (채팅 방식) | 속도와 완성도를 모두 원하는 팀 | 사용량 기반 / 구독 | 지시사항을 잘 따르고, 전반적인 성능이 뛰어나며, 보통 "바로 사용"했을 때 최고의 성능을 보여줍니다 😌 |
| 오픈웨이트 LLM(자체 호스팅 가능) | 통제권을 원하는 건설업자들 | 인프라 비용(및 골칫거리) | 맞춤 설정이 가능하고, 개인 정보 보호에 능하며, 로컬에서도 실행 가능합니다… 한밤중에 이것저것 만지작거리는 걸 좋아한다면 말이죠 |
| 확산 영상 생성기 | 크리에이티브, 디자인 팀 | 무료에 가까운 것부터 유료까지 | 뛰어난 이미지 합성, 다양한 스타일, 반복적인 워크플로우 (단, 손가락이 삐뚤어질 수도 있음) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 ) |
| 다중 모드 "시각-언어" 모델 | 이미지와 텍스트를 읽는 앱 | 사용량 기반 | 이미지, 스크린샷, 다이어그램에 대한 질문을 할 수 있게 해줍니다. 놀라울 정도로 편리합니다( Radford et al., 2021 ). |
| 임베딩 파운데이션 모델 | 검색 + RAG 시스템 | 통화당 저렴한 비용 | 텍스트를 의미 검색, 클러스터링, 추천을 위한 벡터로 변환 - 조용한 MVP 에너지 ( Karpukhin et al., 2020 , Douze et al., 2024 ) |
| 음성-텍스트 변환 기초 모델 | 콜센터, 크리에이터 | 사용량 기반 / 로컬 | 빠른 음성 인식, 다국어 지원, 잡음이 있는 오디오에도 (대부분) 충분히 좋은 성능 🎙️ ( Whisper ) |
| 텍스트 음성 변환 기초 모델 | 제품 팀, 미디어 | 사용량 기반 | 자연스러운 음성 생성, 다양한 음성 스타일, 내레이션은 소름 끼칠 정도로 현실적일 수 있습니다( Shen et al., 2017 ). |
| 법학 중심 LLM | 개발자 | 사용량 기반 / 구독 | 코드 패턴, 디버깅, 리팩토링은 훨씬 나아졌지만… 여전히 남의 마음을 읽는 능력은 없네요 😅 |
"기초 모델"이 단순히 "챗봇"만을 의미하는 것은 아니라는 점에 주목하십시오. 임베딩과 음성 모델 또한 폭넓고 다양한 작업에서 재사용 가능하기 때문에 기초 모델과 유사한 성격을 가질 수 있습니다( Bommasani et al., 2021 , NIST ).
7) 자세히 살펴보기: 언어 기초 모델의 학습 방식 (분위기 버전) 🧠🧃
언어 기초 모델(종종 LLM이라고 함)은 일반적으로 방대한 텍스트 데이터셋을 기반으로 학습됩니다. 이 모델들은 토큰을 예측하는 방식으로 학습합니다( Brown et al., 2020 ). 그게 전부입니다. 특별한 비법 같은 건 없습니다.
하지만 핵심은 토큰을 예측하는 과정이 모델로 하여금 구조를 학습하도록 강제한다는 ( CSET ).
-
문법과 구문론
-
주제 관계
-
추론과 유사한 패턴(때때로)
-
일반적인 사고의 순서
-
사람들이 사물을 설명하고, 논쟁하고, 사과하고, 협상하고, 가르치는 방식
수백만 개의 대화를 흉내 내는 법을 배우는 것과 같지만, 인간이 대화하는 방식을 "이해"하는 것은 아닙니다. 말이 안 될 것 같지만, 놀랍게도 계속해서 효과가 있습니다.
약간 과장된 표현일 수도 있지만, 기본적으로 인간의 글쓰기를 거대한 확률적 두뇌에 압축해 놓은 것과 같습니다.
물론, 이 비유는 좀 엉뚱하긴 하네요. 어쨌든, 우리는 앞으로 나아갑니다 😄
8) 자세히 살펴보기: 확산 모델 (이미지가 다르게 작동하는 이유) 🎨🌀
이미지 기반 모델은 종종 확산 방법을 사용합니다( Ho et al., 2020 , Rombach et al., 2021 ).
대략적인 아이디어는 다음과 같습니다
-
이미지에 노이즈를 추가하여 마치 TV 화면의 지지직거리는 노이즈처럼 보이게 만듭니다
-
그 노이즈를 단계적으로 제거하는 모델을 훈련시키세요
-
생성 시점에 노이즈로 시작하여 프롬프트에 따라 "노이즈 제거"를 통해 이미지를 생성합니다( Ho et al., 2020 ).
그래서 이미지 생성은 마치 사진을 "현상"하는 것과 비슷하게 느껴지는데, 다만 그 사진은 슈퍼마켓 통로에 운동화를 신은 용이라는 점만 다릅니다 🛒🐉
확산 모델이 좋은 이유는 다음과 같습니다
-
그들은 고품질의 영상을 생성합니다
-
그들은 텍스트에 의해 강력하게 안내될 수 있다
-
이들은 반복적인 정제(변형, 인페인팅, 업스케일링)를 지원합니다( Rombach et al., 2021 ).
그들은 또한 다음과 같은 어려움을 겪기도 합니다
-
이미지 내부 텍스트 렌더링
-
세밀한 해부학적 세부 사항
-
장면 전반에 걸쳐 캐릭터의 정체성이 일관적이지 않다 (개선되고는 있지만 여전히 부족하다)
9) 자세히 살펴보기: 멀티모달 기반 모델(텍스트 + 이미지 + 오디오) 👀🎧📝
멀티모달 기반 모델은 다양한 데이터 유형에 걸쳐 이해하고 생성하는 것을 목표로 합니다
-
텍스트
-
이미지
-
오디오
-
동영상
-
때때로 센서와 유사한 입력값 ( NIST 생성형 AI 프로필 )
이것이 실생활에서 중요한 이유:
-
고객 지원 담당자는 스크린샷을 해석할 수 있습니다
-
접근성 도구는 이미지를 설명할 수 있습니다
-
교육용 앱은 도표를 설명할 수 있습니다
-
창작자는 형식을 빠르게 리믹스할 수 있습니다
-
비즈니스 도구는 대시보드 스크린샷을 "읽고" 요약할 수 있습니다
내부적으로 멀티모달 시스템은 종종 표현들을 정렬합니다
-
이미지를 임베딩으로 변환
-
텍스트를 임베딩으로 변환
-
고양이 픽셀과 일치하는 "고양이"라는 단어를 공유하는 공간을 학습합니다 😺 ( Radford et al., 2021 )
늘 우아한 건 아니죠. 때로는 누비이불처럼 엉성하게 짜맞춰진 것 같기도 해요. 하지만 어쨌든 제 역할을 하죠.
10) 미세 조정 vs. 프롬프트 vs. RAG (기본 모델을 적용하는 방법) 🧰
특정 영역(법률, 의료, 고객 서비스, 내부 지식)에 맞는 실용적인 기반 모델을 만들고자 한다면 몇 가지 방법을 활용할 수 있습니다
프롬프트 🗣️
가장 빠르고 간단한 방법.
-
장점: 별도의 교육 없이 즉시 반복 작업 가능
-
단점: 일관성이 떨어질 수 있음, 맥락에 따라 제약이 있음, 즉각적인 대응이 어려움
미세 조정 🎯
제공된 예제를 사용하여 모델을 추가로 학습시키세요.
-
장점: 더욱 일관된 동작, 더 나은 도메인 언어 사용, 프롬프트 길이 단축 가능
-
단점: 비용, 데이터 품질 요구 사항, 과적합 위험, 유지 관리
경량 튜닝(LoRA/어댑터) 🧩
미세 조정의 보다 효율적인 버전( Hu et al., 2021 ).
-
장점: 더 저렴하고, 모듈식이며, 교체가 용이함
-
단점: 아직 학습 파이프라인과 평가 시스템이 필요합니다
RAG(검색 증강 생성) 🔎
이 모델은 사용자의 지식 기반에서 관련 문서를 가져와 이를 사용하여 답변을 제공합니다( Lewis et al., 2020 ).
-
장점: 최신 지식 습득, 내부 인용(구현 시), 재교육 감소
-
단점: 검색 품질이 매우 중요하며, 좋은 청킹과 임베딩이 필요합니다
솔직히 말해서, 성공적인 시스템들은 대부분 프롬프팅과 RAG(반응형 알고리즘)를 결합합니다. 세밀한 조정은 강력한 효과를 내지만, 항상 필요한 것은 아닙니다. 사람들은 세밀한 조정이 멋있어 보인다는 이유로 너무 쉽게 접근하는 경향이 있죠 😅
11) 위험, 한계 및 "절대 묻지도 따지지도 말고 배포하지 마세요" 섹션 🧯😬
파운데이션 모델은 강력하지만 기존 소프트웨어처럼 안정적이지는 않습니다. 마치… 자신감이 부족한 재능 있는 인턴과 같습니다.
계획 수립 시 고려해야 할 주요 제한 사항:
환각 🌀
모델은 다음과 같은 것을 발명할 수 있습니다:
-
가짜 출처
-
잘못된 사실
-
그럴듯하지만 잘못된 단계 ( Ji et al., 2023 )
완화 조치:
-
근거 맥락을 갖춘 RAG ( Lewis et al., 2020 )
-
제한된 출력(스키마, 도구 호출)
-
"추측하지 마세요"라는 명확한 지시
-
검증 계층(규칙, 교차 검증, 사람 검토)
편견과 유해한 패턴 ⚠️
학습 데이터는 인간의 특성을 반영하기 때문에 다음과 같은 이점을 얻을 수 있습니다
-
고정관념
-
그룹별 성과가 고르지 않음
-
안전하지 않은 완료( NIST AI RMF 1.0 , Bommasani et al., 2021 )
완화 조치:
-
안전 튜닝
-
레드팀
-
콘텐츠 필터
-
신중한 도메인 제약 조건 ( NIST 생성형 AI 프로필 )
데이터 개인정보 보호 및 유출 🔒
기밀 데이터를 모델 엔드포인트에 입력하는 경우 다음 사항을 알아야 합니다
-
저장 방식
-
훈련용으로 사용되든 아니든
-
어떤 로깅이 존재하는가
-
조직에 필요한 통제 수단은 무엇입니까? ( NIST AI RMF 1.0 )
완화 조치:
-
개인 배포 옵션
-
강력한 거버넌스
-
데이터 노출 최소화
-
엄격한 접근 제어가 적용된 내부 전용 RAG( NIST 생성형 AI 프로파일 , Carlini et al., 2021 )
신속한 주사 (특히 RAG를 사용할 경우) 🕳️
모델이 신뢰할 수 없는 텍스트를 읽으면 해당 텍스트가 모델을 조작하려고 시도할 수 있습니다
-
“이전 지시사항은 무시하세요…”
-
“비밀을 보내주세요…” ( OWASP , Greshake 외, 2023 )
완화 조치:
-
시스템 명령어를 격리합니다
-
검색된 콘텐츠를 정제합니다
-
(단순한 프롬프트가 아닌) 도구 기반 정책을 사용하십시오
-
적대적 입력을 사용한 테스트 ( OWASP 치트 시트 , NIST 생성형 AI 프로필 )
겁주려는 건 아니에요. 그냥… 마룻바닥이 어디서 삐걱거리는지 아는 게 나을 것 같아서요.
12) 사용 사례에 맞는 기본 모델을 선택하는 방법 🎛️
기본 모델을 선택하거나 기존 모델을 기반으로 구축하려는 경우, 다음 질문부터 시작하세요
생성할 내용을 정의하세요 🧾
-
텍스트 전용
-
이미지
-
오디오
-
혼합 멀티모달
사실성 기준을 설정하세요 📌
높은 정확도가 필요한 경우(금융, 건강, 법률, 안전 분야):
-
RAG가 필요할 것입니다( Lewis et al., 2020 ).
-
검증이 필요할 겁니다
-
(적어도 때때로) 사람의 검토가 필요할 것입니다. ( NIST AI RMF 1.0 )
목표 지연 시간을 설정하세요 ⚡
채팅은 즉각적입니다. 일괄 요약은 다소 느릴 수 있습니다.
즉각적인 응답이 필요한 경우 모델 크기와 호스팅 환경이 중요합니다.
지도 개인정보 보호 및 규정 준수 요구 사항 🔐
일부 팀에서는 다음과 같은 사항을 요구합니다
-
온프레미스/VPC 배포
-
데이터 보존 없음
-
엄격한 감사 기록
-
문서별 접근 제어 ( NIST AI RMF 1.0 , NIST 생성형 AI 프로파일 )
예산과 운영 인내심의 균형을 유지하세요 😅
자체 호스팅은 제어권을 제공하지만 복잡성을 증가시킵니다.
관리형 API는 사용하기 쉽지만 비용이 많이 들고 사용자 정의 기능이 제한적일 수 있습니다.
실용적인 팁 하나 드리자면, 먼저 간단한 것으로 프로토타입을 만들어보고 나중에 완성도를 높이세요. 처음부터 "완벽한" 설정을 하려고 하면 오히려 모든 과정이 지연될 수 있습니다.
13) 생성형 AI에서 기초 모델이란 무엇인가요? (간단한 개념 설명) 🧠✨
다시 본론으로 돌아가서, 생성형 인공지능에서 기초 모델이란 무엇일까요?
그들은 다음과 같습니다:
-
텍스트, 이미지, 오디오 등 콘텐츠를 생성할 수 있는 능력 ( NIST 생성형 AI 프로필 )
-
프롬프트, 미세 조정 및 검색을 통해 다양한 작업에 적응 가능함( Bommasani et al., 2021 )
-
대부분의 최신 생성형 AI 제품을 구동하는 기본 레이어
이것들은 하나의 아키텍처나 브랜드가 아닙니다. 플랫폼처럼 작동하는 모델들의 범주입니다.
기초 모형은 계산기라기보다는 주방에 더 가깝습니다. 다양한 요리를 만들 수 있죠. 물론, 방심하면 토스트를 태울 수도 있지만… 그래도 주방은 꽤 유용합니다 🍳🔥
14) 요약 및 핵심 내용 ✅🙂
기초 모델은 생성형 AI의 재사용 가능한 엔진입니다. 이러한 모델은 광범위하게 학습된 후, 프롬프트, 미세 조정 및 검색을 통해 특정 작업에 맞게 조정됩니다( NIST , Stanford CRFM ). 기초 모델은 놀랍도록 훌륭할 수도 있고, 다소 정돈되지 않았을 수도 있으며, 강력할 수도 있고, 때로는 우스꽝스러울 수도 있습니다.
요약:
-
기초 모델 = 범용 기본 모델 ( NIST )
-
생성형 AI는 단순한 분류가 아닌 콘텐츠 생성을 의미합니다 ( NIST 생성형 AI 프로필 ).
-
적응 방법(프롬프트, RAG, 튜닝)은 이를 실용화합니다( Lewis et al., 2020 , Hu et al., 2021 ).
-
모델 선택은 정확도, 비용, 지연 시간, 개인 정보 보호, 안전성 등 여러 요소를 고려해야 하는 절충안입니다( NIST AI RMF 1.0 ).
생성형 AI를 이용해 무언가를 만들고 있다면, 기본 모델을 이해하는 것은 선택 사항이 아닙니다. 마치 건물의 기초와도 같죠… 물론, 가끔은 기초가 조금 흔들리기도 하지만요 😅
자주 묻는 질문
기초 모델을 간단히 설명하자면 다음과 같습니다
기초 모델은 광범위한 데이터로 학습된 대규모 범용 AI 모델로, 다양한 작업에 재사용할 수 있습니다. 작업마다 모델을 하나씩 구축하는 대신, 강력한 "기본" 모델에서 시작하여 필요에 따라 수정합니다. 이러한 수정은 일반적으로 프롬프트, 미세 조정, 검색(RAG) 또는 도구를 통해 이루어집니다. 핵심은 폭넓은 활용성과 유연한 조정 능력입니다.
기초 모델은 기존의 작업별 AI 모델과 어떻게 다른가
기존 AI 방식은 감정 분석이나 번역처럼 각 작업마다 별도의 모델을 학습시키는 경우가 많습니다. 반면 파운데이션 모델은 이러한 방식을 뒤집어 한 번만 사전 학습시킨 후 여러 기능과 제품에 재사용합니다. 이를 통해 중복 작업을 줄이고 새로운 기능 개발 속도를 높일 수 있습니다. 하지만 제약 조건과 테스트를 추가하지 않으면 기존 소프트웨어보다 예측 가능성이 떨어질 수 있다는 단점이 있습니다.
생성형 인공지능의 기초 모델
생성형 AI에서 기초 모델은 텍스트, 이미지, 오디오, 코드 또는 멀티모달 출력과 같은 새로운 콘텐츠를 생성할 수 있는 기본 시스템입니다. 이러한 모델은 단순히 레이블링이나 분류에만 국한되지 않고, 사람이 만든 것과 유사한 결과물을 생성합니다. 사전 학습을 통해 광범위한 패턴을 학습하기 때문에 다양한 유형과 형식의 프롬프트를 처리할 수 있습니다. 이러한 기초 모델은 대부분의 최신 생성형 경험을 뒷받침하는 "기본 레이어"입니다.
기초 모델은 사전 학습 과정에서 어떻게 학습하는가?
대부분의 언어 기초 모델은 다음 단어나 텍스트에서 빠진 단어와 같은 토큰을 예측하는 방식으로 학습합니다. 이러한 단순한 목표 덕분에 문법, 스타일, 일반적인 설명 패턴과 같은 구조를 내면화할 수 있습니다. 또한 방대한 양의 세계 지식을 흡수할 수도 있지만, 항상 신뢰할 수 있는 것은 아닙니다. 결과적으로, 나중에 특정 작업에 활용할 수 있는 강력한 일반적인 표현 체계가 만들어집니다.
프롬프팅, 미세 조정, LoRA 및 RAG의 차이점
프롬프트는 지시를 통해 행동을 유도하는 가장 빠른 방법이지만, 불안정할 수 있습니다. 미세 조정은 모델을 예제를 기반으로 더욱 학습시켜 일관된 동작을 구현하지만, 비용과 유지 관리 부담이 증가합니다. LoRA/어댑터는 더 간편하고 저렴하며 모듈화된 미세 조정 방식입니다. RAG는 관련 문서를 검색하고 해당 컨텍스트를 사용하여 모델이 답변하도록 함으로써 최신 정보와 근거를 제공합니다.
미세 조정 대신 RAG를 사용해야 하는 경우는 언제일까요?
RAG(Real-Assisted Gradient)는 현재 문서나 내부 지식 기반에 근거한 답변이 필요할 때 효과적인 선택이 될 수 있습니다. 생성 시점에 관련 컨텍스트를 모델에 제공함으로써 "추측"을 줄일 수 있습니다. 반면, 프롬프트로는 안정적으로 생성할 수 없는 일관된 스타일, 도메인 용어 또는 동작이 필요할 때는 미세 조정이 더 적합합니다. 많은 실제 시스템은 미세 조정을 하기 전에 프롬프트와 RAG를 결합하여 사용합니다.
환각을 줄이고 더 신뢰할 수 있는 답변을 얻는 방법
일반적인 접근 방식은 RAG(Retrieval Assessment Group)를 사용하여 모델을 구축함으로써 제공된 컨텍스트에 가깝게 유지하는 것입니다. 또한 스키마를 사용하여 출력을 제한하고, 주요 단계에 대한 도구 호출을 요구하며, 명시적인 "추측 금지" 지침을 추가할 수 있습니다. 규칙 검사, 교차 검증, 그리고 중요도가 높은 사용 사례의 경우 사람의 검토와 같은 검증 계층도 중요합니다. 모델을 기본적으로 진실의 원천이 아니라 확률적 도우미로 취급해야 합니다.
프로덕션 환경에서 파운데이션 모델을 사용할 때 가장 큰 위험 요소는 무엇일까요?
일반적인 위험으로는 환각 현상, 학습 데이터에서 발생하는 편향되거나 유해한 패턴, 민감한 데이터 처리 미흡으로 인한 개인정보 유출 등이 있습니다. 또한, 특히 모델이 문서나 웹 콘텐츠에서 신뢰할 수 없는 텍스트를 읽을 때 프롬프트 주입 공격에 취약할 수 있습니다. 이러한 위험을 완화하기 위한 일반적인 방법으로는 거버넌스, 레드팀 활동, 접근 제어, 안전한 프롬프트 패턴 구축, 체계적인 평가 등이 있습니다. 이러한 위험에 대한 대비책은 사후 패치보다는 초기 단계부터 마련하는 것이 중요합니다.
RAG 시스템에서 신속한 주입이 중요한 이유
프롬프트 주입은 신뢰할 수 없는 텍스트가 "이전 지시 무시" 또는 "비밀 정보 공개"와 같은 지침을 무시하려고 시도하는 경우를 말합니다. RAG 환경에서 검색된 문서에는 이러한 악의적인 지침이 포함될 수 있으며, 주의하지 않으면 모델이 이를 따를 수 있습니다. 일반적인 접근 방식은 시스템 지침을 격리하고, 검색된 콘텐츠를 검증하고, 프롬프트에만 의존하기보다는 도구 기반 정책에 의존하는 것입니다. 공격자 입력을 사용한 테스트는 취약점을 파악하는 데 도움이 됩니다.
사용 사례에 맞는 파운데이션 모델을 선택하는 방법
먼저 생성해야 할 결과물(텍스트, 이미지, 오디오, 코드 또는 멀티모달 출력)을 정의하세요. 그다음 정확도 기준을 설정합니다. 높은 정확도를 요구하는 영역에서는 종종 근거 제시(RAG), 검증, 그리고 경우에 따라 사람의 검토가 필요합니다. 지연 시간과 비용도 고려해야 합니다. 성능이 뛰어난 모델이라도 속도가 느리거나 비용이 많이 들면 출시하기 어려울 수 있기 때문입니다. 마지막으로 개인정보 보호 및 규정 준수 요구 사항을 배포 옵션 및 제어 방식에 맞춰 조정하세요.
참고 자료
-
미국 국립표준기술연구소(NIST) - 기초 모델(용어집 용어) - csrc.nist.gov
-
미국 국립표준기술연구소(NIST) - NIST AI 600-1: 생성형 AI 프로필 - nvlpubs.nist.gov
-
미국 국립표준기술연구소(NIST) - NIST AI 100-1: 인공지능 위험 관리 프레임워크(AI RMF 1.0) - nvlpubs.nist.gov
-
스탠포드 기초 모델 연구 센터(CRFM) - 보고서 - crfm.stanford.edu
-
arXiv - 기초 모델의 기회와 위험(Bommasani et al., 2021) - arxiv.org
-
arXiv - 언어 모델은 Few-Shot Learners입니다 (Brown et al., 2020) - arxiv.org
-
arXiv - 지식 집약적 자연어 처리 작업을 위한 검색 증강 생성(Lewis et al., 2020) - arxiv.org
-
arXiv - LoRA: 대규모 언어 모델의 저랭크 적응(Hu et al., 2021) - arxiv.org
-
arXiv - BERT: 언어 이해를 위한 심층 양방향 트랜스포머 사전 학습 (Devlin 외, 2018) - arxiv.org
-
arXiv - 미세 조정된 언어 모델은 제로샷 학습기입니다 (Wei et al., 2021) - arxiv.org
-
ACM 디지털 라이브러리 - 자연어 생성에서의 환각 현상에 대한 조사 (Ji et al., 2023) - dl.acm.org
-
arXiv - 자연어 지도 학습을 통한 전이 가능한 시각 모델 학습 (Radford 외, 2021) - arxiv.org
-
arXiv - 잡음 제거 확산 확률 모델 (Ho et al., 2020) - arxiv.org
-
arXiv - 잠재 확산 모델을 이용한 고해상도 이미지 합성 (Rombach 외, 2021) - arxiv.org
-
arXiv - 개방형 도메인 질의응답을 위한 밀집 문단 검색 (Karpukhin 외, 2020) - arxiv.org
-
arXiv - Faiss 라이브러리(Douze et al., 2024) - arxiv.org
-
OpenAI - Whisper 소개 - openai.com
-
arXiv - Mel 스펙트로그램 예측을 기반으로 WaveNet을 조건화하여 자연 TTS 합성 (Shen et al., 2017) - arxiv.org
-
조지타운 대학교 안보 및 신기술 센터(CSET) - 다음 단어 예측의 놀라운 힘: 대규모 언어 모델 설명 (1부) - cset.georgetown.edu
-
USENIX - 대규모 언어 모델에서 학습 데이터 추출 (Carlini 외, 2021) - usenix.org
-
OWASP - LLM01: 프롬프트 주입 - genai.owasp.org
-
arXiv - 요청하신 것 이상: 애플리케이션 통합형 대규모 언어 모델에 대한 새로운 프롬프트 주입 위협에 대한 종합 분석 (Greshake 외, 2023) - arxiv.org
-
OWASP 치트 시트 시리즈 - LLM 프롬프트 주입 방지 치트 시트 - cheatsheetseries.owasp.org