작지만 강력한 Phi 모델 혁명
소형 언어 모델 혁신: Phi 1과 Phi 1.5의 탄생
Microsoft Research Redmond 연구팀이 개발한 혁신적인 언어 모델, Phi 1과 Phi 1.5에 대해 정리하였습니다.
이 모델들은 기존 대형 언어 모델의 경계를 넘어, 작지만 강력한 새로운 방향을 제시합니다. 2023 년 11 월 일본에서 열린 AI forum 에서 Sebastien 이 발표한 내용을 참고 하였습니다.
Phi 1: 코딩을 위한 강력한 소형 모델
Phi 1은 마이크로소프트 Sebastien 팀의 첫 번째 언어 모델 시도로, 13억 개의 매개변수를 사용합니다. GPT-4의 전신인 GPT-3와 비교할 때, 100배 이상 작음에도 불구하고, 효율성 면에서는 10배 더 큰 모델들과 맞먹는 성능을 보여줍니다. 코딩 작업을 위해 특별히 설계된 Phi 1은 자연어 지시에 따라 코드의 특정 부분을 완성하거나 자동 완성하는 능력을 갖추고 있습니다.
phi-1 모델은 다른 모델들에 비해 상대적으로 작은 크기(1.3B)임에도 불구하고, HumanEval에서는 50.6%, MBPP에서는 55.5%의 성능을 보여주고 있어, 여러 모델 중에서도 뛰어난 성능을 나타내고 있습니다. 이것은 큰 모델이 일반적으로 더 좋은 성능을 보이는 경향이 있지만, 작은 모델도 여전히 매우 효과적일 수 있다는 것을 의미합니다.
Phi 1.5: 상식 추론에 초점을 맞춘 혁신
Phi 1.5는 대규모 언어 모델의 거의 모든 응용 프로그램에 필요한 기본 요소인 상식 추론에 중점을 두고 개발되었습니다. GPT-4의 등장으로 AI의 상식이 더욱 구체화되면서, Sebastien 팀은 이를 훨씬 더 작은 모델에서 재현하고자 했습니다. 13억 개의 매개변수를 가진 Phi 1.5는 상식을 갖추고 있으며, 크기가 10배 더 큰 모델과 비교해도 뒤지지 않습니다.
Textbooks are all you need!
Phi 모델들의 개발에서 Sebastien 팀은 전통적인 대규모 언어 모델들이 웹 데이터에 의존하는 것과 달리, 교육적 가치가 높은 ‘교과서 스타일’ 데이터에 초점을 맞췄습니다. 이러한 접근 방식은 모델이 생성하는 응답 유형에 근본적인 차이를 가져왔습니다. 예를 들어, Falcon과 Llama 모델은 파괴적인 행동이나 존재론적 질문에 관련된 응답을 생성하는 반면, Phi 모델들은 ‘마음 이론’과 같은 고차원적인 개념을 논의합니다.
GPT-4를 활용한 효율적인 데이터 필터링
데이터 필터링 과정에서 Sebastien의 팀은 비용을 절감하기 위해 GPT-4를 일부 데이터에 적용한 후, 이를 모방하는 분류기를 훈련하여 나머지 데이터를 분류했습니다. 이 접근 방식은 GPT-4를 사용하는 것에 비해 비용을 크게 줄였습니다.
Phi 1과 Phi 1.5는 ‘Textbooks are all you need’라는 철학 아래, 교육적 가치가 높은 데이터로 훈련되어 계산 효율성에서 탁월한 이점을 보여줍니다. Sebastien과 그의 팀은 이러한 모델들을 통해 언어 모델링 분야에 새로운 지평을 열었습니다. 앞으로 더 큰 모델에 대한 그들의 연구가 기대됩니다.