DeepSeek-Coder-V2


중국 AI 스타트업 DeepSeek, 오픈 소스 코드 언어 모델 ‘DeepSeek-Coder-V2’를 발표하였습니다.

중국의 AI 스타트업 딥시크가 오픈 소스 전문가 혼합(MoE) 코드 언어 모델인 ‘DeepSeek-Coder-V2’를 공개하였습니다. 

이 모델은 300개 이상의 프로그래밍 언어를 지원하며, GPT-4 터보, 클로드 3 오푸스, 제미니 1.5 프로 등 최첨단 폐쇄형 모델의 성능을 뛰어넘는 것으로 알려졌습니다. 

회사 측은 “이것이 오픈 모델이 이 위업을 달성한 첫 사례”라고 밝혔습니다.

DeepSeek-Coder-V2는 지난달 공개된 MoE 모델 ‘DeepSeek-V2’를 기반으로 개발되었습니다. 

이 모델은 GitHub와 CommonCrawl에서 수집한 6조 토큰의 코드 및 수학 관련 데이터를 추가로 학습하여 코딩과 수학 작업에서 뛰어난 성능을 보여줍니다. 

또한 컨텍스트 윈도우를 128K로 확장해 더욱 복잡하고 광범위한 코딩 작업을 처리할 수 있게 되었습니다.


각종 벤치마크 테스트 결과, DeepSeek-Coder-V2는 코드 생성, 편집, 문제 해결 능력 등에서 기존의 폐쇄형 및 오픈 소스 모델을 압도하는 성적을 기록하였습니다. 

특히 일반적인 추론 및 언어 이해 작업에서도 견줄 만한 성능을 보여주며, 개방형 코딩 전용 모델이 전반적인 영역에서 최첨단 폐쇄형 모델에 근접하고 있음을 입증하였습니다.

DeepSeek-Coder-V2는 연구와 상업적 사용이 모두 가능한 MIT 라이선스로 공개되었으며, Hugging Face를 통해 다운로드 받으실 수 있습니다. 

회사는 또한 API를 통한 모델 접근과 챗봇을 이용한 테스트 기회도 제공하고 있습니다.



참고자료


You may also like...

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.