무료로 상용 이용 가능한 대규모 언어 모델 "Mixtral 8x7B" 등장

Google의 Deepmind와 메타 출신 연구자들이 설립한 AI 기업 Mistral AI가, 대폭으로 모델 크기를 줄여 가성비 좋은 추론을 할 수 있는 대규모 언어 모델 "Mixtral 8x7B"를 출시했는데, 대부분의 벤치마크에서 GPT-3.5나 Llama 270B를 웃도는 성능을 가진 것으로 알려져 있다.

 


Mixtral AI는 2023년 5월 설립된 프랑스 스타트업 AI 기업으로, 9월에는 파라미터 수를 70억으로 억제하면서 "Llama 2 13B"와 "Llama 1 34B"를 웃도는 성능을 가진 대규모 언어 모델 "Mixtral 7B"를 출시하는 등 적극적으로 AI 개발을 진행하고 있다. 2023년 12월에 실시한 자금 조달에서는 평가액이 약 3조원으로 알려져 있고, 급속히 규모를 확대하고 있다.

그런 Mistral AI가 2023년 12월 11일 새로운 모델 "Mixtral 8x7B"를 출시. Mixtral 8x7B는 Mistral 7B 모델을 기반으로 Transformer 내 Feed Forward 블록을 8배 크기로 확장한 모델이라고 하고, 모델의 일부만이 8배가 되었기 때문에, 파라미터의 총수는 560억이 아니라 467억이 되었다.

 


또한, 추론에서 매번 모든 Feed Forward 블록을 사용하는 것이 아니라, 8개 블록 중 2개만을 토큰 처리에 이용함으로써, 토큰 처리에 이용되는 파라미터의 수를 129억으로 억제하고 있다. 이 구조를 이용하는 것으로 129억 파라미터와 같은 속도, 같은 비용으로 추론을 실시하는 것이 가능하다는 것.

 

 

 


Mixtral 8x7B의 스펙은 아래와 같다.

. 32000 토큰의 컨텍스트 처리 가능
. 영어,프랑스어,이탈리아어,독일어,스페인어 지원
. 코드 생성으로 강력한 퍼포먼스 발휘
. 파인 튜닝으로 MT-Bench에서 8.3이라는 점수를 낼 수 있는 명령 추종 모델로 만드는 것이 가능

 


대규모 언어 모델의 평가에 사용되는 다양한 벤치마크에서, Mixtral 8x7B는 LLaMA 270B나 GPT-3.5와 동등하거나 그 이상의 평가를 획득. 파라미터 수가 작고 추론 비용이 낮기 때문에 상당히 가성비가 높다.

Mistral 7B와 추론 비용당 성능을 비교한 결과는 아래 그림과 같다. 이 그림에서도 추론 비용을 억제하면서 성능이 향상되고 있음을 알 수 있다.

 


또한, Mixtral 8x7B는 환각이나 편견에 대해서도 개선이 이루어졌으며, 많은 지표에서 Llama 270B 모델을 상회했으며, 동시에 다국어 지원도 이루어지고 있어 영어 외에 프랑스어, 이탈리아어, 독일어, 스페인어를 Llama 270B 모델 이상으로 잘 다룰 수 있다.

Mixtral 8x7B는 Apache 2.0에서 라이선스된 오픈소스 모델로, 자유롭게 개편 및 상용 이용이 가능하고, 모델 자체가 Hugging Face로 호스팅되고 있으며, Mistral AI의 mistral-small 엔드포인트를 통해 이용할 수 있다고 한다. 단, 현 시점에서는 mistral-small 엔드포인트는 베타 버전으로 되어 있어, 대기 목록에 등록하고 대기자 명단을 기다려야 했다는.