[IITP 리뷰 1] GPT-3, 초거대 AI 개발경쟁에 불을 붙이다 > IT News

[IITP 리뷰 1] GPT-3, 초거대 AI 개발경쟁에 불을 붙이다

페이지 정보

작성자 ldskorea
댓글 0건 조회 12,400회 작성일 21-12-27 09:45

본문

[IITP 리뷰 1] GPT-3, 초거대 AI 개발경쟁에 불을 붙이다

최근 정보통신기술(ICT) 분야에서 가장 핫한 키워드를 꼽으라면 '초거대 인공지능(Hyper-scale AI)'이 아닐까 한다. 2020년 6월 미국 OpenAI가 GPT-3라는 자연어처리AI모델(베타버전)을 발표한 후, 획기적 활용사례들이 등장하며 잠재력에 대한 기대를 부풀린 이후 초거대 AI모델이 속속 등장하고 있다.

초거대 AI는 데이터 분석과 학습을 넘어 인간의 뇌처럼 스스로 추론하고 창작할 수 있도록 방대한 데이터와 파라미터(매개변수)를 활용하는 AI 모델이다. 인공신경망의 파라미터는 인간 뇌에서 뉴런 간 정보전달 통로인 시냅스와 비슷한 역할을 한다.

2020년 이전만 해도 100억개 내외 파라미터를 가진 모델들이 주를 이뤘으나, GPT-3는 1750억개 파라미터와 3000억개로 구성된 데이터셋으로 학습했다. 초거대 AI 모델은 대부분 구글이 개발한 트랜스포머 알고리즘을 활용하고 있는데, 이는 병렬적 언어처리를 가능케 해 계산 효율성을 획기적으로 향상시킴으로써 대규모 데이터셋 학습에 용이하기 때문이다.

2021년에 등장하는 초거대 AI 모델은 그 규모가 더욱 거대해져 수천억에서 1조개 이상의 파라미터를 장착하고 있는 실정이다.

◇GPT-3, 미세조정 없이 기사작성부터 코딩까지 수행하는 범용적 언어모델

GPT-3를 개발한 OpenAI는 2015년 일론 머스크, 샘 알트만 등의 주도로 설립됐다. 당초 비영리단체로 출범했으나 2019년 3월 연구개발자금 확보를 위해 영리기관인 OpenAI LP를 설립하고 마이크로소프트(MS)로부터 10억달러 투자를 유치했으며, 이후 GPT-3 독점 라이선스는 MS에 귀속됐다.

AI 업계는 GPT-3가 방대한 규모의 일반 데이터 학습만으로 미세 조정(fine-tuning)없이, 즉 특정 태스크를 위한 새로운 데이터를 만들지 않고도 대부분 태스크를 완성도 높게 수행하는 범용적 언어모델이라는 측면에서 획기적인 것으로 평가했다.

공개 후 AI 커뮤니티의 반응은 폭발적이었으며, 놀라운 활용사례들이 소개됐다. 미 버클리대 학생 리암 포어가 GPT-3로 작성한 블로그 게시물이 해커뉴스(Hacker News)에서 1위를 차지했고, '가치투자'에 관한 인간과의 자유 대화는 AI라 상상할 수 없을 만큼 자연스러웠다.

몇 가지 정보를 제시하면 이력서, 가계부, 이메일 등 원하는 양식의 콘텐츠 생성이 가능하고, 일반 문장을 법률적 문장으로 개조하기, 상당한 수준의 번역, 추론이 필요한 수준의 문제 풀이와 몇 줄의 일반 문장 입력으로 자동 코딩작업까지 수행했다. 인류역사상 가장 뛰어난 AI라는 찬사와 더불어 한계도 지적됐지만 GPT-3 등장은 자연어처리 AI 분야에 한 획을 긋는 사건으로 기록될 전망이다.

◇글로벌 주요국은 조 단위 파라미터 경쟁에 진입

가장 앞서가는 기업은 구글과 MS다. 트랜스포머 알고리즘과 'BERT모델'을 보유한 구글은 지난 5월 언어와 문맥을 이해하고 이에 맞춘 대화를 할 수 있는 대화형 AI '람다(LaMDA)'와 75개 이상 언어로 동시 학습되고 다양한 유형의 정보를 동시에 이해하는 멀티모달 모델인 MUM(멈)을 공개했다.

올해 1월에는 1조6000억 파라미터의 '스위치 트랜스포머'에 관한 논문을 발표했는데, 최초의 조 단위 파라미터 모델이지만 아직 연구자들에게 논문과 소스코드 형태로만 공개된 것으로 알려진다. 자회사인 딥마인드도 2800억 파라미터의 고퍼(Gopher)를 발표했다.

MS와 엔비디아는 지난 10월 파라미터 5300억개 규모로 문서 요약, 자동 대화 생성, 번역, 의미 검색, 코드 자동완성 등을 높은 정확도로 수행 가능한 'MT-NLG'를 공개했다.

아울러 MS는 최대 1조개 파라미터 모델을 효율적으로 학습시킬 수 있는 딥스피드(DeepSpeed) 새 버전을 개발했고 11월에는 GPT-3를 MS 클라우드서비스인 '애저 OpenAI 서비스'로 제공한다고 발표했다.

한편 중국 베이징AI연구원(BAAI)은 1조7500억 파라미터 '우다오 2.0'을 공개하며 조 단위 파라미터 경쟁에 가세했으며, 화웨이는 2070억 파라미터 규모 '판구 알파'를 내놓았다.

◇우리 기업들도 본격 행보에 돌입

네이버는 지난 5월 2040억 파라미터의 세계 최대 한국어 언어모델 '하이퍼클로바'를, 카카오브레인은 11월 300억 파라미터 규모의 한국어 특화 AI 언어모델 'KoGPT'에 이어 12월에는 명령에 따라 그림을 그리는 '민달리(minDALL-E)'를 공개했다.

LG AI연구원은 세계 최대 규모 데이터(6000억개 말뭉치, 2억5000만개 이미지)를 학습시킨 3000억 파라미터의 '엑사원'을 발표했다. SK텔레콤과 KT 등 통신사들도 야심찬 계획들을 진행 중인 것으로 알려진다. 우리 정부도 지난 9월 제1회 AI 최고위 전략대화의 주제를 초거대 AI로 정하고 적극적인 민·관 협력과 지원을 도모하고 있다.

초거대 AI는 영역을 불문하고 신사업 발굴, 상품설계, 디자인, 서비스 등 산업 전 과정과 우리의 일상에 획기적 영향을 미칠 것이 예상되므로 유연하고 열린 협력과 전략적 투자로 경쟁력을 확보하는 한편으로 예상되는 부작용에 대한 대책도 선제적으로 준비해 나가야 할 것이다.

기사 전문 보기

이전글Log4j 장기화 불가피...새해 사이버 위협 전망 21.12.27
다음글SW산업협회, 50% 이상 채용확정 과정 교육생 모집 21.12.24

댓글목록

등록된 댓글이 없습니다.

[IITP 리뷰 1] GPT-3, 초거대 AI 개발경쟁에 불을 붙이다 > IT News

인기검색어

IT News