오피니언 > 기고칼럼

[박항준 칼럼]작지만 강한 sLLM 기반 한국형 AI를 바란다

박항준 | 기사입력 2024/04/24 [15:56]

오피니언 >기고칼럼

[박항준 칼럼]작지만 강한 sLLM 기반 한국형 AI를 바란다

박항준

| 입력 : 2024/04/24 [15:56]

최근 한국과학기술정보연구원(KISTI)은 최근 챗GPT(ChatGPT)처럼 질의응답이 가능한 과학기술 분야 '거대언어모델'(LLM)인 ‘고니(KONI·KISTI Open Natural Intelligence)’를 개발했다고 발표했다. 연구기관·공공기관·중소기업이 활용할 수 있는 ‘고니’는 130억 개 파라미터(매개변수) 수준이다. 이 정도면 챗GPT 3.5에 조금 미치지 못하는 수준이다. 현재 유료화된 챗GPT 4.0는 파라미터가 1000억 개 이상으로 예상되고 있다.

사실 국내에서 LLM을 설계하고, 데이터를 채집(게더링)하며, 거대언어모델을 학습 운용하는 것 자체가 현실적으로는 불가능에 가까울지 모른다. 첫째로 부딪히는 벽은 보유 데이터의 한계다. 대부분의 정보가 영어로 되어있는 데이터에 비해 한글 데이터의 비중은 상대적으로 미미하다. 한글 데이터마저 대부분 전문성을 담보로 할 수 없는 블로그 등에 저장되어 있는 네이버와 다음 포탈의 데이터에 의존해야 한다. 더불어 비속어를 제거하고, 데이터의 전문성과 신뢰도를 확보해야 하는 과정을 거치다 보면 순도 높은 데이터를 게더링 한다는 것에 들어가는 시간과 비용이 상상을 초월한다.

둘째 비용 문제다. 기존 데이터를 모아 가공하는데 들어가는 비용, 저작권 그리고 시간은 후발주자인 한국형 AI를 만드는데 커다란 벽이다. LLM 프로그램 개발이야 패스트팔로워 전략에 의해 어찌어찌할 수는 있을지 모른다. 그러나 데이터를 모으고, 고도화하고, 프로파일링 하여 사용자에게 매칭할 수 있는 전체 AI생태계 설계가 되어있지 않다면 LLM은 할루시네이션(허언증)을 넘어 쓰레기 양산기계가 될 뿐이다.

AI의 학습 성장과정에서의 오류를 인정해주지 않는 문화와 그 과정에서의 비난과 비웃음을 극복할 수 있는 체력과 정신력도 필요하다. 더불어 AI 고도화 과정에서 필요한 예산을 정부지원이나 광고비, 사후 수수료 등에 의존하거나 막대한 비용을 선투자 해야 하는 기업이나 기관들에게는 큰 부담이 아닐 수 없다. 챗GPT를 운용하는데 들어가는 월 유지비가 1조 원가량 투입된다고 하니 기술적으로 아무리 싸고 빠른 GPU를 개발한다 하더라도 분명 AI의 데이터고도화 및 시스템 유지관리 비용에는 부담이 있어 보인다.

셋째 데이터 마이닝의 벽이다. 순도 높은 데이터가 없는 AI는 단연코 AI가 아니다. 주로 웹상에 있는 과거 데이터를 모으는 작업을 데이터 게더링(gathering)이라 정의하자면, 학술지나 논문 등 웹상에서 존재하지 않거나, 마이데이터 등 새로운 값을 갖는 미래의 데이터를 모으는 행위를 데이터 마이닝(mining)이라 할 수 있다. 문제는 숨겨져 있는 과거의 데이터와 앞으로 만들어질 미래의 데이터를 어떻게 지속가능하게 확보하느냐가 AI의 진정한 성패에 영향을 준다. 새롭고 신뢰도 높은 데이터를 모을 수 있는 지속가능 모델을 확보하지 않는 이상 AI의 미래는 없다.

한국형 AI가 맞닿은 주요 문제점을 해결할 수 있는 대안 중 하나가 sLLM(Small Large Language Model)이다. sLLM은 LLM에 비해 매개변수를 현저히 줄인 모델이다. 사실 의료정보 분야의 경우 LLM은 오히려 위험한 결과를 초래할 수 있다. 사람의 생명과 직결된 의료 분야는 차라리 sLLM을 통해 작지만 강한 strong LLM을 만들어야 한다. 만일 의료정보 sLLM을 만들게 된다면 기존 웹상의 정보를 긁어모으는 것보다 새로이 데이터를 제공할 의료전문가들을 확보하고, 데이터를 제공할 그룹을 선정함을 물론, 의료학술정보 및 논문의 저작권 비용을 지급해서 새로이 데이터를 설계, 마이닝(취합, 채굴)하는 편이 시간과 비용 그리고 신뢰도면에서 훨씬 나은 접근방법일 수도 있다.

다음으로는 스몰데이터와 마이데이터에 집중하는 전략이다. 수십조 원이 투입되고, 대부분 영어 정보로 되어 있는 빅데이터 시장에 무모하게 뛰어들기보다 전문화되고 특화된 스몰데이터와 마이데이터 가공능력을 높이는 전략이다. 인삼을 재배하지 않는 스위스는 세계 인삼 의약품 시장의 40%를 점유하고 있다. 인삼 사포닌 함량을 세계 최초로 표준화한 독자적인 기술을 진사나 제약사가 개발했기 때문이다. 진사나 제약과 같이, AI를 구성하는 영역 중 특화 가능 분야가 바로 스몰데이터와 마이데이터 분야다. 빅데이터에 대비되는 스몰데이터는 평균 외 값이나 예측가능 밖의 범위, 부작용 등에 대한 데이터로 빅데이터가 갖는 평균의 함정을 극복할 수 있는 매우 중요한 데이터가 될 수 있다. 특히 우주물리, 국방, 의학계와 같이 생명과 연관된 분야에서는 매우 중요한 데이터다.

더불어 마이데이터의 특화 또한 한국형 AI에 필요한 접근 전략이다. 멀티 페르소나(다양한 가면을 쓰고 사는 삶)를 갖고 사는 현대인들에게 빅데이터는 다채로움이라는 개성을 파괴하고, 다양성과 다름을 무시할 수 있는 위험이 크다. 반면 마이데이터는 개인의 건강, 라이프, 패턴, 성향, 성장 등에 대한 개인의 웰니스 데이터다. 마이데이터를 보유한 sLLM을 기반으로 거대 AI에 접근하는 비즈니스모델로 개인맞춤형 답변을 얻을 수 있다. 이를 위해서는 사용자가 부담과 거부감 없이 마이데이터를 제공할 수 있도록 유도하는 web3.0 비즈니스모델이 전제되어야 한다.

전 세계 모든 곳에서 인삼농사를 짓겠다는 선포하는 한국형 LLM보다는 사포닌을 추출하는 특화사업을 하겠다는 한국형 sLLM을 설계하는 전략적 접근을 고민해 보았다. 특히 스몰데이터나 마이데이터의 중요성이 높은 분야인 의료바이오분야, 학술정보분야, 국민생활과 관련된 교통, 세금, 생활. 지역, 복지, 산업, 관광, 국방분야 등에 있어서는 거대 LLM만을 바라볼 것이 아니라 작지만 강한 sLLM개발과 데이터마이닝의 지속가능성 확보라는 전략적이고 지혜로운 접근을 기대한다.

박항준 서울벤처대학원대학교 연구교수

반려가족누림사회적협동조합 이사장

한국디지털웰니스협회 부회장

디케이닥터 대표이사

누림경제발전연구원장

기술거래사/기업기술가치평가사

공)저서. 더마켓TheMarket / 스타트업 패러독스 / 크립토경제의 미래

좌충우돌 청년창업 / 블록체인 디파이혁명 / CEO의 인생서재

박항준의 다른기사보기

전체댓글보기

박항준 칼럼 관련기사목록

PHOTO

[MJ포토] '인사이드 아웃'과 즐기는 전주

많이 본 기사

‘오후 2시 이후 스타벅스 오세요’ 1+1 이벤트

박호성 기자

삼성SDI, 1분기 영업익 전년比 29%↓…전기차 수요 침체

이한수 기자

로앤컴퍼니, 법률 AI 활용 교육 지원…"업무 경쟁력 제고"

이한수 기자

숏폼 리뷰형 플랫폼 '순샵' 오픈…순이엔티 "1여년간 준비"

이한수 기자

여야, 이태원특별법 수정안 합의…오늘 본회의서 처리

이한수 기자

JW중외제약 고용량 철분주사제 ‘페린젝트’ 건강보험 적용

박호성 기자

[공기업 포커스-3] '성과급 반납분→위로금' 한국전력의 민낯

이한수 기자

취임사로 ‘정부 저격’ 임현택 의협 신임 회장

신경호 기자

KT&G, 우간다 94개 초등학교에 정수장치 400대 지원

박호성 기자

한화로보틱스·배민, 로봇 기술교류…외식사업 공략

이한수 기자

오피니언 많이 본 기사

[세무 칼럼] 증여세 체납보다는 계획적으로 납부해야

[박항준 칼럼]작지만 강한 sLLM 기반 한국형 AI를 바란다

[끼적끼적] 버거킹의 도 넘은 낚시 마케팅

[송금호의 고사성어와 오늘] 당랑규선(螳螂窺蟬)

[박항준 칼럼] 자기 성장 위해 '향원(鄕原)' 분별하자

최신기사

'동행축제' 오아시스마켓, 라방으로 차별화

'어린이날' 바디프랜드, 보육원 기부…9년째 후원

"가족과 함께 회사로" LG전자, 특별한 초청 행사 마련

'어린이날' 레고랜드 "비 내려도 즐거워"…실내 프로그램↑

'가정의 달' 대한항공, 격납고 개방…"특별한 추억 선사"

회사소개 ㅣ 청소년보호정책 ㅣ 개인정보취급 ㅣ 기사자율심의/고충처리 ㅣ 광고·제휴 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

06775 서울특별시 서초구 논현로19길15 6층(양재동, 양재빌딩) 대표전화 : 02)2635-0100 | 팩스 : 02)3667-4555
정기간행물ㆍ등록번호 : 서울 아 00252 [등록일(창간) 2006년 9월 14일]
발행·편집인 : 최세진 | 마케팅책임자 : 이도용 | 개인정보책임&청소년보호책임자 : 최병국
Copyright © 2023 문화저널21 / 주식회사 문화미디어. All rights reserved.