AI(인공지능) 산업이 발전하면서 LLM(거대언어모델) 경쟁에서 데이터 중심의 경쟁으로 트렌드가 옮겨가고 있습니다. AI 모델이 학습을 넘어 추론의 영역으로 확대되는 가운데 신뢰할 만한 결과를 도출하려면 양질의 데이터 학습이 필수적이기 때문입니다. ‘데이터’의 중요성이 대두되면서 글로벌 각국 역시 ‘데이터 주권’을 지키기 위한 움직임도 분주해지는 모습인데요. 이에 데이터와 관련한 산업 현황과 전망을 세 차례에 걸쳐 짚어봅니다. (편집자 주)
오픈AI (사진=뉴시스)
[뉴스토마토 배덕훈 기자] 오픈AI의 챗GPT가 몰고 온 AI 기술의 혁신은 최근 산업계를 넘어 사회 전반에 큰 파고로 작용하고 있습니다. 글로벌 빅테크는 LLM 등 기술 개발에 열을 올리고 있고, AI의 데이터 학습 및 처리 장치인 GPU(그래픽처리장치) 등 AI 반도체 분야는 미국 반도체 기업 엔비디아의 독주 속 호황 산업으로 각광받는 모습입니다.
하지만 이에 못지않게 중요한 것이 바로 ‘데이터’입니다. 데이터를 주식(主食)으로 자라나는 AI가 더욱 고도화하려면 양질의 데이터 확보가 필수적이기 때문입니다. 하지만 AI가 학습할 만한 고품질 데이터의 확보는 점차 어려워지고 있는데요. 향후 2년 안에 AI용 학습 데이터가 고갈될 것이라는 전망도 나옵니다.
이러한 상황 속 적은 양의 데이터로 고성능 AI 모델을 만들 수 있는 ‘데이터 중심 AI’가 산업의 화두로 떠오르는 모습입니다. 이를 위해서는 날 것 그대로의 데이터를 가공하는 작업이 필수적입니다. 이에 기업들 역시 자체적으로 보유한 데이터를 가공하거나 원천 데이터(Raw Data) 혹은 가공된 데이터를 구입해 AI 학습에 사용하고 있습니다.
'2023 데이터산업 현황조사' (그래픽=과기정통부)
'데이터 중심 AI' 화두로
과학기술정보통신부와 한국데이터산업진흥원이 발표한 ‘2023 데이터산업 현황조사’에 따르면 지난 2022년 국내 데이터산업 시장 규모는 전년 대비 13.4% 늘어난 25조9663억원으로 나타났습니다. 지난해에는 27조1513억원 규모로 성장한 것으로 예측되는데요. 2019년부터 2023년까지 5개년 연평균 증감률은 12.7%에 달합니다.
그중 원천 데이터(Raw Data) 또는 데이터를 분석과 활용이 가능한 상태로 판매하는 비즈니스인 ‘데이터 판매 및 제공 서비스업’은 지난해 13조3352억원 규모로 예상됩니다. 또한 ‘데이터 구축·가공 서비스업’은 같은 기간 8조6930억원 규모에 달할 것으로 관측됩니다. 데이터 가공과 판매, 두 사업의 규모를 합하면 전체 산업 비중의 80%를 넘습니다.
정부 역시 민간의 데이터 활용을 위해 데이터 개방을 촉진하는 정책을 추진 중인데요. 데이터 개방 활용을 확대해 새로운 가치를 창출하겠다는 목표입니다. 주무부처인 과학기술정보통신부도 내년부터 약 4억원의 예산을 들여 민간이 자율적으로 AI 데이터를 공유하고 개방할 수 있는 데이터 중개·소통창구를 구축한다는 계획입니다.
특히 과기정통부는 가공된 데이터 개방의 일환으로 ‘AI 학습용 데이터 구축 사업’에 집중하고 있는데요. 이를 통해 지난 2020년까지 총 833종의 데이터셋(데이터 집단)을 구축했습니다. 이러한 데이터셋은 검증 과정을 거쳐 한국지능정보사회진흥원(NIA)과 함께 구축한 ‘AI 허브’를 통해 민간에 개방하고 있습니다. 올해 역시 법률·의료·교육 등 10대 전략 분야를 선정해 AI 데이터를 구축할 예정입니다.
과기정통부와 한국지능정보사회진흥원이 구축한 'AI 허브' (사진=AI 허브 홈페이지)
'AI 학습용 데이터'에 올해 558억원 투입 그쳐
하지만 과기정통부가 야심차게 준비한 ‘AI 학습용 데이터 구축 사업’은 점차 동력을 잃고 있는 모습입니다. 국회예산정책처 등에 따르면 해당 사업은 총 2조5000억원 규모로 2020년 3315억원, 2021년 3705억원, 2022년 6732억원, 2023~2025년 각 3740억원이 투입될 계획이었지만, 실제로 2022년 5797억원, 2023년 2805억원, 올해 558억원의 예산이 투입돼 대폭 쪼그라든 모습입니다.
이와 관련 과기정통부 관계자는 “초반에는 데이터에 대한 역할이 강해서 대규모로 구축을 했지만, 무한정으로 늘려갈 수는 없는 상황으로 예산이 줄어드는 추세”라며 “예산도 정보통신진흥기금(정진기금)과 방송통신발전기금(방발기금)을 사용하고 있는데 기금 자체가 부족해 사업과 관련한 자산이 줄어들었다”라고 설명했습니다.
실제로 정진기금과 방발기금은 점점 줄어드는 추세인데요. 올해 예산은 각각 1조3797억원, 1조2527억원으로 예상되는데, 전년 대비 1830억원(11.7%), 2163억원(15.4%) 감소한 수치입니다. 더구나 주파수 할당이 핵심 수입원인 이들 기금은 올해 제4이동통신 취소로 인해 내년에도 줄어들 것으로 예상됩니다.
해당 사업과 관련한 총체적 부실도 떠오른 상태입니다. 최근 감사원이 발표한 감사 결과에 따르면 2020~2021년에 구축한 AI 데이터 360종(사업비 7020억원) 가운데 122종이 계획대로 구축·개방되지 않아 제대로 활용되지 못했습니다. 또 168종의 데이터는 당초 계획한 품질 목표를 달성하지 못했고, 사업수행기관인 한 업체가 데이터 수집비 13억9000만원을 횡령하는 등 관리도 부실한 것으로 드러났습니다.
AI 이미지 (그래픽=연합뉴스)
쓸 만한 데이터가 없다
방향성도 문제입니다. 공공이 데이터를 수집하고 민간에 제공하는 형태인데, 실질적으로 글로벌 경쟁에 도움이 되는 데이터는 없다는 것이 AI 업계 현장의 목소리입니다. 생성형 AI 기반 서비스를 개발하는 스타트업 대표는 “AI 허브 등 공공이 전해주는 데이터가 초기 연구를 도와줄 수는 있어도 그것으로 비즈니스는 현실적으로 어렵다”라며 “정부라든가 스타트업이 다들 얘기하는 것이 글로벌인데, 과연 글로벌에서도 충분히 통용될 수 있을만한 데이터를 갖고 있는지는 확인을 해봐야 한다”라고 지적했습니다.
전문가들 역시 이러한 방향을 짚고 있습니다. 김명주 서울여대 정보보호학과 교수는 “공공기관이 공개하는 데이터가 양으로는 많지만 실제 AI 업체들이 가져다 쓸 만한 데이터는 기대보다 많지가 않다”라고 설명했는데요. 이성엽 고려대 기술경영전문대학원 교수는 “민간 수요와 상관없이 정부가 독자적으로 데이터 구축 사업을 하는 것은 좀 지양할 필요가 있다”라며 “양보다는 질적으로 진짜 민간이 필요한 부분들을 지원하고 있는지 살펴봐야 한다”라고 말했습니다.
배덕훈 기자 paladin703@etomato.com