[뉴스토마토 배덕훈 기자] AI 산업의 경쟁력이 글로벌에서 뒤처지지 않기 위해서는 양질의 ‘데이터 확보’가 매우 중요합니다. 하지만 국내 스타트업·기업들은 여전히 데이터 확보에 어려움을 겪고 있는 것으로 나타났는데요. 공공데이터 공개 확대를 비롯해 좀 더 촘촘한 데이터 정책이 절실하다는 의견이 나옵니다.
AI 로봇 (사진=뉴시스)
20일 과학기술정보통신부와 한국데이터산업진흥원의 ‘2023 데이터산업 현황조사’에 따르면 국내 기업 중 75.4%가 데이터 거래 경험이 있는 것으로 나타났습니다. 이들 기업은 비즈니스 전략 수립을 위한 데이터 분석(54.0%), 데이터 서비스의 원천 데이터로 활용(49.1%) 등의 이유로 데이터를 거래한 것으로 조사됐는데요. 데이터 거래 시 에로사항으로는 ‘구매 데이터의 가격 부담(39.4%)’이 가장 높았고, 다음으로는 ‘쓸 만한 양질의 데이터 부족’(31.1%)이 꼽혔습니다.
특히 데이터를 보유하고 있는 기업을 대상으로 수집 경로를 물은 결과 고객이 이용 동의한 데이터 같은 자체 수집 외에 데이터 거래를 통한 데이터 수집(9.3%), 공공기관에서 제공되는 데이터 수집(5.6%) 등 외부 확보처 비중은 낮게 나타났습니다. 많은 기업들이 외부 데이터 수급에 어려움을 겪는 셈입니다.
기업들의 데이터 수집 경로 (그래픽=과기정통부)
특히 리걸테크와 의료 분야에서는 AI 개발과 관련한 판결문, 의료 데이터 등 공공데이터 공개 확대 목소리가 꾸준히 이어지고 있는데요. 개인정보 등 윤리 이슈가 가장 큰 걸림돌입니다. 이에 업계에서는 개인정보 이슈와 관련해 식별 목적이 아닌 학습 목적만을 위해 활용되는 경우에 유연한 기준을 적용해 주길 바라는 목소리가 높습니다.
이성엽 고려대 기술경영전문대학원 교수는 “법률 분야의 판례 공개 같은 것도 아직은 좀 미진한 상황이니 제도적인 부분을 좀 풀면 정부가 굳이 예산을 많이 쓰지 않더라도 공공데이터를 학습용으로 사용할 수 있는 기반이 되기 때문에 그런 부분도 살펴봐야 한다”라고 조언했습니다.
정부, 민간의 데이터 활용 위한 정책 마련 분주
정부에서도 산업 진흥 측면에서 가명처리된 공공데이터의 개방을 촉진하는 정책을 펴고 있는데요. 일반 데이터의 사용과 관련해서도 개인정보 침해를 막기 위한 가이드라인 마련과 규제 샌드박스 지정 등을 추진하며 민간의 활용 범위를 확대하고 있습니다.
특히 개인정보보호위원회와 한국인터넷진흥원(KISA)은 데이터 처리 환경의 안전성을 높여 가명정보를 보다 유연하게 활용할 수 있도록 지원하는 ‘개인정보 안심구역’을 공공부문 중심으로 운영 중인데요. 이를 민간에 확대하는 것을 검토한다는 방침입니다. 개인정보위 관계자는 “민간기업의 경우 기업 특화 데이터 중심으로 활용도와 연구자 접근성이 다소 떨어질 수 있는 부분이 있어 일단 공공부문 중심으로 시범 운영 중”이라며 “향후 제도화하는 과정에서 민간 기업 참가 여부를 검토해 볼 계획”이라고 설명했습니다.
AI (그래픽=연합뉴스)
"공공데이터 누적 시스템 만들어야"…'연합학습' 도입 의견도
공공데이터를 포함한 데이터의 문이 점차 열리며 AI 학습 데이터 확보에 대한 숨통이 트이고 있지만, 업계에서는 좀 더 촘촘한 데이터 정책이 필요하다는 목소리가 나옵니다.
AI 소프트웨어를 개발하는 스타트업의 대표는 “공공데이터는 교과서처럼 일반적인 수준의 정보를 갖고 있고, 산업 데이터는 일종의 노하우 성격인데 이를 확실히 구분해야 한다”라며 “교과서 위에 노하우가 쌓일 수 있도록 정부가 가이드를 잡아주고, 민간의 데이터 거래가 보다 활성화 되도록 조율을 해줘야 한다”라고 짚었습니다.
안홍준 한국소프트웨어산업협회 혁신성장본부장은 “공공데이터를 개방한다고 하지만 지금 어느 수준까지 열어야 할지 정립이 안돼 있어 논의가 필요한 단계로 굉장히 디테일 해야 된다”라며 “AI 학습용 데이터는 일반 서비스로 바로 들어가는 데이터와는 굉장히 다르기 때문에 정부에서 단순히 데이터를 개방하는 것을 넘어서 공공데이터가 누적될 수 있는 시스템을 만드는 것이 중요하다”라고 지적했습니다.
공공 및 공개 데이터 확보와 관련 ‘연합학습’ 기술이 해결책이라는 의견도 나옵니다. 데이터를 이동하지 않고 AI 모델을 이동시켜 학습을 하는 구조로, 개별 기업의 자산인 데이터는 안전하게 보호하면서 여러 기관 사이의 데이터를 학습해 AI를 만드는 방법입니다. 정부가 추진 중인 AI 기반 신약개발 플랫폼 사업인 ‘K-멜로디 프로젝트’가 유사한 구조입니다.
이경전 경희대 빅데이터응용학과 교수는 “공공 등 데이터를 공유하면 큰 주체(기업)일수록 이익을 보기에 사실상 불균형이 더 심화된다”라며 “데이터를 가진 주체를 보호하면서 데이터가 최대한 돌아다니지 않게 연합학습 구조가 강화돼야 한다”라고 설명했습니다.
배덕훈 기자 paladin703@etomato.com
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김나볏 테크지식산업부장이 최종 확인·수정했습니다.
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지