오픈AI·MS, 딥시크 조사 나선다…"데이터 무단 수집 가능성"
모델 훈련에 대량 데이터 무단 수집 의혹 제기
트럼프 정부 "무단 이용 상당한 증거 있다"
2025-01-30 11:29:17 2025-01-30 11:29:17
[뉴스토마토 이진하 기자] 챗GPT 개발업체인 오픈AI와 마이크로소프트(MS)가 중국 인공지능(AI) 스타트업 딥시크를 대상으로 조사에 착수했습니다. AI모델 훈련을 위해 오픈 AI 데이터를 무단으로 수집했는지 직접 들여다보겠다는 겁니다.
 
중국 수도 베이징의 한 사용자 휴대전화 화면에 딥시크(DeepSeek)와 챗GPT(ChatGPT)의 애플리케이션이 보이고 있다. (사진=뉴시스)
 
 
29일(현지시간) 블룸버그 통신과 월스트리트저널(WSJ) 등은 오픈AI의 데이터가 딥시크와 관련된 그룹의 데이터를 허가 없이 무단으로 획득됐는지 관련 기업이 조사에 나선다고 소식통을 인용해 보도했습니다. 
 
 
딥시크는 오픈AI의 챗GPT보다 늦게 출발한 AI모델로, 하이플라이어(High-Flyer)란 중국 기업이 만든 것으로 알려졌습니다. 딥시크의 훈련 비용은 560만 달러(한화로 약 80억원)가 든 것으로 보도됐는데요. 이는 실리콘밸리에서 전문가 한 사람의 연봉 정도에 해당되는 금액입니다. 
 
 
 

 
 
 
반면 챗GPT의 GPT-4 훈련 비용은 1억 달러(한화로 약 1443억원)가 넘는 것으로 알려졌는데요. 딥시크는 챗GPT보다 훨씬 적은 비용으로 성능은 맞먹는 AI모델을 선보이면서 미국 테크업계에 충격을 줬고, 동시에 오픈AI의 데이터를 도용해 가능했을 것이란 의혹을 불러 일으켰습니다. 
 
 
 
 
 

 
 
 
 
 
오픈AI는 중국에 기반을 둔 기관들이 자사의 AI도구에서 대량의 데이터를 빼내려고 하는 여러 시도를 목격했다고 밝혔습니다. '증류(distillation)'라 불리는 기술적 과정이 자체 모델을 훈련하기 위한 것으로 보인다는 설명입니다. '증류'는 AI 모델이 다른 모델의 출력 결과를 훈련 목적으로 사용, 유사한 기능을 개발하는 것을 의미합니다. 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
오픈AI는 자사 시스템에서 생성된 데이터를 사용해 동일한 시장에서 경쟁하는 기술을 구축하는 것을 허용하지 않는데요. 오픈AI는 자사의 모델을 증류하려 한다고 의심되는 계정을 금지했다면서 "딥시크가 자사의 데이터를 무단으로 수집했을 가능성이 있으며, 서비스 약관을 위반했다는 증거를 검토 중"이라고 전했습니다. 
 
 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
 
 
 
 
MS 보안 연구원들도 지난해 가을 딥시크와 관련 있을 것으로 보이는 사람들이 오픈AI 앱 프로그래밍 인터페이스(API)를 사용해 대량의 데이터를 빼돌리는 것을 관찰했다고 전했습니다. API는 소프트웨어 개발자들이 AI기능을 자신들의 프로그램이나 앱에 넣을 수 있게 해주는 도구로, 이를 사용하기 위해 허가를 받아야 합니다. 
 
 
 
 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
 
 
 
 
앞서 지난 28일에는 도널드 트럼프 행정부의 AI·가상화폐 정책을 총괄하는 데이비드 색스가 폭스뉴스와 인터뷰에서 "딥시크가 오픈AI의 독점 모델을 이용해 기술을 개발했다는 상당한 증거가 있다"며 미국에서 지식 재산을 훔쳤는지 묻는 말에 "가능하다"고 말했습니다. 
 
이진하 기자 jh311@etomato.com
 
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김나볏 테크지식산업부장이 최종 확인·수정했습니다.

ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지

지난 뉴스레터 보기 구독하기
관련기사