[뉴스토마토 배한님 기자] 동의 없는 사용자 데이터 수집과 개인정보 유출 사고로 논란의 중심에 선 인공지능(AI) 챗봇 '이루다' 개발사 '스캐터랩'이 후속 조치 과정에서도 비난을 면치 못하고 있다. 이루다 학습용 데이터로 자사 서비스 '연애의 과학'에서 수집한 카카오톡 대화 내용이 유출됐고, 데이터 수집 과정에서도 적절한 고지가 없었다는 사실도 밝혀졌는데 '데이터 전량 폐기'를 결정하지 않고 있기 때문이다. 회사는 개인정보 수집 절차 문제에 대해서도 내부적으로는 법적으로 문제가 없을 것이라 판단했다고 해명했다.
14일 업계에 따르면 스캐터랩은 지난 13일 밤 사과문과 추가 입장문을 발표했다. 스캐터랩은 이용자를 위한 사후조치로 "AI 학습에 데이터가 활용되기를 원하지 않는 분들은 개인정보보호법에 따라 데이터베이스(DB) 삭제를 비롯해 앞으로 이루다 DB에 활용되지 않도록 적극적인 조치를 진행할 예정이다"고 했다.
글로벌 오픈소스 플랫폼 '깃허브'에서 유출된 개인정보 문제에 대해서는 "개발팀은 2019년에 깃허브에 오픈소스로 공개한 인공지능 한국어 자연어처리 연구모델에 내부 테스트 샘플(대화 데이터)이 포함된 사실을 확인했다"며 "데이터 관리에 더 신중하지 못했고, 일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해서 진심으로 사과한다"고 말했다. 스캐터랩은 이어 "해당 깃허브 레파지토리(게시물)는 비공개 처리가 됐다"고 덧붙였다. 그러나 이미 공개된 해당 데이터를 얼마나 많은 사람들이 보유하고 있는지 현재로서는 알 방법이 없다.
스캐터랩의 추가 입장문을 접한 사용자와 전문가들은 사측의 대처가 미흡하다고 지적했다. 연애의 과학 사용자의 핵심 요구사항은 '데이터 전면폐기'인데 여기에 대한 언급이 없기 때문이다. 참여연대 등 시민단체도 지난 13일 "개인정보 침해를 당했음에도 불구하고 그 사실조차 모르는 정보주체가 다수 존재할 것"이라며 "지금이라도 가입자뿐 아니라 자신의 대화가 수집·이용된 모든 정보 주체의 열람 및 삭제 권리는 완전하게 행사될 수 있어야 한다"고 주장했다. 시민단체는 이어 데이터 수집·처리 과정에서 불법이 드러나면 "해당 개인정보를 바탕으로 만들어진 챗봇 모델과 알고리즘의 폐기가 마땅하다"고 덧붙였다.
일부 전문가들은 스캐터랩이 제시한 후속 조치인 선택적 데이터 폐기의 실효성에 의문을 표하기도 했다. 이들은 이미 학습을 마친 이루다 모델을 어떻게 처리할 것인지에 대한 추가 규명이 필요하다고 강조했다. 한 AI 머신러닝(ML) 전문가는 "불완전한 상태로 비식별화된 데이터로, 그것도 이미 한 차례 유출 사고가 발생한 데이터로 만든 모델은 남게 된다"며 "이 데이터 삭제만으로는 의미가 없다"고 설명했다.
스캐터랩이 거쳤다고 주장하는 '비식별화 과정'이 충분하지 못했다는 지적도 나왔다. 스캐터랩은 깃허브 샘플 데이터에서 유출된 이름·주소·숫자 등 개인정보에 대해 "수차례의 기계적인 필터링 과정에서도 미처 걸러지지 못한 부분"이라고 설명했다. 그러나 AI 업계 종사자는 "애초에 자연어는 패턴을 완벽하게 예상할 수 없어 사람이 일일이 다 확인하지 않은 이상 100% 완전한 비식별화는 불가능하다"며 "모든 AI 기업이 이 때문에 개인정보가 담긴 데이터를 사용할 때 매우 조심하는 건데, 이렇게 유출됐다는 것은 제작사가 얼마나 안일하게 대처했는지를 보여주는 증거다"고 꼬집었다.
스캐터랩 ‘연애의과학’ 애플리케이션(앱) 로그인 화면 하단에서 이용약관과 개인정보취급방침에 모두 동의하는 ‘포괄 동의’를 확인할 수 있다./연애의 과학 앱 화면 갈무리
법률 전문가들은 스캐터랩이 개인정보취급 방침 동의 절차 과정에서 보여준 태도에도 문제가 있다고 강조했다. 스캐터랩은 추가 입장문에 "연애의 과학 초기화면에 '로그인함으로써 이용약관 및 개인정보 취급방침에 동의합니다'라고 기재되어 있고, 이용자가 터치하면 전문을 확인할 수 있다"고 해명했다. 그러나 개인정보법 전문가인 김보라미 변호사는 이것이 '포괄 동의'기 때문에 문제가 있다고 설명한다. 김 변호사는 "현행법상 포괄 동의는 금지돼 있다"며 "이용자들은 선택 동의와 필수 동의가 제공 안 되는 서비스가 일상적이라고 받아들이지 않는다"고 말했다.
개인정보취급 방침과 이를 고지하는 과정에서 적절한 법적 자문을 받지 않았다는 의문도 제기됐다. 스캐터랩은 "연애의 과학이 개인정보의 수집·이용에 동의를 받는 방법은 실제로 국내외 서비스들이 채택하고 있는 동일한 방법으로, 내부적으로 법적으로 문제가 없을 것이라고 판단했다", "(제3자 정보동의 여부도) 대화 당사자 중 한 명이 개인정보 수집·이용에 동의해 자발적으로 업로드한 것이므로 내부적으로 문제가 없을 것으로 판단했다"고 했다. 개인정보취급 방침에 명시된 '자사의 신규 서비스'에 이루다 서비스가 포함된다고 생각했다고도 했다. 김보라미 변호사는 "서비스 준비 과정에서 민감한 개인정보취급 방침을 놓고 법률 자문을 받았다면 입장문에서 '생각했다'와 같은 표현이 나올 수 없다"고 말했다.
한편, 스캐터랩은 개인정보보호위원회와 한국인터넷진흥원(KISA)에서 관련 조사를 받고 있다. 방송통신위원회도 이날 문제가 발생한 AI 서비스의 책임 소재를 확실하게 할 법체계를 정비하겠다고 밝혔다.
배한님 기자 bhn@etomato.com