“빅데이터 덕분에 코로나19 피해 줄였다”

보일스님
보일스님

➲ 코로나19와 빅데이터

‘데이터가 우리를 살렸다.’ 무슨 소리냐고? 현재 전 세계적인 대유행 병인 ‘신종 코로나바이러스 감염증(코로나19)’ 이야기이다. 처음에는 이웃 나라 특정 지역에 심각한 전염병이 발생했다는 정도로 생각하다가 어느새 전 세계적인 유행병으로 변해갔다. 많은 사람이 죽거나 죽어가고 있고 그 고통은 진행 중이다. 이 ‘코로나바이러스 감염증’이 언제까지 그리고 어디까지 퍼져나갈지 아무도 모른다. 단지 예측할 뿐이다.

우리나라의 경우, 그나마 사태 발생 초기에 전파 위험성이 심상치 않음을 감지하고 진단 시약 개발을 서둘렀다. 지난 ‘메르스 전염병’ 발생 당시 신속하게 대응하지 못하고 관련 규제법에 묶여 진단키트 개발이 늦어지면서 통제에 실패한 사례가 교훈이 되었다.

우리나라의 분자 진단 전문 바이오 기업들은 정부의 긴급 사용승인을 받고 단 3주 만에 초고속으로 진단 키트를 생산해내고 바로 현장에서 ‘코로나바이러스 감염증’ 진단이 진행될 수 있었다. 현재 8000명이 넘는 확진자와 사망자 104명이 발생했다.(3월23일 오전 기준) 이 피해도 엄청난 숫자라고 할 수 있지만, 이탈리아나 유럽의 경우와 비교해 보면 상대적으로 피해가 덜한 편이다. 

그 원인으로 여러 가지를 들 수 있다. 우선 효율적인 방역체계, 국민들의 자발적 ‘사회적 거리두기’ 운동 참여, 현재 나름 호평을 받고 있는 공격적이고 전 방위적인 진단 검사 등등을 꼽고 있다. 이 중에서 무엇보다도 광범위하고 정확한 진단검사를 가능하게 한 진단키트의 개발을 들 수 있다. 하루에 1만명 이상이 진단을 받을 수 있었다. 

외신들은 궁금해 한다. 한국의 생명공학 회사들은 어떻게 그 짧은 시간에 이렇게 정확도가 높은 진단키트를 개발할 수 있었을까. 바로 인공지능 ‘빅데이터’ 덕분이다. 이 기업들은 인공지능 기반 ‘빅데이터’ 시스템을 보유하고 있는 공통점이 있다.

만약 빅데이터 시스템이 없었다면, 진단 키트를 생산하는데 2~3개월 이상이 걸렸겠지만, 방대하고 다양한 데이터를 가지고 테스트를 설계할 수 있었기 때문에 조기에 개발을 완료했다. 이들은 ‘코로나바이러스 감염증’의 샘플 없이도 사전에 공개된 유전자 데이터 정보만을 사용하여 테스트를 설계할 수 있었던 것이다. 한 마디로 ‘빅데이터’가 더 이상의 피해확산을 막아낸 것이다.

앞으로 코로나바이러스 감염증 환자에 대한 임상데이터가 축적될수록 더욱 정확하고 신속한 진단과 치료가 가능해질 것이다. 현재 세계보건기구를 비롯한 여러 국가들로부터 우리나라의 코로나바이러스 감염증 대응에 대한 찬사가 이어지는 이유 중의 하나도 바로 이 진단과 임상과정에서 축적된 객관적인 투명한 데이터 관리에 주목하기 때문이다.

사실 제4차 산업혁명을 지금까지 소개하면서, 다양한 형태의 혁신기술가 갖는 의미에 대해 이야기하면서 항상 빠지지 않고 등장하는 단어가 바로 이 ‘데이터’였다. 그 만큼 4차 산업혁명 시대에 데이터가 중요하다는 의미일 것이다. 마치 인체에서 혈관을 타고 흐르는 혈액처럼 혁신기술을 운용하고 작동하게 만드는 핵심 역량은 이 데이터에 기반하고 있다. 

➲ 빅데이터의 ‘빅뱅’ 시대 

구글, 아마존, 페이스북, 마이크로 소프트, 테슬라, 텐센트, 알리바바, 바이두, 등등의 공통점은 무엇일까. 바로 데이터 기업이라는 점이다. 이 회사들은 전 세계를 고객으로 삼아 데이터 사업을 하는 것이다. 한 마디로 데이터 장사라고 해도 과언이 아니다. 이들 기업은 인공지능을 활용하여 고객의 모든 관심을 데이터화해서 통계를 내고 미래를 예측한다.

제4차 산업혁명은 현실 물리세계의 모든 정보가 디지털 데이터화되면서 인터넷 공간 즉 디지털 세계의 정보량이 현실 세계의 정보량과 대등해지나 넘어서는 변화가 일어나는 것이다. 모든 존재하는 것들이 디지털 정보로 변환될 수 있게 된다. 그 정보들이 바로 데이터가 되는 것이다.

문제는 데이터가 많아져도 너무 많아지고 있다는 것이다. 그것도 갑작스럽게 말이다. 거의 기하급수적인 수준의 증가세이다. 지난 2010년 당시, <이코노미스트>에 따르면, 디지털 데이터의 양이 5년마다 10배씩 증가하고 있다고 조사했다. 그로부터 10년이 지난 현재, 뒤돌아보면 그야말로 ‘데이터 빅뱅(Data Big Bang)’이라고 할 만큼, 엄청난 데이터 대폭발이 일어났다. 컴퓨팅 능력이 향상되고, ‘딥 러닝’으로 대표되는 인공지능 기술의 혁신과 맞물려 벌어진 현상이다.

10년 전만 해도 막연히 예측은 했으나, 이 정도 수준의 가파른 증가는 상상하지 못했다. 예를 들어보자면, 대표적인 사회관계망 서비스 중 하나인 페이스북의 경우, 2019년 집계한 바로는, 사용자가 전 세계적으로 24억 명에 이른다. 이 비현실적인 수의 가입자들이 하루에 올린 사진은 3억 개에 이르고, 매 1분 동안 약 30만개의 포스팅과 51만 개의 댓글들이 올라온다고 한다.

이뿐만이 아니다. 요즈음 강력하게 떠오른 인터넷 플랫폼인 유튜브만 하더라도 매달 전 세계 19억 명이 이용하고 있고, 1분당 400시간 분량이 동영상이 유튜브에 올라온다. 

현재의 인공지능 ‘머신러닝’ 기술은 인간이 직접 일일이 알고리듬을 프로그래밍하는 것이 아니라 인공신경망이 그 작업을 대신하면서 인공지능 스스로 알고리듬을 만들어낸다. 끊임없이 입력되는 방대한 데이터를 수집하고 분류하고 처리하면서 스스로 훈련을 거듭하면서 학습한다. 이 과정에서 인간이 개입 없이도 인공지능은 ‘딥 러닝’ 기술을 이용해 이 데이터를 학습하고 결과를 만들어 낼 수 있다.

현재도 이 ‘딥 러닝’ 기술은 가히 파괴적 혁신 수준의 발전을 거듭하고 있다. 데이터가 많아질수록 인공지능은 똑똑해 질 수 밖에 없기 때문이다. 이전에 없던 인공지능 기술인 이 ‘딥 러닝’이 급성장하게 된 이유가 바로 이 데이터 기술의 발전에 있다. 한 마디로 ‘딥 러닝’이 인공지능을 작동시키는 엔진이라면 데이터는 그 엔진을 돌아가게 하는 연료라고 할 수 있다. 
 

2010년 당시 ‘이코노미스트’에 따르면, 디지털 데이터의 양이 5년마다 10배씩 증가하고 있다고 조사했다. 그로부터 10년이 지난 현재, 뒤돌아보면 그야말로 ‘데이터 빅뱅(Data Big Bang)’이라고 할 만큼, 엄청난 데이터 대폭발이 일어났다. 컴퓨팅 능력이 향상되고, ‘딥 러닝’으로 대표되는 인공지능 기술의 혁신과 맞물려 벌어진 현상이다. 출처=www.shutterstock.com
2010년 당시 ‘이코노미스트’에 따르면, 디지털 데이터의 양이 5년마다 10배씩 증가하고 있다고 조사했다. 그로부터 10년이 지난 현재, 뒤돌아보면 그야말로 ‘데이터 빅뱅(Data Big Bang)’이라고 할 만큼, 엄청난 데이터 대폭발이 일어났다. 컴퓨팅 능력이 향상되고, ‘딥 러닝’으로 대표되는 인공지능 기술의 혁신과 맞물려 벌어진 현상이다. 출처=www.shutterstock.com

➲ 양과 속도 그리고 다양성

그럼 이 ‘빅데이터’란 무엇일까. ‘빅데이터(Big Data)’는 정형의 데이터베이스와 데이터베이스 형식이 아닌 비정형 데이터를 포함한 대량의 데이터에서 가치를 추출하고 결과를 분석하는 기술을 말한다. 다양한 종류의 대규모 데이터의 집합에 대한 생성과 수집, 분석, 표현이 ‘빅데이터’ 기술을 통해 가능해진다.

‘빅데이터’를 통해 모든 사물과 현상에 대해 정확하게 분석하고 예측할 수 있게 된다. 이 기술은 정치, 경제, 사회, 문화, 군사, 예술, 스포츠 등 거의 모든 분야에서 가치 있는 정보를 제공할 수 있기 때문에 현재 더욱 주목받고 있다.

빅데이터는 일반적으로 ‘3V’로 특징지어진다. 공교롭게도 공통적인 세 가지 특징의 영문 이니셜이 ‘V’로 시작하기 때문이다. 그 세 가지는 데이터의 양(Volume), 데이터 입출력의 속도(Velocity), 데이터 종류의 다양성(Variety)을 들 수 있다.

‘빅데이터’란 이름에 이미 드러나 있듯이 일단 데이터의 크기가 어마어마하다. 통상 수십 테라바이트 혹은 수십 페타바이트 이상 규모이다. 참고로 1테라바이트는 1000기가이다. 즉 1조 바이트이다. 쉽게 말하자면, 인터넷에서 영화 한 편을 다운로드 받을 때 그 용량이 1기가라고 한다면, 영화 1000편을 저장할 수 있는 크기이다.

다음은 속도가 관건이다. 이처럼 방대한 크기의 데이터를 실시간으로 저장, 유통, 수집, 분석처리가 이루어질 수 있을 정도의 속성을 가져야 한다. 최근 5G 기술의 상용화로 더욱 혁신적인 속도 증가를 가져오고 있다.

그리고 마지막으로 다양성은 다양한 종류의 데이터를 모두 다룰 수 있어야 한다는 의미인데, 정형, 비정형, 반정형 데이터로 분류한다. 최근에는 이상 세 가지로 빅데이터를 설명하는 방식에서 한 걸음 더 나아가 정확성(Veracity), 가변성(Variability), 시각화(Visualization)라는 새로운 속성을 추가하기도 한다. 

➲ ‘구글’은 내 취향을 알고 있다

나보다 나를 더 잘 이해하고 있는 존재가 있다면 어떨까. 그럼 아마 사랑에 빠지거나, 소름이 끼쳐서 도망치려 하거나 둘 중 하나일 것이다. 그런데 과장을 좀 한다면, 마치 신처럼 세상 모든 일을 다 아는 전지전능한 존재가 출현하고 있다. 속칭 ‘구글 신(神)’이라고도 한다. 아마 다들 짐작하셨으리라. 인터넷 검색 전문기업인 ‘구글’ 이야기이다.

구글은 최근 몇 년 동안 인공지능 분야에 사운을 걸었다고 해도 과언이 아닐 정도이다. 구글을 달리 표현하면, 그 자체로 ‘빅데이터 플랫폼(Platform)’이다. 여기서 플랫폼이란, 빅데이터 기술의 집합체이자 이 기술을 잘 사용할 수 있도록 준비된 환경을 말한다. 플랫폼은 이 데이터들을 한곳에 모으는 역할을 한다. 마치 산속에서 짐승들을 잡기 위한 덫을 쳐 놓았을 때 다양한 동물들이 제 발로 걸어 들어와서 포획되는 것과 유사하다.

사람들은 구글에 회원가입하면서 메일이나 달력 또는 일정관리를 이용하기 위해 기꺼이 개인정보를 제공한다. 그리고 각자 궁금해 하는 정보를 얻기 위해 끊임없이 검색어를 입력하고, 클릭하고, 댓글을 단다. 이 모든 행위가 데이터가 되어 구글의 인공지능 ‘빅데이터’에 차곡차곡 쌓이게 된다.

어쩌면 사람들은 대가도 없이 구글이라는 회사를 위해 봉사하고 있는 것과도 같다. 구글은 ’빅데이터‘를 구축할 수 있게 만드는 거대 플랫폼이 된다. 한 마디로 가만히 있어도 데이터가 쏟아져 들어오는 것이다. 이용자들이 데이터 제공자가 되기 때문이다.

어디 구글 뿐이겠는가. 요즘에 많이 알려져 있는 미디어 스트리밍 서비스인 넷플○스를 보자. 전 세계에 걸쳐서 다양한 콘텐츠를 보여주고, 다양한 국가, 인종, 연령, 성별대로 선호하는 영상물에 대한 방대한 데이터를 축적하고 있다. 이 회사는 이용자의 취향 데이터를 확보하고 알고리즘을 통해 그 이용자가 향후 좋아할 만한 영상물을 예측한다. 그리고 선호도에 따라 직접 이용자들이 좋아할 만한 영화나 드라마의 제작에 투자를 통해 직접 개입하기도 한다.

우리가 영화나 드라마를 선택해서 볼 때마다 부지불식간에 데이터를 넷플○스에 제공하는 것이다. 이 모든 것들을 가능하게 하는 것이 바로 데이터이다. 이제 우리가 빅데이터를 이해하고 접근하는 방식이 앞으로 우리가 삶의 방식과 내용을 규정하게 될 것이다. 

[불교신문3569호/2020년3월28일자]

저작권자 © 불교신문 무단전재 및 재배포 금지
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음