김 경 철강남메이저병원(구, 강남미즈메디) 경영원장, 국가생명윤리위원회 유전자 전문위원
지금은 바야흐로 빅데이터의 시대이다. 빅데이터 중에 가장 발전하고 있는 분야 중 하나가 보건의료 빅데이터이며 이 중 가장 큰 빅데이터는 유전체 데이터이다. 한 사람의 DNA를 구성하는 염기는 약 30억 쌍인데 이 염기 전체를 읽는 것을 홀게놈시퀀싱이라고 부른다. 정확도를 높이기 위해 최소 30번 정도 반복해서 시퀀싱을 하는데 이 과정에서 생기는 데이터의 양은 약 100 Gb 정도이다. 단백질을 전사하는 엑솜만 분석하는 엑솜시퀀싱의 경우 생성되는 양은 약 8Gb이다.
2003년 완성된 휴먼게놈프로젝트에서는 한 사람의 홀게놈시퀀싱을 분석하는데 걸린 시간이 무려 13년이 걸렸었고 그 비용은 3조원이 들었다. 이 당시는 생어시퀀싱이라는 방식으로 염기 하나 하나를 분석했기 때문에 그만큼 시간과 비용이 많이 든 것이다. 2008년에는 생어시퀀싱이 아닌, 차세대염기서열분석(Next-Generation Sequencing, NGS)가 등장하면서 홀게놈시퀀싱을 무려 6개월만에 약 10억 정도의 비용으로 분석을 하게 되었고 이 NGS는 발전을 거듭하면서 2019년 현재는 100만원 미만의 가격으로 2일 정도만에 분석이 가능하게 되었다. 옥스퍼드 나노포어라는 새로운 NGS는 무려 15분만에 시퀀싱을 하기도 하니, 더 이상 유전체 분석을 하는데는 시간과 비용은 문제가 아닌 시대가 된 것이다.
리서치 분야에서도 놀라운 데이터들을 쏟아 내고 있다. 2015년 네이쳐지에 따르면 리서치 연구에 1년 동안 전 세계적으로 약 2,600조원의 연구기금이 마련되었고, 무려 1.5조의 염기 데이터가 미국의 공인 데이터베이스에 축적되었다고 한다. 같은 기간 2,600만개의 연구 논문이 발표가 되었고 23만건의 임상연구가 수행되는 가히 메가트렌드의 분야가 유전체 분야인 것이다. 이 숫자는 매년 2배씩 증가하고 있으니 유전체 연구가 얼마나 광대하고 유전체 데이터가 얼마나 많이 쌓이고 있는지는 상상을 초월하는 것이다.
이런 광대한 규모의 데이터를 주도하는 것은 개인이나 연구소, 회사를 뛰어 넘어 국가 차원에서 경쟁을 하고 있다. 이 경쟁에서 가장 모범적인 국가는 영국이다. 영국은 이미 50만명의 건강한 사람을 대상으로 유전체, 라이프로그 등의 데이터를 체계적으로 모아 놓은 UK 바이오 뱅크를 전세계에 공개하고 모든 연구자들이 자유롭게 사용하도록 했다. 최근에는 지놈잉글랜드가 500만명 대상의 홀게놈 프로젝트 계획을 발표했다. 미국 또한 암환자 대상의 토탈오믹스 (유전체 뿐 아니라 전사체, 단백체, 후성유전체, 임상 정보 등)을 잘 갖추어 놓은 TCGA 데이터 등을 전세계에 공개해 놓았다. 우리나라도 지난 10여 년동안 꾸준히 유전체 데이터를 국가 차원에서 모아 놓았는데 대표적인 것이 한국인칩으로 약 20만 명의 유전체 데이터를 확보해서 작년부터 질병관리본부 홈페이지를 통해 데이터를 공개하여 연구자 누구나 사용할 수 있도록 해왔으며 문재인 정부들어 가장 큰 과학 국책 과제인 K-DNA 프로젝트를 통해 100만 명의 홀게놈 데이터를 생성하려고 하고 있다.
산업계에서는 홀게놈 시퀀싱을 분석한 인구수가 2017년 전세계적으로 약 200만 명에서 2025년 약 10억 명으로 크게 늘 것을 예상하고 있다. 즉 지금부터 불과 5년 뒤이면 전 세계의 1/6, 아마도 대한민국의 성인 대부분이 홀게놈 시퀀싱을 해 놓은 시대가 온다고 하면 이를 통한 의료, 산업의 변화는 대단 할 것으로 보인다. 구체적으로 이 게놈 분석이 의료와 일상을 어떻게 바꾸고 있는 지는 이어지는 칼럼에서 더 다루도록 할 것이다.
중요한 것은 가장 광범위하고 개인적인 고유 데이터인 이 유전체 데이터에 대한 이해 없이는 빅데이터 시대, AI 시대를 따라가기 힘들 것이므로, 대한민국의 의료계도 유전체에 대한 이해와 적용을 보다 적극적으로 받아들이고 빅데이터 중심의 미래의료를 선도해 가길 기대한다.