Science

헬스케어 치료를 유망하게 하는 빅데이터

장종엽엔에스 2015. 2. 2. 08:49

KISTI 미리안 글로벌동향브리핑 2015-02-02
비용을 빠르게 분석하고, 공공 행동을 이해하며, 보안 위험을 예측하는 등에 있어 빅데이터의 활용은 정부 기관의 흥미를 지속적으로 불러 일으키고 있다. 이러한 기술적 추세는 가장 민감한 문제에 대한 측정 가능한 통찰력을 제공해 줄 수 있다는 점에서 또한 많은 관심을 받고 있다.

근래 연구원들은 정부 헬스케어 기관에 대한 빅데이터의 활용을 개발하는데 보다 많은 노력을 하고 있다. 예를 들어 많은 데이터 과학자들은 질병에 대한 환자 위험 상태를 예측하거나 바이러스의 감염 경로를 예측하기 위한 신뢰성 있는 도구를 만드는데 많은 노력을 하고 있다.

어느 정도 건강 관리 프로그램은 빅데이터 투를 위한 분명한 목표를 가지고 있다. 기관들은 이미 질병, 환자 건강에 대한 정보를 수년 동안 대규모 데이터베이스를 가지고 구축하고 있다. 이를 통해 연구자, 의사, 간호사 등을 위한 보다 우수하고 생산적인 정보를 긴급하게 필요한 경우 제공하고 있다.

예를 들어 재향군인 건강 관리(VHA)는 650만 일차 진료 환자의 의료 서비스를 개선하는데 도움이 되는 몇 가지 빅데이터 분석 도구를 만들었다. VHA의 진료 평가 수요(CAN) 점수는 입원 및 사망의 가능성 측면에서 재향군인과 다른 사람들을 비교하는 예측 분석 도구다. 점수는 VHA 환자의 진료 평가 시스템(PACS)에 의해 분석되는데, 이러한 점수와 여타 데이터들은 환자 치료를 지원하는데 활용된다. 이러한 기술을 통해 많은 변화를 가져왔지만, 여전치 매우 초보적인 도구로 간주되고 있다. 그러나 CAN 점수와 PCAS는 빅데이터 예측 분석은 대규모 집단에도 활용될 수 있음을 보여주는 단편적인 예라 할 수 있다.

<빅데이터, 개방형 데이터>

빅데이터 도구는 또한 게놈 연구, 질병 감시, 역학 조사 등의 데이터를 창출하고 활용하기 위해 보건복지부에 의해 빠르게 개발되고 있다. 또한 기존에 보유하고 있던 데이터들을 활용하고자 하는 다양한 부처들의 노력이 지속되고 있다. 이러한 노력의 하나가 OpenFDA 프로젝트로, 집중적인 청결 과정을 통해 세 개의 대량의 식량 및 의약 관리 데이터 자료를 만들고 어플리케이션 프로그래밍 인터페이스를 추가하는 프로젝트이다. OpenFDA 또한 다른 데이터 소스와 연결되고, 사용자들은 국립보건원 등 관련된 정보에 액세스할 수 있게 된다. 2014년 6월에서 베타 프로그램으로 시작된 이 프로젝트는 이미 잠재적으로 많은 도움을 줄 수 있는 차별적인 응용프로그램들을 만들고 있다.

국립보건원은 자신의 BD2K(빅데이터로부터 지식을) 계획을 포함한 일련의 빅데이터 프로그램을 운영하고 있다. 2013년 시작된 이 프로그램은 유방암, 심장 질환과 같은 질환의 위험 조건을 예측하고, 보다 나은 치료를 위해 연구원들의 바이오의료 데이터 활용을 향상시키는 것을 목표로 하고 있다. BD2K의 목표는 ‘역동적인 바이오의료 데이터 과학생태계’의 개발을 지원하는 것이다. 여기에는 데이터세트 표준화, 결과 분석을 위한 도구 및 방법, 여타 지역에 저장된 데이터세트에 대한 액세스 및 협업, 빅데이터 기술에 대한 바이오의료 과학자들 교육 등이 포함된다.

2014년 10월 11개의 빅데이터 컴퓨팅 탁월성 센터를 만들기 위해 3천 2백만 달러의 보조금을 발표하였다. 이 센터는 데이터 검색 인덱스를 개발하고 데이터 과학 훈련 및 노동력 양성을 촉진하기 위한 방법을 개발하기 위한 컨소시엄이다. NIK는 이 프로젝트에 2020년까지 총 6억 5천6백만 달러를 투자할 예정이다.

<기본적인 과제들>

빅데이터를 헬스케어에 적용하는 데에는 많은 문제들을 안고 있다(기본 데이터 세트들을 통합하고 공유하는데 있어). 심지어 빅데이터라는 용어 사용 자체도 많은 혼란을 야기하고 있다. 기관간 빅데이터의 정의 및 형태가 상이하다. 예를 들어 한 기관의 데이터를 다른 기관의 데이터와 연계할 때 상이한 라벨이 사용되고 있음을 알 수 있다.

또다른 저해 요인은 데이터 분석 프로그램의 수요를 이해하고 이를 처리할 수 있는 데이터 과학자들의 부족이다. 이러한 전문가들이 IT 인력을 의미하는 것이 아님에도 불구하고, 모든 IT 인력들이 이를 차지하고 있다. 기술을 이해하는 것이 아니라 데이터를 이해하는 인력의 양성이 필요하다.

마지막으로 만약 데이터세트의 정보가 우선 정확하지 않다면, 빅데이터 분석의 활용 또한 제약적이게 된다. 데이터세트에 저장되는 정보가 우선 정확해야 하고, 이용할 수 있을 정도의 충분한 데이터를 보유하고 있어야 한다.