http://mirian.kisti.re.kr/futuremonitor/view.jsp?record_no=253765&cont_cd=GT | |
---|---|
KISTI 미리안 『글로벌동향브리핑』 2014-12-09 |
|
컴퓨터는 거대한 데이터 셋에 있는 패턴을 인지하는데 능숙하다. 그러나 사람들은 몇 가지 사례를 통해서 패턴을 인지하는 것이 더 빠르다. 다음 주에 열리는 신경정보처리학회의 컨퍼런스에서 MIT 연구원들은 이러한 두 가지 정보처리 방법을 연결시킬 수 있는 새로운 시스템을 선보이게 될 것이다. 그래서 사람과 컴퓨터가 더 좋은 의사결정을 만들기 위해서 협력할 수 있게 해줄 것이다. 이 시스템은 데이터를 처리함으로써 결정을 내리도록 배우고 있지만, 간단한 사례를 배우도록 만들어지고 있다. 실험에 참가하고 있는 시스템을 사용한 참가자들은 기존의 알고리즘에 기반한 유사한 시스템을 사용하는 것보다 분류 작업에서 20% 정도 더 향상된 결과를 보여주었다. “이러한 연구에서 우리는 기계 학습 기술을 증강시킬 수 있다는 것을 예상할 수 있기 때문에 사람들이 인식을 촉발하는 의사결정을 실행할 수 있도록 지지해주게 될 것이다. 이것은 소방관이나 현장 작업자들과 같은 사람들이 전략적인 결정을 내려야 될 때 의사결정을 하는 것의 한 종류이다. 그들이 새로운 시나리오를 보게 될 때, 기계가 하는 것처럼 방법을 검색할 수 없다. 그들은 이전의 경험으로부터 현재 겪고 있는 상황을 연결시키려고 한다. 그래서 그들은 이전에 겪었던 일로부터 새로운 시나리오를 떠올려서 적용하게 되는 것”이라고 MIT 항공학 및 우주항행학과의 Julie Shah가 말했다. 그녀는 이 논문의 공동저자이다. 특히 Shah와 그녀의 동료인 박사과정 학생 Been Kim, MIT 슬로언경영대학원(Sloan School of Management)의 Cynthia Rudin 교수는 자율적인 것으로 알려진 기계학습 종류를 증강시키기 위해서 노력하고 있다. 관리를 받는 기계 학습에서 컴퓨터는 사람에 의해서 라벨링되고 있는 많은 훈련 데이터가 입력되며, 상관 관계를 찾기 위해 노력하고 있다. 즉, 이러한 시각적인 특징들은 자동차의 영상에서 가장 자주 떠올려지는 것들이다. 그러나 자율적인 기계 학습에서 컴퓨터는 구조화되지 않은 데이터 내에서 단순히 공통점을 찾게 된다. 이 결과는 그것에 속한 멤버들이 어느 정도 연관되어 있는 데이터 클러스터 셋이지만 확실한 것은 아니다. 자율화된 기계 학습의 가장 일반적인 사례는 토픽 모델링이라는 것으로서 시스템은 가장 특징적인 단어에 따라서 문서들을 모으게 된다. 데이터가 분류되어있지 않기 때문에 시스템은 문서들의 주제를 실제로 추정할 수 없다. 그러나 예를 들어, 결과를 검토한 사람은 법학과 항소라는 단어에 의해서 분류된 문서들이 법률적인 문서라고 결론을 내리게 되며, 음악의 조성과 화음으로 분류된 것들은 음악 이론 논문이라고 결론내게 된다. MIT 연구원들은 자율적인 학습에서 일반적으로 사용되고 있는 알고리즘에 대하여 두 가지 주요한 수정안을 만들었다. 첫 번째로 클러스터링은 데이터 아이템의 공유된 특징뿐만 아니라, 몇 가지 대표적인 사례의 유사성에 기반한다는 것으로서 연구원들은 이것은 프로토타입(prototype)이라고 부르고 있다. 두 번째로, 중요도에 따라서 단순하게 순위를 매기는 공유된 특징이 아니라 대표적인 셋트에 따라서 특징 목록을 가려내는 새로운 알고리즘으로서 연구원들은 이것을 단위분야(subspace)라고 부르고 있다. 이 알고리즘은 단위분야가 너무 커지게 되면 패널티를 부과하게 된다. 그래서 데이터 클러스터를 만들게 될 때, 프로토타입에 대한 유사성, 단위분야 크기 및 클러스터 간의 확실한 구분이라는 세 가지 경쟁적인 목표에 균형을 맞추어야만 한다. “좋은 단위 분야를 나타내기 위해서 좋은 프로토타입을 선택해야만 한다. 동시에 프로토타입이 이해될 수 있는 좋은 단위 분야를 선택해야만 한다. 그래서 이러한 것들이 동시에 발생되어야 하는 것”이라고 Kim이 설명했다. 연구원들이 실행한 첫 번째 단계는 몇 가지의 고전적인 기계 학습 작업에서 그들이 개발한 새로운 알고리즘을 테스트한 것으로서 추가된 제한사항이 그들의 성능을 악화시키지 않았다는 것을 확인하도록 하였다. 그들은 대부분의 작업에서 선도적인 것으로서 잘 실행되어졌다는 것을 알게 되었다. Shah는 프로토타입 제한사항은 알고리즘이 내부적인 모순을 포함하는 특징 목록들을 모을 수 없도록 막는 이유가 된다고 믿고 있다. 예를 들어, 자율화된 학습 알고리즘이 인구에 대한 투표자들을 특성화하려고 가정할 수 있다. 많은 투표자들은 민주당원으로서 제한될 수 있지만, 많은 공화당원들이 지난주에 투표를 할 수 있다. 기존의 알고리즘은 일반적인 투표자를 지난 공화당 선거에 투표했던 등록된 민주당원으로서 설명할 수 있다. 이 프로토타입의 제한 사항은 이러한 결과가 일어날 가능성이 없도록 만들었다. 왜냐하면 단일 투표자만이 이러한 특징과 일치되기 때문이다. 다음으로 연구원들은 프로토타입 기반의 기계학습이 실제적으로 사람들의 의사결정을 향상시킬 수 있는지를 결정할 수 있는 실험을 실행하였다. Kim은 칠리, 파스타 및 브라우니와 같이 이미 정해진 목록 안에 있는 온라인 데이터베이스로부터 레시피를 선택하였으며, 재료 목록에 따라서 구분하였다. 그녀는 기존의 토픽 모델링 알고리즘과 새로운 프로토타입 제한 알고리즘 모두에 대한 리스트를 입력하였다. 각각의 카테고리를 위해 새로운 알고리즘은 대표적인 사례를 발견하였지만, 기존의 알고리즘은 일반적으로 사용되는 재료 목록을 만들어냈다. 24가지 주제들은 각각의 16가지 새로운 재료에 의해서 만들어지게 되었다. 몇 가지 목록들은 새로운 알고리즘에 의해서 만들어졌으며, 몇 가지는 기존의 알고리즘에 의해서 만들어졌고 무작위로 할당된 것들이었다. 새로운 알고리즘에 의해서 만들어진 리스트를 가지고 실험 주제들은 주어진 시간의 86% 안에 성공적으로 완성하였다. 그리고 기존의 알고리즘에 의해서 만들어진 리스트를 가지고 그들은 주어진 시간의 71% 안에 성공적으로 완성하였다. “기계 학습이 사용자들과 적절하게 인터페이스하도록 모델링한다는 것은 매우 좋은 아이디어라고 나는 생각한다”고 코넬대학교 컴퓨터과학과의 Ashutosh Saxena 교수가 말했다. Saxena는 로보 브레인(Robo Brain)이라는 연구프로젝트를 이끌고 있다. 이 프로젝트는 인터넷을 검색하기 위해서 기계 학습을 사용하며, 로봇이 주변 환경을 돌아다니는데 필요한 일반적인 연관성 종류를 모델링하는 것이다. “로보 브레인에서 기계 학습 알고리즘은 어떤 것들을 학습시키려는 것이지만, 적절하게 작업을 수행할 수 없다. 그래서 학습이 향상되었다는 몇 가지의 피드백을 사용자들로부터 받는 것이 필요하다. 우리는 로보 브레인 프로젝트의 결과를 사용자들에게 보여주기 위해서 이러한 몇 가지의 기술을 사용하는데 많은 관심을 가지고 있다”고 Saxena가 말했다. |
'Science' 카테고리의 다른 글
中, Fuqing 1호기 상업운전 돌입 준비 완료 (0) | 2014.12.09 |
---|---|
매우 얇은 나노실을 형성하는 가장 작은 다이아몬드 (0) | 2014.12.09 |
자철광(녹)에 대한 새로운 진실 (0) | 2014.12.09 |
로터 블레이드를 위한 스마트 얼음제거 시스템 (0) | 2014.12.09 |
양자 트랜지스터 개발을 가능하게 할 물질 특성 발견 (0) | 2014.12.09 |