‘정보의 홍수’란 말처럼 세상엔 정말 많은 양의 정보가 존재합니다. 우리는 매일매일 쏟아지는 정보 속에서 자신에게 꼭 필요한 정보를 수집하기 위해 많은 시간을 투자하는데요. 누군가 내게 필요한 정보를 빠르게 수집, 우선순위를 매겨준다면 얼마나 좋을까요? 만약 데이터를 사용하기 쉽게 분류하고 정보를 빠르게 분석해주는 사람이 있다면 대학생의 과제도, 직장인의 업무도 조금 더 편해질 텐데요.
여기, 정보에 늪에 빠져 혼란을 겪고 있는 이들을 구출해줄 기술이 있습니다. ‘데이터 정렬(data sorting)’ 기술은 자료 분석의 근간이 되는 기술로 컴퓨터 응용 분야에서 많이 사용되고 있는데요. 간략히 말해 효과적인 정렬 알고리즘을 개발해 데이터를 빠르게 분류해두어 데이터 프로세싱에 들어가는 시간과 비용을 절약하는 방법이죠.
최근 삼성전자는 종합적인 인터넷 데이터 처리 성능을 겨루는 미국 ‘소트 벤치마크(Sort Benchmark)’ 대회에서 기존 기록을 월등히 뛰어넘으며 ‘미닛(Minute)’ 부문 우승을 차지했는데요. 미닛 부문은 1분 안에 누가 더 많은 데이터를 분석, 배열하는지를 겨루는 종목입니다.
이번 수상으로 삼성전자는 소프트웨어 기술력을 세계에 입증했는데요. 이주한 삼성전자 소프트웨어센터 인텔리전스 소프트웨어 솔루션팀(인텔리전스 플랫폼 랩) 상무를 만나 이번에 선보인 혁신적 데이터 정렬 기술이 우리 삶에 어떤 변화를 가져올지 들어봤습니다.
필요한 데이터만 쏙쏙 분류해주는 ‘데이터 정렬’ 기술
일반인들에게 데이터 정렬 기술은 생소하게 느껴집니다. 하지만 알고 보면 데이터 정렬 기술은 우리 생활 속 가까운 곳에 있는데요. 매일매일 사용하는 인터넷 검색엔진을 비롯해 최근 파란을 일으키고 있는 신개념 음악 스트리밍 서비스 밀크까지, 오히려 데이터 정렬 기술이 사용되지 않는 곳이 거의 없습니다.
쉽게 말해, 데이터 정렬 기술은 자신에게 필요한 데이터를 빠르게 분류, 정리해 가치 있는 정보를 만들어 주는 기술인데요. 검색, 콘텐츠 추천을 포함한 대부분의 서비스가 수많은 데이터를 수집, 분석해 사용자에게 가치 있는 정보를 제공하는 것이기 때문에 데이터 정렬 기술은 모든 서비스의 기본이라고 말할 수 있죠.
또 데이터 정렬 기술은 데이터 발굴(data mining), 빅데이터 공정(big data processing), 기계학습(machine learning) 등 데이터를 처리하는 모든 활동에 바탕이 되는데요. 아직 데이터 정렬 기술이 피부에 와 닿지 않는 분들을 위해 하나의 예를 들어보겠습니다.
갤럭시 스마트폰 사용자라면 한 번쯤 사용해봤음 직한 밀크 뮤직. 이 서비스는 사용자의 음악 취향을 파악해 사용자가 좋아할 만한 음악을 선곡, 재생하는 신개념 음악 스트리밍 서비스입니다. 많은 분들이 어떻게 밀크 뮤직이 짧은 시간에 사용자의 음악 취향을 파악해 선곡을 제안하는지 궁금하셨을 텐데요. 이것은 모두 데이터를 빠르게 분류해 가치 있는 정보를 제공하는 데이터 정렬 기술 덕분입니다.
특정 정보를 얻기 위해선 흩어져 있는 데이터를 수집하고 이동시키면서 데이터를 분류, 정렬해야 하는데요. 밀크 뮤직은 개인의 음악 취향을 바탕으로 이뤄지는 서비스이므로 가장 먼저 흩어진 데이터 속에서 전 세계 사용자의 음악 취향과 관련된 데이터를 찾는 것이 중요합니다.
그다음엔 현재 사용자가 재생하고 있는 음악이나 해당 아티스트의 음악을 들은 경험이 있는 사용자들의 데이터를 따로 분류, 음악 장르, 선호 앨범 등 그들의 공통분모를 찾아야 하는데요. 공통분모가 모아졌으면 음악 재생 빈도 같은 일정한 기준에 따라 플레이리스트를 차례대로 정렬하면 됩니다.
이렇게 특정 정보를 얻기 위해 데이터를 효과적으로 분류, 이동시키는 과정이 바로 데이터 정렬인데요. 결국 각 공통분모별로 수집된 데이터가 사용자의 음악 취향 정보가 되고 밀크 뮤직은 이 정보를 토대로 사용자에게 빠르게 음악을 선곡해주는 셈이죠.
문자상으로 보면, 엄청 장황한 과정인 것처럼 보이는데요. 실제로 밀크 뮤직 서비스에선 이 같은 과정이 눈 깜짝할 새에 일어납니다. 심지어 삼성전자가 소트 벤치마크 대회에서 선보인 ‘딥 소트’ 기술을 이용하면 더 짧은 시간에 많은 양의 데이터를 분석할 수도 있습니다.
1분 안에 3.7TB 데이터 분석이 가능해?
소트 벤치마크 대회에서 삼성전자는 1분에 1.5TB 데이터 분석이라는 기존 기록을 두 배 이상 경신하고 같은 시간에 3.7TB 데이터 분석을 이뤄냈습니다. 매년 데이터 분석 시간 대비 데이터 분석 양은 늘어나고 있지만, 이번처럼 획기적인 데이터양 증진은 이례적인 일이라고 하는데요.
이주한 상무는 “384대의 서버와 독자적인 시스템 구성, 전용 분석 엔진 등이 데이터 분석 시간을 줄이는 데 주요했다”고 밝혔습니다. 특히, 신개념 분석 엔진인 딥 소트가 있어 이 같은 혁신이 가능했는데요.
삼성전자는 데이터 처리효율과 대용량 자료 처리를 위한 자원 운용 능력을 획기적으로 개선하고 이에 최적화된 네트워크를 구축함으로써 딥 소트 기술을 구현해냈습니다.
초고도화된 정렬 기술을 뜻하는 딥 소트 기술은 데이터 연산·통신이동이 서로 겹쳐지며 수행되는 것이 특징인데요. 삼성전자는 다른 데이터 정렬 기술 대비 데이터 분석 알고리즘과 네트워크, 서버 사이 최적의 균형을 이뤄 데이터 분석 효율을 높였습니다. 특히, 이번 우승은 대회를 위해 별도의 최신 시스템을 구성하기보다는, 실제 사용 환경과 가격 효율성까지 염두에 두고 하드디스크 드라이브(HDD)를 사용하는 일반적인 서버 384대만을 활용해 거둔 성과라는 게 고무적입니다.
이로써 딥 소트 기술은 적은 양의 저가 서버로 효과적인 데이터 분석을 할 수 있게 만들었는데요. 이주한 상무는 “현재의 딥 소트 기술을 이용하면, 최대 1000대까지는 큰 손실 없이 서버 수에 비례해 데이터 처리 효율을 높일 수 있다”고 말했습니다.
데이터 정렬에 혁신을 이뤄낸 딥 소트 기술은 삼성전자 본사 소프트웨어센터와 미국 실리콘밸리에 위치한 삼성전자 미국 연구소(Samsung Research America)의 협력을 통해 개발됐습니다. 소프트웨어센터에선 네트워크 최적화를, 삼성전자 미국 연구소에선 데이터 정렬 기술을 각각 전담했는데요. 이번 대회에 참가하기 위해선 두 부서의 유기적으로 협력했습니다.
이주한 상무는 삼성전자 소프트웨어센터와 삼성전자 미국 연구소에서 각기 다른 직함을 동시에 맡고 있습니다. 그는 협력이 필요한 두 부서를 관장하며 높은 시너지 효과를 창출하고 있는데요.
이주한 상무는 “소비자에게 더 나은 서비스를 제공하는 기존의 데이터 분석 업무를 소홀히 할 순 없었다. 기존 업무에 대회 준비까지 오히려 일은 늘어난 셈이었지만, 유관 부서들의 협력과 효율적일 일정관리를 통해 두 마리 토끼를 다 잡을 수 있었다”며 대회 준비 일화를 들려줬습니다. 이처럼 유관 부서의 협조가 있었기에 삼성전자는 대회 수상의 영광을 안을 수 있었습니다.
딥 소트 기술과 함께 그리는 미래
정확하고 빠른 데이터 분석이 가능한 딥 소트 기술은 빅데이터, 클라우드컴퓨팅 등 차세대 인터넷 서비스에 특히 유용한데요. 미래를 이끌어갈 원동력으로 소프트웨어 기술이 주목받고 있어 삼성전자의 딥 소트 개발은 더 큰 의미를 갖고 있습니다.
현재 딥 소트 개발은 완성 단계에 있으며, 추후 많은 삼성전자 서비스에 적용될 것이라고 하는데요. 짧은 시간 내에 더 많은 데이터를 분석할 수 있어 소프트웨어 서비스 사용자의 효용은 더욱 높아질 것입니다. 최근 IT 업계의 화두가 되고 있는 ‘사물인터넷’이나 ‘스마트홈’에도 딥 소트 기술은 지대한 영향을 끼칠 것으로 예상됩니다.
이번 소트 벤치마크 대회 수상으로 삼성전자는 소프트웨어 역량을 세계에 선보였습니다. 삼성전자는 미래 경쟁력인 소프트웨어 역량을 향상시키고, 삼성전자의 뛰어난 하드웨어 기기와 조화를 이룰 수 있도록 지속적으로 소프트웨어 역량을 발전시키고 있습니다. 사용자들에게 높은 성능의 기기를 제공할 뿐 아니라, 꼭 필요한 최상의 서비스를 제공하고자 하기 위해서인데요. 내년 소트 벤치마크 대회에선 발전된 소프트웨어 기술을 바탕으로 더 많은 종목에서의 활약을 기대해 봅니다.
출처 : https://news.samsung.com/kr/%EC%82%AC%EC%9A%A9%EC%9E%90%EC%97%90%EA%B2%8C-%EA%B0%80%EC%B9%98%EB%A5%BC-%EC%84%A0%EB%AC%BC%ED%95%98%EB%8B%A4-%EB%94%A5-%EC%86%8C%ED%8A%B8-%EA%B8%B0%EC%88%A0%EC%9D%B4-%EA%B7%B8
'AI > 딥러닝' 카테고리의 다른 글
딥러닝 객체 검출 용어 정리 Deep learning Object detection terminology (0) | 2021.03.25 |
---|---|
1. 딥러닝 영상분석 3총사를 구분하시나요 (0) | 2021.03.25 |
인공지능의 이미지 분류 방식 (0) | 2021.03.25 |
레이블링 (labeling) 의 종류 (0) | 2021.03.25 |
칼만 필터 기반 객체 추적 시스템 (0) | 2021.03.24 |
댓글