※본 글은 2020년도에 업로드한 게시글을 홈페이지 개편으로 인해 재업로드한 콘텐츠입니다. 참고 부탁드립니다.
데이터 웨어하우스와의 결합, 빠르게 진행 중…대량의 데이터를 실시간으로 처리
데이터 관리와 분석 그 자체가 목적이 아냐…종합적인 조직 경쟁력 강화를 고민해야
데이터 레이크 플랫폼을 사용하면 어마어마한 양의 데이터를 저장하고 분석할 수 있게 됩니다. 따라서 올바른 결정을 제 때 내리는 데 큰 도움이 됩니다. 데이터 분석 기술을 활용해 사업을 펼치는 조직들이라면 시장 분석, 효율성 극대화, 미래 예측, 리스크 평가, 사기 탐지 등에 데이터 레이크 기술을 활용할 수 있다는 것을 이미 잘 알고 있을 것입니다.
수많은 기업들이 진행하고 있는 디지털 변혁과 매우 깊은 연관이 있고, 이 신기술 혹은 신개념은 지금 이 순간에도 극적으로 변화하고 있습니다. 성공 사례만 있다고 말할 수는 없지만, 모든 많은 조직들이 디지털 레이크에 대한 감을 서서히 잡아가고 있는 것처럼 보입니다. 그러면서 나타나는 흐름을 알아보겠습니다.
1. 레이크하우스(lakehouse)가 뜨고 있다
현 시점에서 가장 분명하다고 할 수 있는 현상은 ‘데이터 레이크’와 ‘데이터 웨어하우스’라는 개념이 합쳐지고 있다는 것입니다. 그래서 탄생한 신조어가 ‘레이크하우스’입니다. 데이터 웨어하우스를 분석 데이터베이스 위에 구축함으로써 기업이 사업 진행에 따라 클라우드를 기반으로 한 데이터 레이크를 확장 및 활용할 수 있게 해주는 것을 말합니다. 즉 기본적으로 데이터 웨어하우스를 클라우드 스토리지와 결합시키는 것을 의미한다고 간단하게 말할 수 있습니다. 데이터 과학자들이 활용할 데이터가 양적인 측면에서 대폭 늘어날 뿐만 아니라, 데이터의 활용이 더 편리해진다는 뜻이 됩니다.
2. 센서 기반 시계열 데이터와 에지 인공지능의 폭발적 증가
5G망을 통해 사물인터넷 장비를 활용하는 사례가 늘어나면서 기업들이 다뤄야 할 데이터의 양이 계속해서 증가하고 있습니다. 특히 사물인터넷 장비들에 부착된 각종 센서들로부터 생성되는 정보들이 빠르게 늘어나는 중인데, 이 정보들 대부분이 ‘시계열 데이터(time-series data)’로 분류됩니다. 규칙적이되 짧은 주기로 측정되는 데이터들로, 시간이 지남에 따라 시스템과 프로세스, 행동 패턴 등이 어떻게 변하는지를 나타냅니다.
내장형 데이터베이스 혹은 임베디드 데이터베이스(embedded database)는 소프트웨어 내에 구축되는 것으로, 최종 사용자에게 투명하게 제공되며 지속적인 유지 관리를 거의 필요로 하지 않습니다. 모바일 애플리케이션과 사물인터넷 장비들이 증가하면서 임베디드 데이터베이스도 빠르게 보편화 되고 있으며, 수많은 장비들이 독자적인 데이터베이스 관리 시스템을 통해 새로운 기능을 덧입게 됩니다. 개발자들은 원격에 있는 장비에 곧바로 고급 애플리케이션들을 생성할 수 있게 됩니다. 데이터를 최대한 활용하기 위해서는 임베디드 데이터베이스와 데이터 레이크를 실시간으로, 다량 처리할 수 있어야 합니다. 그래야 ‘데이터 처리를 통한 경쟁력 강화’가 유의미하게 됩니다.
사물인터넷을 적극 활용하는 조직이라면, 에지에 있는 임베디드 데이터베이스들을 사용해 데이터를 빠르게 처리할 수 있는데, 이 때 인공지능 기술을 활용하는 것이 유력한 선택지가 될 것입니다. 또한 사물인터넷 장비 센서들을 통해 축적된 정보들을 데이터 레이크로 빠르게 복사해 오고, 동시에 분석을 진행하는 것도 가능하게 될 것입니다. 즉 데이터베이스 관리와 활용이라는 것에 ‘대량’과 ‘실시간’이라는 개념을 접붙이는 기술과 방법론이 속속 등장할 것을 예상할 수 있습니다. 데이터를 통한 혁신을 꿈꾸는 조직이라면 데이터 레이크와 임베디드 데이터베이스의 관계가 어떤 식으로 발전하는지 지켜보는 게 좋을 것으로 보입니다.
3. 데이터 레이크를 위해 클라우드 스토리지 활용하기
지금 ‘데이터 레이크’라고 하면 대부분 ‘클라우드 스토리지’와 동의어인 것으로 이해하고 있습니다. 실제로 초기의 데이터 레이크들은 하둡(Hadoop) 혹은 HDFS 스토리지를 활용했었다가 클라우드가 향상됨에 따라 클라우드 쪽으로 옮겨갔습니다. 확실히 컴퓨팅 자원을 분리해서 활용한다는 측면에 있어서는 클라우드가 더 나은 선택지입니다. 따라서 시스템 다운이라는 비상 상황을 생각했을 때나 규모 확장, 데이터 흐름 등을 생각했을 때 더 유리할 수밖에 없습니다. 스토리지는 중앙에 두고 컴퓨팅은 분산시키는 방식이 현재 인기를 모으고 있는 이유입니다. 당분간 데이터 레이크는 스토리지와 밀접한 관계를 유지할 수밖에 없습니다.
4. 데이터 통합의 자동화
데이터 통합의 자동화는 비단 데이터 레이크에만 해당 되는 내용은 아닙니다. 현재는 데이터 통합이라는 것이 데이터 레이크와는 크게 상관없이 논의되고 있는데, 앞으로는 데이터 레이크를 동반하는 개념이 될 것입니다. 또한 인공지능이 데이터의 출처와 표적을 식별하는 시간이 줄어들고 정확도가 올라가면서 데이터 통합의 시간은 획기적으로 줄어들 전망입니다. 동시에 일반적인 데이터 통합 규칙들은 인공지능이 자동으로 처리하거나 심지어 제안할 수도 있게 됩니다. 자동화 기술에 기업들이 점점 더 익숙해지면서 데이터 통합의 자동화도 자연스러운 사업 운영의 일부 절차로 자리 잡을 것으로 보입니다. 결국 데이터 레이크 관련 ‘업무’는 관리와 접근에 점점 더 치중될 것입니다.
5. 구조화 된 데이터의 구조 유지하기
지금도 데이터 레이크 내에서 스키마 유연성(schema-less) 데이터를 로딩하는 게 가능합니다. 그러나 진짜 중요한 건 데이터의 스키마를 언제 구축해야 하고 언제 구축하면 안 되는지 판단하는 것입니다. 일반적으로는 이미 구조화된 데이터라면 그 구조를 유지하는 게 권장되고, 분석적 혹은 사업적 가치가 높은 데이터나 사용자의 요청이 잦은 데이터라면 스키마를 구성하는 게 좋다고 알려져 있습니다. 그러나 중요도가 떨어지고 요청도 별로 없는 데이터라면 그 때 그 때 필요에 따라 스키마 관련 대응을 하는 편이 낫습니다. 데이터를 있는 그대로 레이크에 추가하고, 활용될 때에만 스키마를 생성하는 것도 가능합니다.
6. 데이터 질의 관리
현재 데이터 레이크 관리에 있어서 중요하게 대두되는 이슈는 ‘데이터 질의 관리’ 문제입니다. 데이터가 활용 가치를 가지려면 일정 수준의 정확도, 일관성, 완결성을 갖추어야 합니다. 이는 곧 데이터 레이크 관리 전략이 전체적이고 전반적인 데이터 관리 및 거버넌스 전략 아래 포함되어야 한다는 뜻입니다. 그리고 거버넌스 체제 자체가 가볍고 유연해야 합니다. 강압적이고 무거우면 최적의 상황 대응을 할 수 없게 됩니다. 데이터 레이크의 운영과 활용에 있어서 ‘질’의 문제는 앞으로 더욱 중요한 가치로 대두될 것이고, 자꾸만 언급되는 논의 주제로 남아 있을 것으로 봅니다.
데이터는 이제 거스를 수 없는 ‘거대 트렌드’이자 모든 조직의 도착지‘임이 분명합니다. 따라서 데이터 레이크를 구축하고 운영하는 건 앞으로 있을 여러 상황에 대한 좋은 대비책입니다. 하지만 ’데이터 레이크를 준비한다는 것‘은 그저 스토리지 용량을 늘린다는 것과는 다른 일이며, 여러 가지 복잡한 미래 기술 및 가치들과 맞물린 거대 프로젝트입니다. 특히 데이터 활용을 통해 실질적으로 경쟁력을 강화한다는 구체적 전략을 배경에 깔아두어야만 가치를 발할 수 있습니다. 그 무엇보다 데이터를 관리하는 기본적 문화와 태도, 도구가 뒷받침 되어야 할 것입니다.
출처 : 보안 뉴스