본문 바로가기
과학과 기술

빅데이터

by yenihayat 2022. 7. 12.
728x90

요즘 매우 핫한 빅데이터는 무엇일까요?

 

인공지능의 시대에 가장 중요한 자산은 데이터이며, 이런 저런 방식으로 수집된 방대한 데이터를 분석하고 활용하는 것이 인류최대의 과제이자 비즈니스가 되었습니다.

 

저 또한, 인공지능과 빅데이터에 오래 전부터 관심이 있었으나 여러가지 방해하는 요소들이 많아 아직까지 파고들지는 못하고 있었던 실정이었는데 이번 기회에 한번 정리해 보도록 하겠습니다.

 

그렇다면 인공지능과 빅데이터의 관계가 궁금하시죠?

머신러닝이란 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야로 인공지능의 한 분야로 간주됩니다. 그러니 데이터가 많을 수록 인공지능도 더 정교해지겠죠?

 

이제 빅데이터는 거의 모든 분야, 모든 비즈니스에서 가장 중요한 핵심이며, 모든 직장인들이 아이디어를 낼 때 중심이 되는 요소이기 때문입니다. 미래 사회로 갈 수록 더더욱 그 중요도는 커질 것입니다.

 

자 이제 빅데이터에 대해 알아봅시다. 

 

빅 데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말합니다. 빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징입니다. 

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 합니다. 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석할 수 있어 과거에는 불가능했던 서비스를 실현하기도 합니다.

이처럼 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있습니다.

하지만 빅데이터의 문제점은 바로 개인의 사생활 침해와 보안 측면에 자리하고 있습니다. 빅데이터는 수많은 개인들의 수많은 정보의 집합이기 때문에 빅데이터를 수집, 분석할 때 개인들의 사적인 정보까지 수집하여 관리하는 형태가 될 수도 있는 것입니다. 그리고 그렇게 모은 데이터가 보안 취약의 문제로 유출된다면, 이 역시 수많은 사람의 정보가 유출되는 것이기에 큰 문제가 될 수 있습니다.


빅데이터의 특징은 3V로 요약할 수 있습니다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미합니다. 최근에는 가치(Value)나 복잡성(Complexity)을 덧붙이기도 합니다. 이처럼 다양하고 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원으로 활용될 수 있다는 점에서 주목받고 있습니다. 대규모 데이터를 분석해서 의미 있는 정보를 찾아내는 시도는 예전에도 존재했습니다. 그러나 현재의 빅데이터 환경은 과거와 비교해 데이터의 양은 물론 질과 다양성 측면에서 패러다임의 전환을 의미합니다. 이런 관점에서 빅데이터는 산업혁명 시기의 석탄처럼 IT와 스마트혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 간주하고 있습니다. 

빅데이터 플랫폼
빅데이터 플랫폼은 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 환경입니다. 기업들은 빅데이터 플랫폼을 사용하여 빅데이터를 수집, 저장, 처리 및 관리 할 수 있습니다. 빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라인 셈입니다. 빅데이터 플랫폼은 빅데이터라는 원석을 발굴하고, 보관, 가공하는 일련의 과정을 통합적으로 제공해야 합니다. 이러한 안정적 기반 위에서 전처리 된 데이터를 분석하고 이를 다시 각종 업무에 맞게 가공하여 활용한다면 사용자가 원하는 가치를 정확하게 얻을 수 있을 것입니다.

빅 데이터 처리 기법

분석 기술
빅데이터를 다루는 처리 프로세스로서 병렬 처리의 핵심은 분할 점령입니다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말한다. 빅데이터의 데이터 처리란 이렇게 문제를 여러 개의 작은 연산으로 나누고 이를 취합하여 하나의 결과로 만드는 것을 뜻합니다. 대용량의 데이터를 처리하는 기술 중 가장 널리 알려진 것은 아파치 하둡과 같은 분산 데이터 처리 프레임워크입니다. 대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당합니다. 소셜 미디어 등 비정형 데이터의 증가로 인해 분석기법 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목받고 있습니다.


표현 기술
빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 대표적인 것으로는 R (프로그래밍 언어)이 있습니다.


통계학
데이터 마이닝이란 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다.

수집된 빅 데이터를 보완하고 체계화하여 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있습니다.

국내외 통계 분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지고 있는 가운데 국가통계 업무를 계획하고 방대한 통계자료를 처리하는 국가기관인 통계청이 빅 데이터를 연구하고 활용방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였습니다. 미국과 영국, 일본 등 선진국들은 이미 빅 데이터를 다각적으로 분석해 조직의 전략 방향을 제시하는 데이터과학자 양성에 사활을 걸고 있습니다. 그러나 한국은 정부와 일부 기업이 데이터과학자 양성을 위한 프로그램을 진행하고 있어 아직 걸음마 단계라고 할 수 있습니다.

 

2022.07.06 - [직장인 꿀팁] - 국가기술 빅데이터 분석기사

반응형

'과학과 기술' 카테고리의 다른 글

커피의 역사  (0) 2023.02.18
차량 충돌 교통사고 발생 시 꼭 해야 할 5가지  (0) 2022.07.15
스페이스X  (0) 2022.07.12
국가기술 빅데이터 분석기사  (0) 2022.07.06
알레르기 검사  (0) 2022.07.06