1. 데이터 분석 주제 기획
데이터 분석 과정 중 초기 단계인 <분석주제 기획>에서는 해결할 업무의 문제를 정의하고 데이터로 확인할 사항을 결정하게 됩니다. 이때 핵심 데이터를 식별하고 데이터를 구하는 방법을 확인하는 것이 가장 핵심이라고 할 수 있습니다.
분석주제 단계의 핵심 포인트는 ① 해결업무 문제 정의하기 ② 데이터 확인 항목 결정 ③ 핵심 데이터 식별 및 확보방안 찾기 입니다.
2. 데이터 분석 과정
수집된 데이터를 전처리하고 분석 용도에 맞는 데이터 처리를 통해 데이터셋을 만들거나 다양한 분석도구를 사용해결과 도출하는 방법과 기법을 알아야 합니다.
① 데이터 수집 - 필요한 데이터를 확보하고 선택
- 데이터의 확보 원천(source)은 데이터 소유자에 따라 내부데이터와 외부 데이터로 나눌 수 있습니다.
- 내부데이터는 기관 소유의 데이터를 말하며 관련 부서 요청 및 내부 다운로드를 통해 확보 가능합니다.
- 외부데이터는 기관 소유권이 없는 데이터를 말하며 타기관 및 민간을 통해서 입수할 수 있지만 내부테이터에 비해 찾기 어렵습니다.
- 외부데이터중 공공데이터는 공공데이터(www.data.go.kr)를 활용해 수집할 수 있습니다.
- 외부데이터 중 카드나 통신사용 데이터와 같은 민간데이터를 최근에는 많이 활용하는 추세이나 비용이 발생합니다.
② 데이터 전처리 (Preprocessing) - 확보한 데이터를 활용 목적에 맞게 데이터 정제
- 데이터 전처리가 필요한 이유는 의미없는 값이 포함되거나 실수로 인한 오타 등의 오류가 포함되어 있으므로 원데이터를 바로 분석에 사용하게 되면 잘못된 결과를 가져올 수 있습니다. 따라서 잘못된 결과 도출 방지를 위해 전처리 과정이 필요합니다.
- 또한 분할된 여러 데이터를 다운로드 받아 수집한 경우 하나의 파일로 통합하는 데이터 병합과정이 필요합니다.
- 구조 측면은 쉽게 말해 파일 단위로 데이터셋(행과 열이 두 개 이상으로 구성된 데이터 집합), 형태, 구조가 변화하는 것을 의미합니다.
- 분석을 할때는 필요한 데이터셋을 만들어 놓고 분석하는 것이 편리하기 때문에 데이터의 구조변경 필요합니다.
- 값측면은 데이터셋에 있는 하나하나의 값을 처리하는 것을 의미합니다. 실제로 데이터를 보면 비어있거나 이상하게 기록되어 있는 데이터들이 있습니다. 이러한 Noise data로 인해 분석 결과에 오류가 발생할 수 있습니다.
- 따라서 오류데이터를 다른 값으로 대체하거나 삭제가 반드시 필요합니다.
③ 데이터 분석 - 분석도구를 활용한 데이터 분석 : 이 단계에서는 단순한 엑셀 프로그램부터 통계분석 프로그램, QGIS등 다양한 분석도구를 용도에 맞게 활용합니다. 현장에서는 분석가들도 R, python등의 거창한 프로그래밍 언어만 사용하는 것이 아니라 시간 절약을 위해서 tableau, orange, rapidminer, igzami 등과 같은 No-code 분석 소프트웨어를 사용하기도 합니다.
- 분석목적과 가지고 있는 분석 기술에 따라서 간단하게는 통계분석부터 머신러닝, 딥러닝 등 다양한 분석 기법을 활용해 분석을 진행할 수 있습니다.
- 다룰 수 있는 분석 도구가 무엇이냐에 따라서 다양한 분석 프로그래밍 언어를 활용하기도 합니다.
- 분석 프로그램이 익숙하지 않은 현업 직무자라면 엑셀만 잘 활용하더라도 보고서 분석이 가능합니다.
④ 데이터 해석 및 시각화 - 분석결과가 나오면 그 결과 해석 및 그래프 등을 활용한 시각화
데이터에 대한 시각화만 잘해도 데이터로부터 인사이트를 쉽게 도출할 가능성을 높일 수 있다는 장점이 있기 때문에 중요합니다.
- 데이터 분석이 끝나면 분석 결과물 형태에 따라서 수학적 모델(수리적 모델)이 될수도 있고 시각화 그래프가 될수도 있습니다.
- 전문 분석가들은 미래의 값을 예측하는 등에 좀더 정교한 분석모델을 만들어야 하기 때문에 디테일한 분석을 진행하게 됩니다.
- 그러나 분석의 기초단계에서는 복잡한 수학적 모델을 구하는 것이 어렵습니다. 따라서 초기단계에는 시각화 그래프를 사용하는 것이 좋습니다.
3. 데이터 분석 단계별 주요 개념 정리
<출처 : 국가공무원인재개발원>
분석단계 | 설명 | 핵심활동 | 주요개념 이해 |
1. 분석주제 도출 (분석주제 기획) |
업무의 문제를 해결하기 위한 데이터 분석 주제를 기획 (분석 필요성, 목적, 활용 가능데이터) |
- 업무문제 정의 - 업무문제 해결을 위한 데이터 분석 주제정의 - 핵심 데이터 식별 및 확보방법 확인 |
- 업무문제 해결 - 데이터 분석 주제 도출 - 핵심 데이터 |
2. 데이터 수집 (선택) |
데이터 수집 및 확보 | - 내부, 외부 데이터 수집 및 확보 | - 수집, 내부/외부 데이터, 크롤링, 스크래핑, API 등 수집방법 및 용어이해 |
3. 데이터 전처리 | 분석 목적에 맞게 데이터의 전처리 및 정제, 구조화 | - 데이터셋 만들기 -잘못된 데이터 값(이상치, 결측치) 처리 - 데이터 병합, 추출, 집계화 등 구조관점 전처리 |
- 데이터 전처리, 정제 - 구조괒넘 전처리(병합, 추출, 집계화) - 값관점 전처리 (이상치, 결측치) |
4. 데이터 분석 및 시각화 | 확인하고자 하는 목적에 따라 데이터 분석 및 시각화 | - 탐색적 데이터 분석 - 예측분석, 공간분석 등 - 그래프 등으로 결과의 시각화 |
- 탐색적 데이터 분석, 통계분석, 공간분석, 알고리즘, 분석 도구에 대한 이해 |
5. 결과해석 및 업무활용 | 분석의 결과를 업무적으로 해석해서 업무에 활용 | - 분석결과 및 그래프의 업무적 해석 | - 인사이트의 업무적 적용 |
데이터 분석은 반드시 업무에 적용하여 문제를 해결하는 것이 필요합니다. 이때 분석의 결과물은 시스템이나 서비스로 만들어야 하는 것이 아니고 기안 보고서 근거 자료, 신규인원 채용 근거 자료 등 좀더 쉽게 상대방 설득을 위한 자료로 활용할 수 있습니다. 또는 예산의 최적 집행을 위한 의사 결정 보조 자료로도 활용할 수 있습니다.
이상은 개인공부의 목적으로 내용을 정리한 것임을 밝힙니다.
'인공지능과 데이터' 카테고리의 다른 글
파이썬 기초 1 - 문자열과 출력하는 법 (0) | 2024.08.18 |
---|---|
언어모델의 원리 (0) | 2024.08.12 |
1. 로봇의 이해 (0) | 2023.08.23 |
알고리즘이란? (0) | 2023.08.21 |
1. 4차 산업과 인공지능 (0) | 2023.08.16 |
댓글