Machine Learning

내가 가진 csv파일을 업로드하고 해당 데이터에 대한 전처리, 시각화, 머신러닝, 시계열예측, 이상치탐지

데이터 분석가가 EDA 및 Feature Engineering을 수행하기 위해서는 필연적으로 코드를 작성해야 합니다. 그런데 코드는 반복적일때가 많고 오랜만에 사용하는 라이브러리를 다룰때는 함수 사용법을 까먹어 검색을 하는데 많은 시간을 투자하게 되어 정작 분석에 100% 집중하기가 어렵습니다.

하지만 kubChain의 Machine Learning 기능을 활용하면 아이디어를 코드가 아닌 채팅으로 테스트 할 수 있기 때문에 매우 빠르게 시각화 및 전처리를 수행할 수 있습니다.

이때 kubChain이 사용한 파이썬 코드가 시각화 및 전처리 결과와 함께 제공되기 때문에 머신러닝 입문자에게도 큰 도움이 됩니다.

전처리 결과는 실시간으로 UI상의 데이터프레임에 반영되어 상태가 업데이트 되며 이를 AutoML을 통해 모델을 학습시킬 수 있습니다.

파일 업로드

원본 데이터를 업로드하면 데이터프레임 형식으로 내 데이터를 확인할 수 있다.

Choose a mode 에서 '전처리'를 선택한 이후 챗봇 기능을 통해 원하는 전처리 내용을 입력할 수 있다.

Preprocessing

원하는 전처리 내용을 입력한 뒤 AI가 응답해주는 코드를 확인하고 코드적용을 누르면 데이터프레임에 전처리 내용이 반영된다. 수정된 데이터를 저장하고 싶다면 Save 버튼을 눌러 저장할 수 있다.

Visualization

Choose a mode에서 '시각화'를 선택한 이후 원하는 시각화 내용을 입력하면 시각화 코드와 함께 그래프를 출력한다.

Supervised Learning

Choose a mode에서 'Supervised Learning'를 선택한 이후 예측하고 싶은 컬럼을 선택한다. 학습시간은 분단위로, 00:01은 1분을 의미한다. Run 버튼을 누르면 여러가지 모델을 가지고 AutoML을 이용한 지도학습이 진행된다. LangChain에서 해당 컬럼에 맞는 분류 또는 회귀 모델을 선택하여 결과를 보여준다.

결과는 여러 모델에 대한 성능지표들과 그 중 가장 좋은 모델의 Metric을 출력한다.

Best Model을 다운로드 받으려면 '학습모델 다운로드' 버튼을 누른다.

Time Series

시계열 데이터의 경우 원본 데이터에 반드시 시간컬럼이 있어야한다.

아래 Tips와 같이 데이터프레임 형식을 맞춰 파일을 업로드 해야한다.

Timestamp에 시간데이터를 가진 컬럼을 선택하고 Target에는 예측하기를 원하는 컬럼을 선택한다. 학습시간은 분단위로, 00:01은 1분을 의미한다. 모든 파라미터를 설정하고나면 Run버튼을 눌러 시계열예측을 시작한다.

시계열예측에 사용한 모델들의 성능지표와 그 중 Best Model의 예측결과를 시각화하여 나타낸다.

Anomaly Detection

Choose a mode에서 'Anomaly Detection'을 선택한 이후 이상치를 탐지하고 싶은 컬럼을 선택한다. 이상치탐지의 경우, 컬럼을 선택하지 않으면 자동으로 전체 컬럼에 대한 이상치score를 계산한다.

Run 버튼을 눌러 이상치탐지를 시작한다.

이상치탐지를 통해 추출한 이상치 score 값이 원본 데이터프레임에 'score'라는 컬럼으로 새로 생성됨을 확인할 수 있다. score값이 threshold보다 높은 경우 이상치 데이터로 판단하여 이상치 데이터에 대한 시각화와 데이터프레임을 출력한다.

가장 기본적인 이상치탐지 모델인 iForest모델이 들어갔으며 이후 다변량 이상치탐지를 포함한 다양한 모델을 선택할 수 있도록 업데이트 될 예정이다.

Last updated