Day_7 [마스터클래스] 안수빈 강사님
작성일
[마스터클래스] 안수빈 강사님
Data Literacy & Data Visualization
- 멋있는 개발자가 되야 한다!
- 함께 일할 때 실력이 없는건 죄가 된다!
- 기본 적인 실력은 갖춰야 한다!
- 어떤 문제가 세상에 필요한지 제시를 할 수 있어야 한다!
- 개발자도 소통이 굉장히 중요하다!
- 어떻게 하면 잘 포장할 수 있을까?(브랜딩)
- 어떤 프로덕트(서비스)로 기술이 나와야 한다고 생각하고 그런 것들을 전달 할 수 있어야 한다!!
- 머신러닝과 인공지능을 잘 포장하기 위해서 일반인들 비기너들에게 잘 설명하기 위해서 데이터 시각화를 공부하기 시작!!
데이터 시각화란?
- 데이터를 필요에 맞게 시각적 요소로 변환하여 이해하기 쉽게 시각적으로 전달
- Data manipulation & Encoding
- Goal & Target Audience
- Prevent Misleading
- Observation & Aesthetic
Data Science 에서 Visualization 을 하는 이유
- 시각화를 하는 과정에서 데이터를 살피며 데이터에서 인사이트 얻기
- 결과를 효율적으로 보여주기
Data Science 에서 Visualization 이 중요한 이유
- 블랙박스
- 결과에 대한 신뢰도는 성능 100%가 아닌 한 부족
- 결과 중심이 되서는 안된다.
- 이미 정보는 많다! 하지만 단순히 많기만 한 정보는 의미가 없다
Data Visualization 종류
- Information Visualization
- 기존 데이터의 통계치 등의 정보를 시각적으로 전달
- Scientific Visualization
- 이미지, 오디오, 3D 객체 등의 객체 관찿ㄹ 또는 시뮬레이션을 효과적으로 살피기 위한 시각화
- Infographic
- 전달하고자 하는 메시지를 데이터를 통한 스토리텔링으로 전달
- Data Art
- 데이터를 사용하여 예술적으로 표현
AI 에서 Data Visualization 이 중요한 이유
- 데이터를 사용한 설득
- 의료, 경제 등 실질적 손실이 가는 분야일수록 신뢰가 필요
- 기계가 하는 걸 어떻게 믿어요? 와 사람이 하는 걸 어떻게 믿어요 의 커넥션
- Metric 에 따라 높은 Score 를 가지면 좋은 AI Model 일까?
- 기본적인 성능과 안전성은 필수
- 그 다음은 Product 이고, 그때부터는 UX!! (사용자 경험)
- 제한적인 환경(논문, 서비스 등)에서 최대한으로 보여줄 수 있어야 한다.
- 시각화는 UX의 다양한 고려점 중 하나이자 좋은 연습 도구
AI 에서 Data Visualization 을 하는 이유
- 해석가능하고 설명가능한 인공지능을 위해
- Tensorboard
- 모델을 비교하고 선택하기 위해
- 성능을 비교하기 위해
- 모델을 디버깅 / 모델의 성능을 향상하기 위해
- 딥러닝 이론을 가르치기 위해
AI 에서 Data Visualization 툴
- Tensorboard
- CNN Explainer
- Facet : 데이터셋 탐색 도구
- Distill : 인터랙티브 논문 및 Article
언제?
- 훈련 전
- 데이터를 살피는 단계
- 훈련 중
- 데이터가 잘 훈련되고 있는가
- 훈련 후
- 결과를 어떻게 해석할 것인가?
누구를 위해?
- Experts
- 모델을 개발하고, 연구하는 전문가
- 더 나은 모델을 개발하기 위한 분석 방법
- 분석고 ㅏ발표 모두 중요
- None-Experts
- End-User 또는 AI 적용을 위한 비전문가
- 앞으로 타겟은 이 사람들이 아닐까?
- 비전문가가 바라보는 AI는 어떨까?
- 얼마나 전달하는 것이 좋을까?
- How?
- 방법론을 알자
- 인지적 관점
- 구현으로 완성
Python 시각화가 답인가?
- 꼭 Python이 답은 아니다!
- DL/ML 에 Python 을 많이 사용하기에 편리할 뿐
- 경우에 따라 R, MATLAB 등의 언어가 더 적합한 언어일수도
- 웹으로 가게 된다면 D3JS와 같이 밑바닥부터 구현하는게 나을 수도 있음
- Tableau, Sportfire 등 시각화 GUI 툴도 잘 사용하면 좋음
- Wandb, Tensorboard 등의 기존 툴도 추천
- 포토샵, 일러스트, PPT도 최종적인 도구
얻었으면 좋겠는 것
- 새로운 데이터를 보고 빠르게 파악하기
- 데이터를 wrangling하고 시각화까지 연결하기
- 오용 및 남용하지 않기
- 오용하지 않으면서 이쁜 시각화란?
- 시각화 올바르게 해석하기 (읽기)
- 시각화로 원하는 정보를 강조 및 전달
- 필요한 시각화와 필요없는 시각화를 구분
사전 질문
- 데이터를 사용하는 사람들 인터뷰부터 시작
- requirements를 만들고 시작
- 데이터 분석을 하는 사람들에게는 필요한 데이터만 시각화를 진행
- 데이터가 바뀌어도 쉽게 코딩을 진행할 수 있음
- Tableau는 원본 데이터가 바뀌면 적용해야하고 전처리 측면에서 한계가 있음
- 많은 데이터를 살펴보는게 중요
- 본인이 좋아하는 도메인의 데이터셋을 찾는게 중요
- 재밌는 주제로 어떤 시각화를 할 수 있을지 고민
- 깃허브와 캐글에 공유를 해서 다양한 사람들과 얘기를 하는게 중요
- 데이콘 & 캐글에서 시각화 competition도 있음
- 캐글에서 다양한 솔루션들을 찾아보는게 좋을 것 같음
- 꼭 시각화를 통해서 인사이트를 찾을 필요는 없음
- 고려를 하는 곳도 있고 안하는 곳도 있지만 너무 기업 by 기업이 아닐까
- 시각화를 잘 못하더라도 결과를 잘 내는분도 많고
- 시각화부터 결과까지 다 잘하는 사람도 있고
- 시각화의 역량을 측정하기엔 어려움
- 가장 큰 계기는 캐글
- 적당한 성능을 내고 사용자들에게 더 좋게 전달하는게 좋지 않을까 생각
- 커리큘럼 시각화쪽으로 연구 진행 중
- 원하는 연구실이 어떤걸 하는지 살피는게 중요
댓글남기기