본문 바로가기

반응형

AI Theory

(81)
[boostcourse beyond ai] 딥러닝의 역사 denny britz, "deep learining's most import ideas" 2012 AlexNet 224*224 이미지 분류 2012년도 이미지넷 대회에서 1등 고전적 머신러닝이 아닌 딥러닝을 이용해 최초로 우승 blackbox로만 여겨지던 딥러닝의 성능을 확인 2013 DQN Q러닝이라는 강화학습 방법론 사용 알파고 2014 Encoder / Decoder NMT(Nueral machine translation) 문제를 풀기 위함 단어의 연속이 주어졌을 때 이를 잘 표현해서 다른 언어로 해석할지 이후 기계어 번역의 트랜드 번역 2014 Adam Optimizer 많은 사람들이 딥러닝 사용할 때 지금도 adam을 optimizer로 많이 사용 결과가 잘나옴 일반적으로 딥러닝 모델을 만들 때..
분류 평가지표 분류 평가지표 Confusion Matrix : 모델의 예측값 (Prediction)과 실제값을 비교하기 위한 표. TP, TN: 실제값을 맞게 예측한 것 FP, FN: 실제값과 다르게 예측한 것 Accuracy (정확도) : (TP + TN) / (TP + TN + FP) 전체 데이터 중 모델이 바르게 분류한 비율 불균형한 데이터 (imbalanced data)에 사용하기엔 부적절 100명 중 1명의 암환자 100명 모두 암이 없다고 예측하면 정확도는 99%지만 실제 암환자에 대해서 예측하지 못함 Precision (정밀도): TP / (TP + FN) 실제 값이 Negative인 데이터를 Positive로 판단하면 안 될 때 사용할 수 있는 지표 예시: 스팸 메일 분류 Recall (재현율): TP ..
[데이터마이닝] 텍스트 데이터? [데이터마이닝] 텍스트 데이터 텍스트 데이터의 분류 크기 순으로 corpus(말뭉치), document, sentence, word, morpheme(형태소), phoneme(음소)로 분리된다. 음소는 주로 언어학 차원에서 다루며, 데이터마이닝에서는 형태소까지만 다룸 corpus? 문서의 상위 개념 수집한 문서들의 전체 집합, 또는 특정 언어의 정형화된 대용량 텍스트 표본들의 집합 token 텍스트 분석의 분석 단위 대개 단어를 의미하기도 하지만, 하나의 글자 단위, 형태소 단위일 수 있음 토큰은 통계적 기법을 적용해 빈도 분석을 수행 이를 통해 전체적 맥락 분석, 문서의 주제나 감정을 추정 텍스트 데이터의 분석법 사전기반 접근방법(Dictionary Based Approach) 단어사전 기준으로 빈도 ..
[Paper Review] You Only Look Once: Undefied, Real-Time Object Detection [Paper Review] You Only Look Once: Undefied, Real-Time Object Detection 2016년 당시 object detection에서 처음으로 1-stage detection 방식 제안 object detection이란? 이미지 내 multiful object에 대한 class probability(object classification)와 location 정보(object localization) 추출 object detection의 방식 1-stage detactor YOLO object classification과 object localization을 동시에 수행 이미지 내 모든 위치를 object의 잠재영역으로 보고 각 후보영역에 대해 class 예측 ..
데이터 퀼리티 높이기 데이터 퀼리티 높이기 데이터 퀼리티를 높이기 위해서는 아래의 4가지 요소들을 모두 고려하여야 한다. 1. 완결성 필수 항목인 데이터가 모두 채워져 있는 것 결측값이 없어야 한다. 2. 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안됨 중복값 제거하여 유일성 유지 df.drop_duplicates() 3. 통일성 데이터가 동일한 형식으로 저장되어 있어야 함 데이터타입, 단위, 포멧이 동일해야함 4. 정확성 데이터는 정확해야 함 데이터 수집시 특히 주의 이상치 확인 이상치 절대적 기준 없음 box plot에서 IQR(25%~75% 사이의 길이) +- 1.5 * IQR 삭제하거나 사용하거나 상황에 맞게 판단
EDA 문제 유형별 그래픽 기법 EDA 문제 유형별 그래픽 기법 1. EDA를 통해 답을 얻을 수 있는 질문들 대표값? 대표값에 대한 불확도? 일련의 숫자들에 잘 맞는 분포? 백분위수? 공학적 변경이 효과를 보이는가? 어떤 인자가 효과를 보이는가? 가장 중요한 인자? 여러 실험실에서 오는 관측치들이 모두 동등한지 X, Y를 관계짓는 최선의 함수? 인자들에 대한 최선의 설정 시계열 데이터의 신호에서 noise 분리 가능? 다변량 데이터에서 어떤 구조를 추출할 수 있는가? 이상치? 2. EDA 단계 위의 질문들 중 적절한 것 선택 질문을 중요도에 따라 정렬 질문에 적합한 기법 파악 3. EDA 기법: 그래픽 분석 3.1 단변량 문제(univariate) Run Sequence Plot Lag plot Histogram Probability..
EDA 그래픽 기법과 계량적 기법의 종류 EDA 그래픽 기법과 계량적 기법의 종류 EDA 그래픽 기법 Probability plot Normal probability plot Lag plot Run Sequence plot Histogram Scatter plot Scatterplot matrix Heatmap seaborn.FaceGrid seaborn.PairGrid seaborn.relplot Box plot Bihistogram Quantile-Quantile plot Autocorrelation plot Spectral plot 4-plot 6-plot EDA 계량적 기법 점추정 구간추정 가설검정 단일집단 모평균 가설검정 두 집단 모평균 가설검정 짝진 표본의 모평균 가설검정 위치측도 신뢰구간 앞으로 정리할 계획!
[EDA] 데이터 측정 과정의 기본 가정 [EDA] 데이터 측정 과정의 기본 가정 무작위 추출 고정된 분포 고정 위치를 갖는 분포 고정 분산(변동성)을 갖는 분포 4가지 기본 가정이 성립되면, 확률적 예측가능성을 달성한 것. 즉 통계적 통제 상태에 있는 것 4가지 기본 가정이 성립하지 않으면, 위치/분산/분포에 대해 표류(drifting)하고 있는 것. 예측불가능하며 통제불능 4가지 기본 가정을 만족하느냐를 일상적으로 확인 해야한다. 기본 가정 4가지 가정이 성립하는 경우 성립하지 않는 경우 가정이 성립하지 않을 때 결과 사례 무작위 추출 lag plot이 구조가 없는 랜덤한 모양 비무작위성 1. 통계 테스트가 모두 유효하지 않음 2. 계산된 최소 표본 크기가 의미없음 3. 단순모델이 유효하지 않음 파라미터 추정치가 의심스럽고 지지받지 못함 자..

반응형