본문 바로가기

반응형

AI Theory/key concept of AI

(53)
[boostcourse beyond ai] 딥러닝의 역사 denny britz, "deep learining's most import ideas" 2012 AlexNet 224*224 이미지 분류 2012년도 이미지넷 대회에서 1등 고전적 머신러닝이 아닌 딥러닝을 이용해 최초로 우승 blackbox로만 여겨지던 딥러닝의 성능을 확인 2013 DQN Q러닝이라는 강화학습 방법론 사용 알파고 2014 Encoder / Decoder NMT(Nueral machine translation) 문제를 풀기 위함 단어의 연속이 주어졌을 때 이를 잘 표현해서 다른 언어로 해석할지 이후 기계어 번역의 트랜드 번역 2014 Adam Optimizer 많은 사람들이 딥러닝 사용할 때 지금도 adam을 optimizer로 많이 사용 결과가 잘나옴 일반적으로 딥러닝 모델을 만들 때..
분류 평가지표 분류 평가지표 Confusion Matrix : 모델의 예측값 (Prediction)과 실제값을 비교하기 위한 표. TP, TN: 실제값을 맞게 예측한 것 FP, FN: 실제값과 다르게 예측한 것 Accuracy (정확도) : (TP + TN) / (TP + TN + FP) 전체 데이터 중 모델이 바르게 분류한 비율 불균형한 데이터 (imbalanced data)에 사용하기엔 부적절 100명 중 1명의 암환자 100명 모두 암이 없다고 예측하면 정확도는 99%지만 실제 암환자에 대해서 예측하지 못함 Precision (정밀도): TP / (TP + FN) 실제 값이 Negative인 데이터를 Positive로 판단하면 안 될 때 사용할 수 있는 지표 예시: 스팸 메일 분류 Recall (재현율): TP ..
데이터 퀼리티 높이기 데이터 퀼리티 높이기 데이터 퀼리티를 높이기 위해서는 아래의 4가지 요소들을 모두 고려하여야 한다. 1. 완결성 필수 항목인 데이터가 모두 채워져 있는 것 결측값이 없어야 한다. 2. 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안됨 중복값 제거하여 유일성 유지 df.drop_duplicates() 3. 통일성 데이터가 동일한 형식으로 저장되어 있어야 함 데이터타입, 단위, 포멧이 동일해야함 4. 정확성 데이터는 정확해야 함 데이터 수집시 특히 주의 이상치 확인 이상치 절대적 기준 없음 box plot에서 IQR(25%~75% 사이의 길이) +- 1.5 * IQR 삭제하거나 사용하거나 상황에 맞게 판단
데이터분석기초 시간에 따른 데이터 분류 시계열 데이터(time-series data) 횡단면 데이터(cross-section data): 동시간대에 서로 다른 객체에서 얻은 데이터 패널 데이터: 횡단면 데이터를 시간에 따라 나열한 데이터 모집단과 표본 데이터 수집에 대한 문제: 비용 등 >> 표본 추출 방법을 통해 극복 관심 대상인 모집단의 특성을 해당 모집단에서 추출한 표본을 이용해 추측(inference) 척도와 변수 데이터의 측정 척도(scale of measurement)에 따른 분류 척도 변수 정의 연산자 예시 범주형 변수 명목(nominal) 범주형(categorical) distinct categories =, != 이름, 주민번호 등 순위(ordinal) 질적(qualitative) ordered cat..
깃헙 csv 파일 Colab/Kaggle/주피터에서 사용하는 법 깃헙 csv 파일 Colab/Kaggle에서 사용하는 법 머신러닝 베스트셀러 핸즈온 머신러닝 공부중! 근데 데이터를 import 하는 데에서부터 문제가 생겨버린 것이었다~ 책에서는 여러가지 함수를 정의해서 github 핸즈온 머신러닝 레포의 csv 파일을 불러오는데 나는 해당 디렉터리가 없다고 오류가 나서 안불러와짐;; 그래서 그냥 깃헙 레포의 해당 파일을 직접 임포트하기로 했다. 먼저 임포트 하기를 원하는 파일이 있는 폴더 위치로 이동해 해당 파일을 클릭해준다. veiw raw (또는 raw 버튼)를 클릭한다. 그럼 페이지가 이동된다. 이동한 페이지의 주소를 복사한다. 코랩/캐글/주피터 노트북 등 원하는 환경에 접속. 주소값이 들어가는 변수를 생성하고 변수를 read_csv 함수에 넣으면 된당
[핸즈온 머신러닝] 머신러닝의 과정 [핸즈온 머신러닝] 머신러닝의 과정 머신러닝 프로젝트를 처음부터~끝까지~ 알려준다~ 프로젝트 다 끝나가는데~ 내가 좀 더 열심히 책을 읽었더라면...😅 머신러닝 프로젝트의 과정 큰그림을 본다 데이터 수집 데이터 탐색 및 시각화(EDA) 머신러닝 알고리즘을 위한 데이터 준비 모델 선택 및 훈련 모델 상세 조정 솔루션 제시 시스템 런칭, 모니터링, 유지보 문제정의 지도/비지도/강화 중? 분류/회귀? 배치학습/온라인학습? 성능측정 지표 선택 평균제곱근오차(RMSE) 회귀문제의 전형적 성능 지표 오차가 커질수록 이 값은 더 커짐 평균절대오차(MSE) 이상치가 많아보일때
[핸즈온 머신러닝] 머신러닝의 종류 [핸즈온 머신러닝] 머신러닝의 종류 머신러닝 종류는 굉장히 많다. 1. 지도 학습과 비지도 학습 지도학습 종류: classification, regression 중요 알고리즘 k-nearest neighbors linear regression logistic regression SVM(Support Vector Machine) Decision Tree 와 Random Forest neural networks 비지도학습 clustering k-means DBSCAN HCA(Hierarchical cluster analysis, 계층 군집 분석) outlier detection 과 novelty detection(특이치 탐지) one-class SVM isolation forest 시각화와 차원축소 PCA(..
[모두의 딥러닝] 케라스에서 사용하는 대표적 오차 함수 [모두의 딥러닝] 케라스에서 사용하는 대표적 오차 함수 평균 제곱 계열 평균 제곱 오차 mean(square(yt-y0)) 평균 절대 오차 mean(abs(yt-y0)) 실제값과 예측값 차의 절댓값의 평균 평균 절대 백분율 오차 mean(abs(yt-y0)/abs(yt)) 절댓값 오차를 절댓값으로 나눈 후 평균 평균 제곱 로그 오차 mean(square((logy0+1)-(logyt+1))) 실제값과 예측값에 로그를 적용한 값의 차이를 제곱한 값의 평균 교차 엔트로피 계열 범주형 교차 엔트로피 (일반적인 분류일 때) categorical_crossentropy 이항 교차 엔트로피 (두개의 클래스 중 예측할 때) binary_crossentropy 교차 엔트로피 주로 분류 문제에서 자주 사용

반응형