본문 바로가기

AI Theory

(82)

[EDA] 데이터 측정 과정의 기본 가정 [EDA] 데이터 측정 과정의 기본 가정 무작위 추출 고정된 분포 고정 위치를 갖는 분포 고정 분산(변동성)을 갖는 분포 4가지 기본 가정이 성립되면, 확률적 예측가능성을 달성한 것. 즉 통계적 통제 상태에 있는 것 4가지 기본 가정이 성립하지 않으면, 위치/분산/분포에 대해 표류(drifting)하고 있는 것. 예측불가능하며 통제불능 4가지 기본 가정을 만족하느냐를 일상적으로 확인 해야한다. 기본 가정 4가지 가정이 성립하는 경우 성립하지 않는 경우 가정이 성립하지 않을 때 결과 사례 무작위 추출 lag plot이 구조가 없는 랜덤한 모양 비무작위성 1. 통계 테스트가 모두 유효하지 않음 2. 계산된 최소 표본 크기가 의미없음 3. 단순모델이 유효하지 않음 파라미터 추정치가 의심스럽고 지지받지 못함 자..

탐색적 데이터 분석(EDA)이란? 탐색적 데이터 분석(Explorary Data Analysis, EDA)이란? 데이터 과학 과정의 가장 중요한 부분 중 하나 편견, 선험적 기대 없이 도표, 그래프, 요약 통계 등을 활용하여 통계학을 수행 그래픽한 방법을 주로 사용 EDA의 목표 데이터에 대한 통찰 얻기 드러나지 않았던 데이터의 구조 발견 가장 적합하면서 단순한 모델 찾기 이상치, 결측치 탐지 드러나지 않은 가정에 대한 테스트 추측, 가설의 생성 파라미터에 대한 추정치와 그 추정치에 대한 불확실성 변수 중요도 파악 개별 변수들이 통계적으로 유의미한지에 대한 결론 인자에 대한 최적 설정 EDA의 단계 연구를 위한 research question 생각하기 데이터 재구조화: 기존 데이터에서 새로운 변수 생성 research question를 ..

tf.constant() 함수 tf.constant() 함수 tf.constant()는 이름 그대로 상수 텐서(constant tensor)를 return 해주는 함수이다. 여기서 상수는 변하지 않는 수, 텐서는 일종의 행렬을 의미한다. 즉, 상수 텐서는 변하지않는 행렬을 의미. 변수 텐서를 만들기 위해서는 tf.Variable() 함수를 사용하면 된다. tf.constant의 기본 구조는 아래와 같다. tf.constant( value, dtype=None, shape=None, name='Const' ) value(필수) dtype(옵션): 함수의 리턴값인 텐서의 각 요소가 갖게되는 데이터타입 dtype이 지정되지 않았을 경우, 리턴값 텐서의 dtype은 value의 데이터타입을 추측해서 정해진다. 반대로 dtype이 지정되었을 ..

데이터분석기초 시간에 따른 데이터 분류 시계열 데이터(time-series data) 횡단면 데이터(cross-section data): 동시간대에 서로 다른 객체에서 얻은 데이터 패널 데이터: 횡단면 데이터를 시간에 따라 나열한 데이터 모집단과 표본 데이터 수집에 대한 문제: 비용 등 >> 표본 추출 방법을 통해 극복 관심 대상인 모집단의 특성을 해당 모집단에서 추출한 표본을 이용해 추측(inference) 척도와 변수 데이터의 측정 척도(scale of measurement)에 따른 분류 척도 변수 정의 연산자 예시 범주형 변수 명목(nominal) 범주형(categorical) distinct categories =, != 이름, 주민번호 등 순위(ordinal) 질적(qualitative) ordered cat..

깃헙 csv 파일 Colab/Kaggle/주피터에서 사용하는 법 깃헙 csv 파일 Colab/Kaggle에서 사용하는 법 머신러닝 베스트셀러 핸즈온 머신러닝 공부중! 근데 데이터를 import 하는 데에서부터 문제가 생겨버린 것이었다~ 책에서는 여러가지 함수를 정의해서 github 핸즈온 머신러닝 레포의 csv 파일을 불러오는데 나는 해당 디렉터리가 없다고 오류가 나서 안불러와짐;; 그래서 그냥 깃헙 레포의 해당 파일을 직접 임포트하기로 했다. 먼저 임포트 하기를 원하는 파일이 있는 폴더 위치로 이동해 해당 파일을 클릭해준다. veiw raw (또는 raw 버튼)를 클릭한다. 그럼 페이지가 이동된다. 이동한 페이지의 주소를 복사한다. 코랩/캐글/주피터 노트북 등 원하는 환경에 접속. 주소값이 들어가는 변수를 생성하고 변수를 read_csv 함수에 넣으면 된당

[핸즈온 머신러닝] 머신러닝의 과정 [핸즈온 머신러닝] 머신러닝의 과정 머신러닝 프로젝트를 처음부터~끝까지~ 알려준다~ 프로젝트 다 끝나가는데~ 내가 좀 더 열심히 책을 읽었더라면...😅 머신러닝 프로젝트의 과정 큰그림을 본다 데이터 수집 데이터 탐색 및 시각화(EDA) 머신러닝 알고리즘을 위한 데이터 준비 모델 선택 및 훈련 모델 상세 조정 솔루션 제시 시스템 런칭, 모니터링, 유지보 문제정의 지도/비지도/강화 중? 분류/회귀? 배치학습/온라인학습? 성능측정 지표 선택 평균제곱근오차(RMSE) 회귀문제의 전형적 성능 지표 오차가 커질수록 이 값은 더 커짐 평균절대오차(MSE) 이상치가 많아보일때

[핸즈온 머신러닝] 머신러닝의 종류 [핸즈온 머신러닝] 머신러닝의 종류 머신러닝 종류는 굉장히 많다. 1. 지도 학습과 비지도 학습 지도학습 종류: classification, regression 중요 알고리즘 k-nearest neighbors linear regression logistic regression SVM(Support Vector Machine) Decision Tree 와 Random Forest neural networks 비지도학습 clustering k-means DBSCAN HCA(Hierarchical cluster analysis, 계층 군집 분석) outlier detection 과 novelty detection(특이치 탐지) one-class SVM isolation forest 시각화와 차원축소 PCA(..

[모두의 딥러닝] 케라스에서 사용하는 대표적 오차 함수 [모두의 딥러닝] 케라스에서 사용하는 대표적 오차 함수 평균 제곱 계열 평균 제곱 오차 mean(square(yt-y0)) 평균 절대 오차 mean(abs(yt-y0)) 실제값과 예측값 차의 절댓값의 평균 평균 절대 백분율 오차 mean(abs(yt-y0)/abs(yt)) 절댓값 오차를 절댓값으로 나눈 후 평균 평균 제곱 로그 오차 mean(square((logy0+1)-(logyt+1))) 실제값과 예측값에 로그를 적용한 값의 차이를 제곱한 값의 평균 교차 엔트로피 계열 범주형 교차 엔트로피 (일반적인 분류일 때) categorical_crossentropy 이항 교차 엔트로피 (두개의 클래스 중 예측할 때) binary_crossentropy 교차 엔트로피 주로 분류 문제에서 자주 사용

이전 1 ··· 4 5 6 7 8 9 10 11 다음

티스토리툴바