목차
목차
웹 크롤링
웹 크롤러를 이용해 웹 사이트에서 원하는 정보만 수집하는 것
단시간에 많은 정보 수집 가능, 단순 반복 작업 자동화
웹 스크래핑
크롤링이 웹 사이트에서 데이터 전체를 가져오는 반면, 스크래핑은 원하는 정보만을 일부 추출한다는 의미가 강하다
실제로 크롤링 한다는 게 웹 스크래핑을 의미하는 경우가 많음
웹 크롤링 과정
1. 정보 원하는 웹 사이트에 접속해 웹 페이지 확인
2. F12를 눌러 내가 원하는 정보의 위치 확인, 분석
3. 파이썬으로 접속한 웹 페이지의 HTML 코드 불러옴
4. 불러온 데이터에서 원하는 정보만 가공해 추출
5. 추출한 정보를 CSV, 데이터베이스 등 다양한 형태로 저장
주요 용어
- 리소스: 사용자가 요청하는 이미지, 데이터 등
- 클라이언트: 리소스, 서비스 요청
- 서버: 리소스, 서비스 제공
- 서버가 터졌다: 서비스를 요청하는 클라이언트가 동시에 너무 많이 발생해서 생기는 현상
HTTP통신
- HyperText Transfer Protocol
- 웹에서 데이터를 전달할 때 사용하는 프로토콜
- 프로토콜: 웹에서 데이터를 주고받을 때 지켜야 할 규칙
- 프로토콜이 동일하다면 서로 다른 클라이언트( 아이폰과 안드로이드)끼리도 통신 가능
HTML
- 웹 페이지의 구성 요소 중 하나
- HyperText Markup Language
- 하이퍼텍스트 + 마크업 언어
- 하이퍼텍스트: 한 문서에서 다른 문서로 즉시 접근할 수 있는 텍스트
- 마크업 언어: 태그를 이용해 문서, 데이터의 구조를 표현하는 언어
- 트리구조(계층구조)
'AI Theory > key concept of AI' 카테고리의 다른 글
[파이썬으로 캐글뽀개기] 튜플과 딕셔너리, 집합(set) (0) | 2022.06.21 |
---|---|
[파이썬으로 캐글뽀개기] 데이터분석에 유용한 리스트 관련 메소드 (0) | 2022.06.20 |
예측 정확도와 하이퍼파라미터 (0) | 2022.05.31 |
과적합과 과소적합 (0) | 2022.05.30 |
결정 트리와 LightGBM (0) | 2022.05.30 |