본문 바로가기

AI Theory/key concept of AI

웹 크롤링이란?

목차

    목차

       

      웹 크롤링

      웹 크롤러를 이용해 웹 사이트에서 원하는 정보만 수집하는 것

      단시간에 많은 정보 수집 가능, 단순 반복 작업 자동화

       

      웹 스크래핑

      크롤링이 웹 사이트에서 데이터 전체를 가져오는 반면, 스크래핑은 원하는 정보만을 일부 추출한다는 의미가 강하다

      실제로 크롤링 한다는 게 웹 스크래핑을 의미하는 경우가 많음

       

      웹 크롤링 과정

      1. 정보 원하는 웹 사이트에 접속해 웹  페이지 확인

      2. F12를 눌러 내가 원하는 정보의 위치 확인, 분석

      3. 파이썬으로 접속한 웹 페이지의 HTML 코드 불러옴

      4. 불러온 데이터에서 원하는 정보만 가공해 추출

      5. 추출한 정보를 CSV, 데이터베이스 등 다양한 형태로 저장

       

      주요 용어

      • 리소스: 사용자가 요청하는 이미지, 데이터 등
      • 클라이언트: 리소스, 서비스 요청
      • 서버: 리소스, 서비스 제공
      • 서버가 터졌다: 서비스를 요청하는 클라이언트가 동시에 너무 많이 발생해서 생기는 현상

       

      HTTP통신

      • HyperText Transfer Protocol
      • 웹에서 데이터를 전달할 때 사용하는 프로토콜
      • 프로토콜: 웹에서 데이터를 주고받을 때 지켜야 할 규칙
      • 프로토콜이 동일하다면 서로 다른 클라이언트( 아이폰과 안드로이드)끼리도 통신 가능

       

      HTML

      • 웹 페이지의 구성 요소 중 하나
      • HyperText Markup Language
      • 하이퍼텍스트 + 마크업 언어
      • 하이퍼텍스트: 한 문서에서 다른 문서로 즉시 접근할 수 있는 텍스트
      • 마크업 언어: 태그를 이용해 문서, 데이터의 구조를 표현하는 언어
      • 트리구조(계층구조)