모두를 위한 웹 스크래핑-정리

프로세스

  • 스크래핑은 대략 아래의 순서로 이루어집니다.
  • 데이터 찾기
    1. 데이터를 가져올 URL을 찾습니다.
    2. 요청에 필요한 인자(parameter)를 확인합니다.
    3. 응답 데이터를 파싱하고 필요한 부분만 추출합니다.
  • 데이터 저장하기
    1. 테이블을 만듭니다.
    2. 응답 데이터에서 추출한 부분을 테이블에 저장합니다.
  • 분석하기/시각화
    1. 테이블에 저장된 데이터를 읽어옵니다.
    2. 데이터 분석에는 pandas의 각종 통계 함수를 활용합니다.
    3. matplotlib 라이브러리로 시각화를 합니다.

라이브러리

  • 요청처리 관련
    • requests
    • selenium
  • 응답처리 관련
    • beautifulsoup4
  • 데이터 저장/읽기
    • SQLite
    • MySQL
  • 데이터 분석
    • pandas
    • matplotlib

파이썬

  • 웹 스크래핑 개발을 위해서 사용할 수 있는 프로그래밍 언어 중 하나입니다.
  • 스크립트 언어로써 빠른 개발 속도와 상호작용이 쉬운 특징이 있습니다.
  • 스크래핑에 많이 활용되고 있으며 많은 라이브러리가 준비되어 있으므로 쉽게 필요한 기능을 만들 수 있습니다.

시리즈 정리

  1. 사례
  2. 개발환경 설정
  3. 웹 상의 데이터를 가지고 오는 방법
  4. 가지고 온 데이터를 저장하는 방법
  5. 데이터 분석하기

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다