프로세스
- 스크래핑은 대략 아래의 순서로 이루어집니다.
- 데이터 찾기
- 데이터를 가져올 URL을 찾습니다.
- 요청에 필요한 인자(parameter)를 확인합니다.
- 응답 데이터를 파싱하고 필요한 부분만 추출합니다.
- 데이터 저장하기
- 테이블을 만듭니다.
- 응답 데이터에서 추출한 부분을 테이블에 저장합니다.
- 분석하기/시각화
- 테이블에 저장된 데이터를 읽어옵니다.
- 데이터 분석에는 pandas의 각종 통계 함수를 활용합니다.
- matplotlib 라이브러리로 시각화를 합니다.
라이브러리
- 요청처리 관련
- requests
- selenium
- 응답처리 관련
- beautifulsoup4
- 데이터 저장/읽기
- SQLite
- MySQL
- 데이터 분석
- pandas
- matplotlib
파이썬
- 웹 스크래핑 개발을 위해서 사용할 수 있는 프로그래밍 언어 중 하나입니다.
- 스크립트 언어로써 빠른 개발 속도와 상호작용이 쉬운 특징이 있습니다.
- 스크래핑에 많이 활용되고 있으며 많은 라이브러리가 준비되어 있으므로 쉽게 필요한 기능을 만들 수 있습니다.