본문 바로가기
🐍Python

[20210806] requests, urllib, BeatifulSoup, Selenium 라이브러리를 이용한 웹크롤링

by 캔 2021. 8. 6.

웹크롤링

웹크롤링(web crawling)은 웹사이트로 이뤄진 웹 상에서 주기적으로 데이터를 추출하는 것을 말한다. 참고로, 웹에서 데이터를 추출하는 행위 자체는 '웹 스크레이핑'(web scraping)이라고 해야 하지만, 어차피 웹 스크레이핑을 주기적으로 수행하는 것이 웹크롤링이므로, 용어를 웹크롤링으로 통일하여 사용하겠다. 여기서는 파이썬의 기본 내장 라이브러리인 urllib의 하위 모듈들(request, parse, error, robotparse)과, requests 라이브러리, BeautifulSoup 라이브러리, Selenium을 사용한다.

requests

requests는 URL에 요청을 전달하고 응답을 받아오는 역할을 하는 라이브러리이다. 명령 프롬프트나 터미널에 'pip install requests'를 입력하여 설치한다.

# requests
# Naver 메인 페이지 정보 가져오기: get() 메서드로 Naver 서버에서 정보를 가져와서 text 속성으로 html 출력
import requests

url = "https://www.naver.com"
response = requests.get(url)
print(response.status_code)
print(response.text)

# Naver 검색 결과 정보 가져오기
import requests

url = "https://search.naver.com/search.naver"
params = {'query': '여자배구'}
response = requests.get(url, params=params)
print(response.status_code)
print(response.text)

# Naver 검색 결과 정보 가져오기(2)
import requests

url = "https://comic.naver.com/webtoon/detail.nhn"
params = {'titleId': 751168, 'no': 54}
response = requests.get(url, params=params)
print(response.text)

# JSON 형식의 데이터 가져오기: get() 메서드로 정보를 가져와서 json() 메서드로 JSON 출력
import requests

response = requests.get("https://raw.githubusercontent.com/naver/naver-openapi-guide/"
                        "draft/naver-openapi-swagger.json")
result = response.json()
print(type(result))
print(result.items())

 

urllib

urllib은 requests와 유사하게 URL에 요청을 보내고 응답을 받아오는 역할을 하는 request 모듈과 그 외 URL 활용을 도와주는 parse 모듈 등 여러 하부 모듈로 이뤄진 라이브러리이다. 따로 설치할 필요 없이 import만 하면 사용 가능하다.

# urllib
# request, error, parse, robotparser 모듈로 구성
# urllib.request
# get(): URL에 요청을 전달하여 응답을 받아옴
import urllib.request
from urllib import request

url = "https://www.naver.com"
request = request.urlopen(url)  # 해당 URL을 열기, 응답 데이터는 바이트 형식의 HTTPResponse 객체
print(request)
response1 = urllib.request.urlopen(url)
print(response1)
byte_data = response1.read(500)  # urlopen으로 연 객체를 읽고, 인자로 전달하는 숫자만큼 데이터를 읽음
print(byte_data)
text_data = byte_data.decode()  # 바이트 형식 데이터를 원하는 형식으로 변환, 기본값은 UTF-8.
print(text_data)
img_src = " "
new_name = 'img.jpg'
urllib.request.urlretrieve(img_src, new_name)  # 웹상의 이미지를 다운로드해주는 역할

# urllib.parse: URL을 파싱하여 분석하기 위한 모듈 (HTTP, FTP, SSH, IMAP 등도 포함)
# urlparse(): URL을 6개의 요소로 분리하여 반환
# ParseResult(scheme='http', netloc='blog.naver.com', path='/koreatech91',
# params='a=1', query='b=2', fragment='b')
import urllib.parse as par

parse = par.urlparse("http://blog.naver.com/koreatech91;a=1?b=2#b")
print(parse)
print(parse[0])  # print(parse.scheme) == http
print(parse[1])  # print(parse.netloc) == blog.naver.com
print(parse[2])  # print(parse.path) == /koreatech91

# urlsplit(): url을 5개로 분리하여 반환
# SplitResult(scheme='http', netloc='blog.naver.com', path='/koreatech91;a=1',
# query='b=2', fragment='b')
import urllib.parse as par

parse2 = par.urlsplit("http://blog.naver.com/koreatech91;a=1?b=2#b")
print(parse2)
print(parse2[0])  # print(parse.scheme) == http
print(parse2[1])  # print(parse.netloc) == blog.naver.com
print(parse2[2])  # print(parse.path) == /koreatech91;a=1

# urlunparse(), urlunsplit(): 분리된 url을 다시 합침
import urllib.parse as par

parse = par.urlparse("http://blog.naver.com/koreatech91;a=1?b=2#b")  # 리턴 값이 튜플
print(parse)
parse = list(parse)  # 리스트로 바꾼 후 값을 변경할 수 있다.
parse[1] = "blog.daum.net"
unparse = par.urlunparse(parse)  # http://blog.daum.net/koreatech91;a=1?b=2#b
print(unparse)

# 쿼리를 변경하여 요청할 때 활용
import urllib.parse as par

parse = par.urlparse("https://www.naver.com?a=1&b=2&c=3&d=4")
print(parse)
print(parse.query)  # a=1&b=2&c=3&d=4
print(type(parse.query))  # <class 'str'>
qs = par.parse_qs(parse.query)
print(qs)  # {'a': ['1'], 'b': ['2'], 'c': ['3'], 'd': ['4']}
print(type(qs))  # <class 'dict'>
qs1 = par.parse_qsl(parse.query)
print(qs1)  # [('a', '1'), ('b', '2'), ('c', '3'), ('d', '4')]
print(type(qs1))  # <class 'list'>

# urljoin(a, b): a와 b의 url을 합쳐주는 기능, '/' 유무에 따라 URL 주소가 달라지는 것에 주의
import urllib.parse as par

url = "https://naver.com/a/b"
print(par.urljoin(url, 'c'))
print(par.urljoin(url, '/c'))

# quote(), unquote(): 아스키 코드가 아닌 문자들을 퍼센트 인코딩으로 교환해줌
# url에 한글이 섞이면 오류가 발생한다.
import urllib.request as req
import urllib.parse as pas

# url = 'http://search.naver.com/search.naver?query=파이썬' -> 한글 오류
url = "http://search.naver.com/search.naver?query=python"
response_urllib = req.urlopen(url)
byte_data = response_urllib.read()
text_data = byte_data.decode()
print(pas.quote('파이썬'))  # %ED%8C%8C%EC%9D%B4%EC%8D%AC
# print(text_data)

# urllib 라이브러리 활용
# 1. 홈페이지를 로컬에 파일로 저장
import urllib.request as req

request = req.Request("http://www.naver.com")
data = req.urlopen(request).read()
f = open("pc.html", "wb")
f.write(data)
f.close()

# 2. 헤더(header)를 추가해서(접속기기를 모바일로 인식하도록 설정) 모바일 페이지를 파일로 저장
import urllib.request as req

header = {'User-Agent': 'Mozilla/5.0 (iPhone)'}
request = req.Request("https://www.naver.com", headers=header)
data = req.urlopen(request).read()
f = open("mobile.html", "wb")
f.write(data)
f.close()

# 3. 파라미터를 변경해 여러 가지 네이버 검색 결과 가져오기
import urllib.request as req
import urllib.parse as par

query_list = ['파이썬', '웹 크롤링', '빅데이터', 'python']
url = 'https://search.naver.com/search.naver?query='
for i in query_list:
    new_url = url + par.quote(i)  # 한글, 특수문자 처리 % 문자로
    response_urllib = req.urlopen(new_url)
    byte_data = response_urllib.read()
    text_data = byte_data.decode()
    print(text_data)

# 4. 파이썬 문법을 활용하여 연관 검색어 리스트 출력(현재는 서비스 중지)
# 정규 표현식 및 문자열 함수 이용
import urllib.request as req
import urllib.parse as par
import re

query_list = ['파이썬', '웹 크롤링', '빅데이터', 'python']
url = 'https://search.naver.com/search.naver?query='
for i in query_list:
    new_url = url + par.quote(i)  # 한글, 특수문자 처리 %문자로
    response_urllib = req.urlopen(new_url)
    byte_data = response_urllib.read()
    text_data = byte_data.decode()
    # text_data = text_data.split('연관검색어')[1].split('도움말')[1].split('닫기 후 1주일간')[0]
    text_data = re.sub('<.+?>', '', text_data, 0, re.I | re.S)
    text_data = text_data.replace('  ', ' ').strip()
    print(i, ": ", text_data)

 

BeautifulSoup

BeautifulSoup은 홈페이지 내 데이터를 쉽게 추출할 수 있도록 도와주는 라이브러리이다. 웹 문서 내 수많은 HTML 태그들을 parser 모듈을 활용해 사용하기 편한 파이썬 객체로 만들어 제공한다. 웹 문서 구조를 알고 나서 사용하면 편하게 원하는 데이터를 뽑아 활용할 수 있다. 명령 프롬프트나 터미널에 'pip install bs4'를 입력하여 설치한다.

# BeautifulSoup
import requests
from bs4 import BeautifulSoup

req = requests.get("https://www.naver.com")
html = req.text
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

# 태그를 통해 가져오기
# 태그['속성']: HTML 해당 태그의 속성 중 첫 번째 값을 가져옴
import requests
from bs4 import BeautifulSoup

req = requests.get("https://www.naver.com")
html = req.text
soup = BeautifulSoup(html, 'html.parser')
print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.img)
print(soup.img['alt'])
print(soup.img['width'])
print(soup.img['height'])

# find(속성='값'): 해당 속성과 첫 번째로 일치하는 값을 가져옴
print(soup.find('a'))
print(soup.find(id='search'))

# find_all(): HTML의 해당 태그와 일치하는 모든 결과를 리스트 형식으로 가져옴
# limit 옵션으로 개수 지정 가능
print(soup.find_all('a', limit=2))
print(soup.find_all('a')[0])

# css 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 '속성=값'으로 필터링)
print(soup.find_all('span', class_="blind"))
print(soup.find_all("span", attrs={"class": "blind"}))

# string으로 검색(해당 값이 있는지 없는지 검사할 때 활용, 정규 표현식과 함께 활용)
print(soup.find_all(string='자동완성 끄기'))
import re

print(soup.find_all(string=re.compile("네이버")))

# select_one(), select(): css 선택자를 활용하여 원하는 정보를 가져옴 (find(), find_all()하고 비슷)
print(soup.select_one('a'))
print(soup.select('a'))
print(soup.select("body a"))
print(soup.select('div> ul'))

# Beautifulsoup을 이용한 데이터 가공
# get_text(): 검색 결과에서 태그를 제외한 텍스트만 출력
# get('속성'): 해당 속성의 값을 출력
text = soup.find("span", attrs={"class": "blind"})
print(text)  # 태그 및 내용 전부 출력
print(text.get_text())  # 태그 제외, 내용만 출력
print(text.get('class'))  # 클래스 속성 값 출력

# string: 검색 결과에서 태그 안에 또 다른 태그가 없는 경우 해당 내용을 출력
text = '''<li class="an_item">
<a class="an_a  mn_checkout data-clk="svc.pay" href="https://order.pay.naver.com/home">
<span  class="an_icon"></span><span class="an_txt">네이버페이</span>
</a>
</li>'''
soup = BeautifulSoup(text, 'html.parser')
print(soup.string)  # 태그안에 태그가 있기 때문에 None 반환
result = soup.find('span', class_='an_txt')
print(result)  # <span class="an_txt">네이버페이</span>
print(result.string)  # 네이버페이

# BeautifulSoup 응용
# 네이버 영화 랭킹 가져오기
# https://movie.naver.com/movie/sdb/rank/rmovie.nhn
# Beautifulsoup로 파싱
import requests
from bs4 import BeautifulSoup

req = requests.get("https://movie.naver.com/movie/sdb/rank/rmovie.nhn")
html = req.text
soup = BeautifulSoup(html, 'html.parser')
print(soup)

# 1. 텍스트에서 영화 랭킹 찾기
# 2. 영화 랭킹에 해당하는 부분의 태그 찾기
# td 태그 class=title, div 태그, class는 tit3, a 태그, title 및 내용이 영화 제목
# Beautifulsoup 객체의 함수로 데이터 가공
movie_ranking_list = soup.find_all('div', class_="tit3")
for i in range(len(movie_ranking_list)):
    print("{:2} 위: {}".format(i + 1, movie_ranking_list[i].get_text().strip()))

 

Selenium

Selenium은 웹브라우저를 컨트롤해서 웹 UI를 자동화하는 도구, 라이브러리이다. 명령 프롬프트나 터미널에 'pip install selenium'을 입력하여 설치할 수 있다. 추가적으로, 브라우저를 조종하기 위한 드라이버가 필요하다. 보통 크롬 드라이버를 많이 쓰며, https://sites.google.com/a/chromium.org/chromedriver/downloads에서 다운로드할 수 있다. 크롬 드라이버를 압축을 풀고 같은 디렉터리에 위치시켜야 한다.

# Selenium
# python.org 웹사이트에 방문해서 상단 메인 메뉴 문자열을 출력하고
# 웹사이트의 PyPI 메뉴를 클릭한 후 5초 후에 브라우져를 종료시킨다.
from selenium import webdriver
import time

browser = webdriver.Chrome()
browser.get("http://python.org")
menus = browser.find_elements_by_css_selector('#top ul.menu li')
pypi = None
for m in menus:
    if m.text == "PyPI":
        pypi = m
    print(m.text)
pypi.click()  # 클릭
time.sleep(5)  # 5초 대기
browser.quit()  # 브라우저 종료

 

2021 KBO 프로 야구 관중 수 크롤링 및 시각화

한국야구위원회(https://www.koreabaseball.com/History/Crowd/GraphDaily.aspx)에서는 일간 프로야구 관객 수를 제공하고 있다. 이 데이터를 사용해서 데이터를 수집하고 Seaborn 라이브러리를 이용해서 시각화해보자.

# 2021년 KBO 프로야구 관객 수를 크롤링하여 시각화
# https://www.koreabaseball.com/History/Crowd/GraphDaily.aspx

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from bs4 import BeautifulSoup

plt.rc('font', family='gulim')

req = requests.get('https://www.koreabaseball.com/History/Crowd/GraphDaily.aspx')
soup = BeautifulSoup(req.text, 'html.parser')

# class 이름이 tData인 table을 가져온다.
tdata = soup.find('table', {'class': 'tData'})

# table에서 tbody를 찾는다
series = tdata.find('tbody')

# 객체가 아닌 string 형태로 담아준다.
kbdata_spec = series.text

# tr 태그를 찾는다.
table_rows = tdata.find_all('tr')

# res라는 list에 row 별로 담아준다.
res = []
for tr in table_rows:
    td = tr.find_all('td')
    row = [tr.text.strip() for tr in td if tr.text.strip()]
    if row:
        res.append(row)

# DataFrame으로 만들어준다.
df = pd.DataFrame(res, columns=["date", "day", "team_1", "team_2", 'place', 'number'])

# 첫 줄은 드롭한다.
df = df.drop(0)

# 전 처리
# 콤마 제거
df['number'] = df['number'].str.replace(',', '')

# datetime type으로 변환
df['date'] = pd.to_datetime(df['date'])

# 날짜 칼럼을 분리
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['dayofweek'] = df['date'].dt.dayofweek

# 숫자형 칼럼로 분리
df['number'] = df['number'].astype(int)

# 관객 수대로 정렬
df.sort_values('number', ascending=False)

# 시각화
# 관객 숫자 분포도
sns.distplot(df['number'])
plt.show()

# 월별 관중 수 막대 그래프
plt.figure(figsize=(12, 9))
x = df.groupby('month')['number'].sum().keys()
y = df.groupby('month')['number'].sum()
sns.barplot(x, y)
plt.show()

# 구장별 관중 수 막대 그래프
x = df.groupby('place')['number'].sum().keys()
y = df.groupby('place')['number'].sum()
sns.barplot(x, y)
plt.xlabel('구장')
plt.ylabel('관중수')
plt.show()

# 요일별 관중 수 막대 그래프
xlabel = ['월', '화', '수', '목', '금', '토', '일']
plt.figure(figsize=(12, 9))
x = df.groupby('dayofweek')['number'].sum().keys()
y = df.groupby('dayofweek')['number'].sum()
ax = sns.barplot(x, y)
ax.set(xticklabels=xlabel)
plt.xlabel('요일')
plt.ylabel('관중수')
plt.show()

# 일별 관중 수 막대 그래프
plt.figure(figsize=(12, 9))
x = df.groupby('day')['number'].sum().keys()
y = df.groupby('day')['number'].sum()
ax = sns.barplot(x, y)
plt.xlabel('일별')
plt.ylabel('관중수')
plt.show()