본문 바로가기

🐍Python10

[20210806] requests, urllib, BeatifulSoup, Selenium 라이브러리를 이용한 웹크롤링 웹크롤링 웹크롤링(web crawling)은 웹사이트로 이뤄진 웹 상에서 주기적으로 데이터를 추출하는 것을 말한다. 참고로, 웹에서 데이터를 추출하는 행위 자체는 '웹 스크레이핑'(web scraping)이라고 해야 하지만, 어차피 웹 스크레이핑을 주기적으로 수행하는 것이 웹크롤링이므로, 용어를 웹크롤링으로 통일하여 사용하겠다. 여기서는 파이썬의 기본 내장 라이브러리인 urllib의 하위 모듈들(request, parse, error, robotparse)과, requests 라이브러리, BeautifulSoup 라이브러리, Selenium을 사용한다. requests requests는 URL에 요청을 전달하고 응답을 받아오는 역할을 하는 라이브러리이다. 명령 프롬프트나 터미널에 'pip install .. 2021. 8. 6.
[20210805] Matplotlib, Seaborn 라이브러리를 이용한 데이터 시각화 Matplotlib Matplotlib은 numpy, pandas를 이용하여 그래프를 그리는 라이브러리이다. 명령 프롬프트나 터미널에 'pip install matplotlib'을 입력하여 설치한다. # Matplotlib import matplotlib.pyplot as plt import numpy as np plt.rc('font', family='gulim') # 한글 지원 폰트로 폰트를 변경 # 단일 그래프 data = np.arange(1, 100) # arange(a, b) 메서드는 a부터 b까지의 수로 이뤄진 numpy 배열을 만든다. plt.plot(data) plt.show() # 이중 그래프 data1 = np.arange(1, 51) plt.plot(data1) data2 = np... 2021. 8. 5.
[20210804] Pandas 라이브러리 - DataFrame(+ 시계열 데이터 다루기) DataFrame 지난 글에 이어서 Pandas 라이브러리의 DataFrame 모듈에 대해 살펴보려고 한다. # Pandas.DataFrame - 2 # 특정 값 가져오기 from pandas import DataFrame data = [ ["0010", "Hong", 250, 5.5], ["0020", "Lee", 300, 6.5], ["0030", "Kang", 280, 6.0], ] columns = ['emno', 'ename', 'sal', 'comm'] df = DataFrame(data=data, columns=columns) df = df.set_index('emno') print(df.iloc[0].iloc[1]) print(df.iloc[0][1]) print(df.iloc[0].loc.. 2021. 8. 4.
[20210803] Pandas 라이브러리 - Series, DataFrame Pandas란 판다스(Pandas)는 데이터 분석을 위해 사용하는 라이브러리이다. 일차원 데이터를 위한 시리즈(Series)와 이차원 데이터를 위한 데이터프레임(DataFrame) 모듈로 이뤄져 있다. 명령 프롬프트나 터미널에 'pip install pandas'를 입력하여 설치한다. Pandas.Series 시리즈는 1차원 데이터를 표현하는 자료구조이다. 일차원 구조는 데이터 표 한 행, 한 열, 또는 하나의 데이터만 가지는 구조를 의미한다. # Pandas.Series from pandas import Series data = [1, 2, 3] print(data) # data 값에 10을 곱한 값을 구하려면? print(data * 10) # [1, 2, 3]에 10을 곱하면, 10, 20, 30이.. 2021. 8. 3.
728x90