A.I
데이터 가져오기 본문
데이터 가져오기¶
소켓통신¶
In [1]:
import socket
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s: # 소켓 s를 하나 열어서
s.connect(('www.google.com', 80)) # www.google.com 이라는 호스트의 80번 포트에 접속합니다.
cmd = 'GET http://www.google.com HTTP/1.0\r\n\r\n'.encode()
s.send(cmd) # 접속이 되면 GET xxxxx 형식의 HTTP 프로토콜로 된 명령을 전송합니다.
data = s.recv(1024) # 그리고 1024바이트만큼의 HTTP 응답을 수신합니다.
print('Received:', data)
Received: b'HTTP/1.0 404 Not Found\r\nContent-Type: text/html; charset=UTF-8\r\nDate: Mon, 15 Feb 2021 00:40:55 GMT\r\nServer: gws\r\nContent-Length: 1561\r\nX-XSS-Protection: 0\r\nX-Frame-Options: SAMEORIGIN\r\n\r\n<!DOCTYPE html>\n<html lang=en>\n <meta charset=utf-8>\n <meta name=viewport content="initial-scale=1, minimum-scale=1, width=device-width">\n <title>Error 404 (Not Found)!!1</title>\n <style>\n *{margin:0;padding:0}html,code{font:15px/22px arial,sans-serif}html{background:#fff;color:#222;padding:15px}body{margin:7% auto 0;max-width:390px;min-height:180px;padding:30px 0 15px}* > body{background:url(//www.google.com/images/errors/robot.png) 100% 5px no-repeat;padding-right:205px}p{margin:11px 0 22px;overflow:hidden}ins{color:#777;text-decoration:none}a img{border:0}@media screen and (max-width:772px){body{background:none;margin-top:0;max-width:none;padding-right:0}}#logo{background:url(//www.google.com/images/branding/googlelogo/1x/googlelogo_color_150x54dp.png) no-repeat;margin-left:-5px}@media only screen and (min-resoluti'
TCP/IP¶
- TCP: Transmission Control Protocol -> 소켓 포트 단위의 송수신 프로토콜
- Transport 레이어에서 어플리케이션 간의 통신 채널을 생성하고 패킷으로 쪼개진 데이터의 정확한 전송 흐름을 관리한다.
- 하나의 컴퓨터에 여러개의 어플리케이션이 구동되고 있다면 각각 다른 포트 번호의 소켓을 가지고 있게 되는데, 패킷 데이터가 누락되거나 순서가 바뀌는 일 없이, 이 포트 번호를 기준으로 타겟 어플리케이션 소켓으로 정확히 전송될 수 있도록 데이터 흐름을 책임지는 것이 TCP의 역할이다.
IP: Internet Protocol -> 컴퓨터마다 주어지는 IP 주소 단위의 송수신 프로토콜
- IP는 패킷이 전달되어야 할 주소(IP주소)를 정의한다.
- 주소 체계에 따라 목적지로 패킷들을 전송하기 위해 거쳐야 할 다음 라우팅 경로를 결정할 수 있게 한다.
- 패킷의 목적지가 되는 컴퓨터(호스트)는 저마다의 IP 주소를 할당받는다.
- IP는 타겟 주소로 데이터가 정확히 전송되는 것을 책임지는 역할을 하는 프로토콜이다.
TCP/IP 기반의 Application 프로토콜
- HTTP: HyperText Transfer Protocol
- HTTPS: HyperText Transfer Protocol Secure
- FTP: File Transfer Protocol
- SSH: Secure Shell (암호화된 네트워크 프로토콜)
- DNS: Domain Name System
Port Number
API¶
OPEN API¶
Rest API¶
1. REST란?¶
Representational State Transfe라는 용어의 약자이다.
자원을 URI로 표시하고 해당 자원의 상태를 주고 받는 것을 의미한다.
2. REST의 구성 요소¶
자원(Resource): URI
행위(Verb): HTTP METHOD
표현(Representations)
3. REST의 특징¶
- Uniform Interface (유니폼 인터페이스) HTTP 표준만 따른다면 어떤 언어 혹은 어떤 플랫폼에서 사용하여도 사용이 가능한 인터페이스 스타일이다. 안드로이드 플랫폼, IOS 플랫폼 등 특정 언어나 플랫폼에 종속되지 않고 사용이 가능하다.
- Stateless (상태 정보 유지 안함) Rest는 상태 정보를 유지하지 않는다. 서버는 각각의 요청을 완전히 다른 것으로 인식하고 처리를 한다. 이전 요청이 다음 요청 처리에 연관이 되면 안된다.
- Cacheable (캐시 가능) HTTP의 기존 웹 표준을 그대로 사용하기 때문에 HTTP가 가진 캐싱 기능 적용이 가능하다.
- Self-descriptiveness (자체 표현 구조) Rest API 메시지만 보고도 쉽게 이해할 수 있는 자체 표현 구조로 되어있다.
- Client-Server Rest 서버는 API 제공을 하고 클라이언트는 사용자 인증에 관련된 일들을 직접 관리한다. 자원이 있는 쪽을 Server라고 하고 자원을 요청하는 쪽이 Client가 된다. 서로간의 의존성이 줄어들기 때문에 역할이 확실하게 구분되어 개발해야할 내용들이 명확해진다.
- Layerd System (계층화) 클라이언트는 Rest API 서버만 호출한다. Rest 서버는 다중 계층으로 구성될수 있으면 로드 밸런싱, 암호화, 사용자 인증 등을 추가하여 구조상의 유연성을 둘 수 있다.
4. REST API란?¶
Rest 기반의 규칙들을 지켜서 설계된 API를 Rest API 혹은 Restful API이라고 한다.
5. REST API 설계 규칙¶
1. URI는 정보의 자원을 표현해야한다.
자원의 이름은 동사보다는 명사를 사용한다.
URI는 자원을 표현하는데 중점을 두어야 하기 때문에 행위에 대한 표현이 들어가면 안된다.
(URI에 HTTP METHOD와 행위에대한 동사 표현이 들어가면 안된다.)
GET /users/321
2. 자원에 대한 행위는 HTTP METHOD로 표현한다. (GET, POST, PUT DELETE)
URI에 자원의 행위에 대한 표현이 들어가지 않는 대신 HTTP METHOD를 통해 대신한다.
GET /users/321 321 ID를 가진 유저 정보를 가져오기
DELETE /users/321 321 ID를 가진 유저 정보를 삭제하기
POST /users 유저를 생성하기
3. 슬래시 (/)는 계층 관계를 나타내는데 사용한다.
http://restapi.test.com/users/rooms
http://restapi.test.com/users/board
4. URI 마지막은 슬래시(/)를 사용하면 안된다.
http://restapi.test.com/users/rooms/ [X]
http://restapi.test.com/users/rooms [O]
5. 하이픈 (-)은 URI의 가독성을 높이는데 사용한다.
불가피하게 긴 URI를 사용하게 될 경우 하이픈을 이용하여 가독성을 높인다.
6. 언더바(_) 혹은 밑줄은 URI에 사용하지 않는다.
밑줄은 보기 어렵거나 밑줄 때문에 문자가 가려지기도 한다.
그래서 대신 언더바를 사용하지 않고 하이픈을 이용한다.
7. URI는 경로에는 소문자가 적합하다.
URI 경로에는 대문자 사용을 피해야한다.
대소문자에 따라 각자 다른 리소스로 인식하기 때문이다.
RFC3986(URI 문법 형식)은 URI 스키마와 호스트를 제외하고는 대소문자를 구별하도록 규정하기 때문이다.
8. 파일 확장자는 URI에 포함하지 않는다.
REST API에서는 메시지 바디 내용의 포맷을 나타내기 위한 파일 확장자를 URI 안에 포함시키지 않는다.
Accept header를 사용한다.
9. 리소스 간의 관계를 표현하는 방법
GET : /users/{userid}/devices
6. HTTP 응답 코드¶
- 2xx 성공
200: 클라이언트의 요청을 정상적으로 수행함.
201: 클라이언트에게 생성 작업을 요청 받았고, 생성 작업을 성공함.
204: 요청은 성공 했지만 응답할 콘텐츠가 없음. - 3xx 리다이렉션
301: 클라이언트가 요청한 리소스에 대한 URI가 영구적으로 변경되었을 때 사용함.
302: 301과 같으나 임시적으로 주소가 바뀌었을 경우 사용함.
304: 이전에 방문했을 때의 요청 결과와 다르지 않을 경우 사용함. 캐시된 페이지를 그대로 사용.
307: 임시 페이지로 리다이렉트. - 4xx 클라이언트 오류
400: 클라이언트가 올바르지 못한 요청을 보냄.
401: 로그인을 하지 않아 페이지를 열 권한이 없음.
403: 금지된 페이지, 로그인을 하든 안하든 접근할 수 없음. (관리자 페이지)
404: 찾을 수 없는 페이지, 주소를 잘 못 입력했을 때 사용함.
403 대신에 사용할 수도 있음.(해커들의 공격을 방지하고자 페이지가 없는 것처럼 위장함)
408: 요청 시간이 초과됨.
409: 서버가 요청을 처리하는 과정에서 충돌이 발생한 경우. (회원가입 중 중복된 아이디인 경우)
410: 영구적으로 사용할 수 없는 페이지. - 5xx 서버 오류
501: 해당 요청을 처리하는 기능이 만들어지지 않음.
502: 서버로 가능 요청이 중간에서 유실된 경우.
503: 서버가 터졌거나 유지 보수 중 (유지 보수 중일때는 유지 보수중이라는 것을 알려주는 페이지로 전송해주는 것이 좋음)
504: 서버 게이트웨이에 문제가 생겨 시간 초과가 된 경우.
505: HTTP 버전이 달라 요청이 처리할 수 없음.
날씨 OPEN API 사용해보기¶
In [2]:
import requests
myapi = "afd7bfb9b5a9b81537b9cab2435e2a8b"
#lat: 위도, #lon:경도
def makeurl(lat, lng):
url = "https://api.openweathermap.org/data/2.5/onecall?lat={}&lon={}&appid={}".format(lat, lng, myapi)
return url
response = requests.get(makeurl(37,127))
weather = response.json()
weather
Out[2]:
{'lat': 37, 'lon': 127, 'timezone': 'Asia/Seoul', 'timezone_offset': 32400, 'current': {'dt': 1613352477, 'sunrise': 1613341269, 'sunset': 1613380284, 'temp': 275.15, 'feels_like': 268.49, 'pressure': 1011, 'humidity': 87, 'dew_point': 273.22, 'uvi': 1.34, 'clouds': 90, 'visibility': 4828, 'wind_speed': 6.69, 'wind_deg': 290, 'wind_gust': 9.26, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04d'}]}, 'minutely': [{'dt': 1613352480, 'precipitation': 0}, {'dt': 1613352540, 'precipitation': 0}, {'dt': 1613352600, 'precipitation': 0}, {'dt': 1613352660, 'precipitation': 0}, {'dt': 1613352720, 'precipitation': 0}, {'dt': 1613352780, 'precipitation': 0}, {'dt': 1613352840, 'precipitation': 0}, {'dt': 1613352900, 'precipitation': 0}, {'dt': 1613352960, 'precipitation': 0}, {'dt': 1613353020, 'precipitation': 0}, {'dt': 1613353080, 'precipitation': 0}, {'dt': 1613353140, 'precipitation': 0}, {'dt': 1613353200, 'precipitation': 0}, {'dt': 1613353260, 'precipitation': 0}, {'dt': 1613353320, 'precipitation': 0}, {'dt': 1613353380, 'precipitation': 0}, {'dt': 1613353440, 'precipitation': 0}, {'dt': 1613353500, 'precipitation': 0}, {'dt': 1613353560, 'precipitation': 0}, {'dt': 1613353620, 'precipitation': 0}, {'dt': 1613353680, 'precipitation': 0}, {'dt': 1613353740, 'precipitation': 0}, {'dt': 1613353800, 'precipitation': 0}, {'dt': 1613353860, 'precipitation': 0}, {'dt': 1613353920, 'precipitation': 0}, {'dt': 1613353980, 'precipitation': 0}, {'dt': 1613354040, 'precipitation': 0}, {'dt': 1613354100, 'precipitation': 0}, {'dt': 1613354160, 'precipitation': 0}, {'dt': 1613354220, 'precipitation': 0}, {'dt': 1613354280, 'precipitation': 0}, {'dt': 1613354340, 'precipitation': 0}, {'dt': 1613354400, 'precipitation': 0}, {'dt': 1613354460, 'precipitation': 0}, {'dt': 1613354520, 'precipitation': 0}, {'dt': 1613354580, 'precipitation': 0}, {'dt': 1613354640, 'precipitation': 0}, {'dt': 1613354700, 'precipitation': 0}, {'dt': 1613354760, 'precipitation': 0}, {'dt': 1613354820, 'precipitation': 0}, {'dt': 1613354880, 'precipitation': 0}, {'dt': 1613354940, 'precipitation': 0}, {'dt': 1613355000, 'precipitation': 0}, {'dt': 1613355060, 'precipitation': 0}, {'dt': 1613355120, 'precipitation': 0}, {'dt': 1613355180, 'precipitation': 0}, {'dt': 1613355240, 'precipitation': 0}, {'dt': 1613355300, 'precipitation': 0}, {'dt': 1613355360, 'precipitation': 0}, {'dt': 1613355420, 'precipitation': 0}, {'dt': 1613355480, 'precipitation': 0}, {'dt': 1613355540, 'precipitation': 0}, {'dt': 1613355600, 'precipitation': 0}, {'dt': 1613355660, 'precipitation': 0}, {'dt': 1613355720, 'precipitation': 0}, {'dt': 1613355780, 'precipitation': 0}, {'dt': 1613355840, 'precipitation': 0}, {'dt': 1613355900, 'precipitation': 0}, {'dt': 1613355960, 'precipitation': 0}, {'dt': 1613356020, 'precipitation': 0}, {'dt': 1613356080, 'precipitation': 0}], 'hourly': [{'dt': 1613350800, 'temp': 275.15, 'feels_like': 266.24, 'pressure': 1011, 'humidity': 87, 'dew_point': 273.22, 'uvi': 1.34, 'clouds': 90, 'visibility': 10000, 'wind_speed': 9.91, 'wind_deg': 292, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04d'}], 'pop': 0.24}, {'dt': 1613354400, 'temp': 275.36, 'feels_like': 265.88, 'pressure': 1011, 'humidity': 82, 'dew_point': 272.67, 'uvi': 2.1, 'clouds': 80, 'visibility': 10000, 'wind_speed': 10.6, 'wind_deg': 293, 'weather': [{'id': 803, 'main': 'Clouds', 'description': 'broken clouds', 'icon': '04d'}], 'pop': 0.04}, {'dt': 1613358000, 'temp': 275.24, 'feels_like': 265.06, 'pressure': 1010, 'humidity': 78, 'dew_point': 271.97, 'uvi': 2.61, 'clouds': 56, 'visibility': 10000, 'wind_speed': 11.44, 'wind_deg': 293, 'weather': [{'id': 803, 'main': 'Clouds', 'description': 'broken clouds', 'icon': '04d'}], 'pop': 0}, {'dt': 1613361600, 'temp': 275.11, 'feels_like': 264.74, 'pressure': 1010, 'humidity': 75, 'dew_point': 271.39, 'uvi': 2.82, 'clouds': 39, 'visibility': 10000, 'wind_speed': 11.59, 'wind_deg': 292, 'weather': [{'id': 802, 'main': 'Clouds', 'description': 'scattered clouds', 'icon': '03d'}], 'pop': 0}, {'dt': 1613365200, 'temp': 274.53, 'feels_like': 263.45, 'pressure': 1010, 'humidity': 75, 'dew_point': 270.89, 'uvi': 2.31, 'clouds': 28, 'visibility': 10000, 'wind_speed': 12.5, 'wind_deg': 293, 'weather': [{'id': 802, 'main': 'Clouds', 'description': 'scattered clouds', 'icon': '03d'}], 'pop': 0}, {'dt': 1613368800, 'temp': 273.79, 'feels_like': 262.55, 'pressure': 1010, 'humidity': 76, 'dew_point': 262.3, 'uvi': 1.5, 'clouds': 24, 'visibility': 10000, 'wind_speed': 12.64, 'wind_deg': 295, 'weather': [{'id': 801, 'main': 'Clouds', 'description': 'few clouds', 'icon': '02d'}], 'pop': 0}, {'dt': 1613372400, 'temp': 273, 'feels_like': 261.96, 'pressure': 1010, 'humidity': 79, 'dew_point': 261.83, 'uvi': 0.72, 'clouds': 0, 'visibility': 10000, 'wind_speed': 12.3, 'wind_deg': 296, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'pop': 0}, {'dt': 1613376000, 'temp': 272.13, 'feels_like': 261.59, 'pressure': 1011, 'humidity': 80, 'dew_point': 261.74, 'uvi': 0.21, 'clouds': 0, 'visibility': 10000, 'wind_speed': 11.48, 'wind_deg': 296, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'pop': 0}, {'dt': 1613379600, 'temp': 271.13, 'feels_like': 261.11, 'pressure': 1012, 'humidity': 82, 'dew_point': 261.79, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 10.64, 'wind_deg': 297, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'pop': 0}, {'dt': 1613383200, 'temp': 270.76, 'feels_like': 261.14, 'pressure': 1013, 'humidity': 82, 'dew_point': 261.69, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 10.01, 'wind_deg': 297, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613386800, 'temp': 270.64, 'feels_like': 261.29, 'pressure': 1014, 'humidity': 82, 'dew_point': 261.62, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 9.61, 'wind_deg': 298, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613390400, 'temp': 270.58, 'feels_like': 261.59, 'pressure': 1015, 'humidity': 82, 'dew_point': 261.69, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 9.08, 'wind_deg': 298, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613394000, 'temp': 270.47, 'feels_like': 261.82, 'pressure': 1016, 'humidity': 83, 'dew_point': 261.8, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 8.61, 'wind_deg': 299, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613397600, 'temp': 270.41, 'feels_like': 262.21, 'pressure': 1017, 'humidity': 83, 'dew_point': 261.71, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 7.96, 'wind_deg': 301, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613401200, 'temp': 270.38, 'feels_like': 262.3, 'pressure': 1017, 'humidity': 83, 'dew_point': 261.7, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 7.78, 'wind_deg': 304, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613404800, 'temp': 270.32, 'feels_like': 262.7, 'pressure': 1018, 'humidity': 83, 'dew_point': 261.67, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 7.11, 'wind_deg': 305, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613408400, 'temp': 270.25, 'feels_like': 263.72, 'pressure': 1017, 'humidity': 82, 'dew_point': 261.27, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 5.52, 'wind_deg': 311, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613412000, 'temp': 269.98, 'feels_like': 265.27, 'pressure': 1016, 'humidity': 82, 'dew_point': 261.12, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 2.88, 'wind_deg': 318, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613415600, 'temp': 269.74, 'feels_like': 266.54, 'pressure': 1015, 'humidity': 82, 'dew_point': 260.8, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 0.69, 'wind_deg': 288, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613419200, 'temp': 269.69, 'feels_like': 266.29, 'pressure': 1015, 'humidity': 82, 'dew_point': 260.71, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 0.97, 'wind_deg': 245, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613422800, 'temp': 269.89, 'feels_like': 265.56, 'pressure': 1015, 'humidity': 82, 'dew_point': 260.98, 'uvi': 0, 'clouds': 5, 'visibility': 10000, 'wind_speed': 2.33, 'wind_deg': 255, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613426400, 'temp': 270.53, 'feels_like': 265.28, 'pressure': 1016, 'humidity': 83, 'dew_point': 261.85, 'uvi': 0, 'clouds': 20, 'visibility': 10000, 'wind_speed': 3.76, 'wind_deg': 253, 'weather': [{'id': 801, 'main': 'Clouds', 'description': 'few clouds', 'icon': '02n'}], 'pop': 0}, {'dt': 1613430000, 'temp': 271.16, 'feels_like': 266.16, 'pressure': 1016, 'humidity': 83, 'dew_point': 262.42, 'uvi': 0.12, 'clouds': 36, 'visibility': 10000, 'wind_speed': 3.49, 'wind_deg': 263, 'weather': [{'id': 802, 'main': 'Clouds', 'description': 'scattered clouds', 'icon': '03d'}], 'pop': 0}, {'dt': 1613433600, 'temp': 271.49, 'feels_like': 266.57, 'pressure': 1015, 'humidity': 86, 'dew_point': 264.35, 'uvi': 0.45, 'clouds': 46, 'visibility': 10000, 'wind_speed': 3.51, 'wind_deg': 275, 'weather': [{'id': 802, 'main': 'Clouds', 'description': 'scattered clouds', 'icon': '03d'}], 'pop': 0}, {'dt': 1613437200, 'temp': 270.68, 'feels_like': 267.3, 'pressure': 1014, 'humidity': 94, 'dew_point': 267.63, 'uvi': 0.98, 'clouds': 100, 'visibility': 524, 'wind_speed': 1.37, 'wind_deg': 245, 'weather': [{'id': 600, 'main': 'Snow', 'description': 'light snow', 'icon': '13d'}], 'pop': 0.4, 'snow': {'1h': 0.19}}, {'dt': 1613440800, 'temp': 270.8, 'feels_like': 266.54, 'pressure': 1013, 'humidity': 96, 'dew_point': 268.78, 'uvi': 1.54, 'clouds': 100, 'visibility': 154, 'wind_speed': 2.7, 'wind_deg': 358, 'weather': [{'id': 601, 'main': 'Snow', 'description': 'snow', 'icon': '13d'}], 'pop': 0.84, 'snow': {'1h': 0.88}}, {'dt': 1613444400, 'temp': 269.06, 'feels_like': 261.04, 'pressure': 1013, 'humidity': 96, 'dew_point': 267.37, 'uvi': 1.9, 'clouds': 100, 'visibility': 215, 'wind_speed': 7.79, 'wind_deg': 353, 'weather': [{'id': 601, 'main': 'Snow', 'description': 'snow', 'icon': '13d'}], 'pop': 1, 'snow': {'1h': 2.5}}, {'dt': 1613448000, 'temp': 270.05, 'feels_like': 262.31, 'pressure': 1012, 'humidity': 93, 'dew_point': 266.42, 'uvi': 2.13, 'clouds': 100, 'visibility': 10000, 'wind_speed': 7.47, 'wind_deg': 342, 'weather': [{'id': 600, 'main': 'Snow', 'description': 'light snow', 'icon': '13d'}], 'pop': 1, 'snow': {'1h': 0.5}}, {'dt': 1613451600, 'temp': 270.52, 'feels_like': 262.47, 'pressure': 1013, 'humidity': 90, 'dew_point': 265.72, 'uvi': 1.75, 'clouds': 100, 'visibility': 10000, 'wind_speed': 7.92, 'wind_deg': 324, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04d'}], 'pop': 0.8}, {'dt': 1613455200, 'temp': 271.1, 'feels_like': 262.94, 'pressure': 1013, 'humidity': 82, 'dew_point': 262.09, 'uvi': 1.13, 'clouds': 97, 'visibility': 10000, 'wind_speed': 7.97, 'wind_deg': 311, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04d'}], 'pop': 0.8}, {'dt': 1613458800, 'temp': 270.91, 'feels_like': 262.1, 'pressure': 1014, 'humidity': 78, 'dew_point': 259.75, 'uvi': 0.73, 'clouds': 0, 'visibility': 10000, 'wind_speed': 8.78, 'wind_deg': 308, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'pop': 0}, {'dt': 1613462400, 'temp': 270.16, 'feels_like': 261.41, 'pressure': 1015, 'humidity': 79, 'dew_point': 259.6, 'uvi': 0.21, 'clouds': 0, 'visibility': 10000, 'wind_speed': 8.61, 'wind_deg': 303, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'pop': 0}, {'dt': 1613466000, 'temp': 268.78, 'feels_like': 260.21, 'pressure': 1016, 'humidity': 81, 'dew_point': 259.54, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 8.22, 'wind_deg': 304, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'pop': 0}, {'dt': 1613469600, 'temp': 267.88, 'feels_like': 259.43, 'pressure': 1017, 'humidity': 82, 'dew_point': 259.65, 'uvi': 0, 'clouds': 0, 'visibility': 10000, 'wind_speed': 7.95, 'wind_deg': 306, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613473200, 'temp': 267.63, 'feels_like': 259.55, 'pressure': 1017, 'humidity': 85, 'dew_point': 260.46, 'uvi': 0, 'clouds': 5, 'visibility': 10000, 'wind_speed': 7.45, 'wind_deg': 306, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01n'}], 'pop': 0}, {'dt': 1613476800, 'temp': 267.58, 'feels_like': 259.45, 'pressure': 1017, 'humidity': 85, 'dew_point': 260.61, 'uvi': 0, 'clouds': 21, 'visibility': 10000, 'wind_speed': 7.52, 'wind_deg': 308, 'weather': [{'id': 801, 'main': 'Clouds', 'description': 'few clouds', 'icon': '02n'}], 'pop': 0}, {'dt': 1613480400, 'temp': 267.73, 'feels_like': 259.03, 'pressure': 1018, 'humidity': 86, 'dew_point': 261.21, 'uvi': 0, 'clouds': 100, 'visibility': 10000, 'wind_speed': 8.37, 'wind_deg': 307, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.32}, {'dt': 1613484000, 'temp': 267.36, 'feels_like': 257.91, 'pressure': 1018, 'humidity': 85, 'dew_point': 260.29, 'uvi': 0, 'clouds': 100, 'visibility': 10000, 'wind_speed': 9.37, 'wind_deg': 310, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.4}, {'dt': 1613487600, 'temp': 266.52, 'feels_like': 256.86, 'pressure': 1018, 'humidity': 84, 'dew_point': 259.31, 'uvi': 0, 'clouds': 100, 'visibility': 10000, 'wind_speed': 9.56, 'wind_deg': 313, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.44}, {'dt': 1613491200, 'temp': 266.09, 'feels_like': 256.88, 'pressure': 1018, 'humidity': 85, 'dew_point': 259.52, 'uvi': 0, 'clouds': 100, 'visibility': 10000, 'wind_speed': 8.89, 'wind_deg': 312, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.4}, {'dt': 1613494800, 'temp': 265.52, 'feels_like': 255.48, 'pressure': 1018, 'humidity': 89, 'dew_point': 260.73, 'uvi': 0, 'clouds': 100, 'visibility': 4790, 'wind_speed': 10.07, 'wind_deg': 310, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.4}, {'dt': 1613498400, 'temp': 265.06, 'feels_like': 254.93, 'pressure': 1018, 'humidity': 90, 'dew_point': 260.6, 'uvi': 0, 'clouds': 100, 'visibility': 3223, 'wind_speed': 10.16, 'wind_deg': 307, 'weather': [{'id': 600, 'main': 'Snow', 'description': 'light snow', 'icon': '13n'}], 'pop': 0.4, 'snow': {'1h': 0.13}}, {'dt': 1613502000, 'temp': 264.86, 'feels_like': 254.81, 'pressure': 1018, 'humidity': 89, 'dew_point': 260.18, 'uvi': 0, 'clouds': 100, 'visibility': 3995, 'wind_speed': 10.01, 'wind_deg': 309, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.28}, {'dt': 1613505600, 'temp': 264.45, 'feels_like': 254.68, 'pressure': 1018, 'humidity': 90, 'dew_point': 260.21, 'uvi': 0, 'clouds': 100, 'visibility': 2956, 'wind_speed': 9.58, 'wind_deg': 311, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.4}, {'dt': 1613509200, 'temp': 264.17, 'feels_like': 254.38, 'pressure': 1018, 'humidity': 90, 'dew_point': 260.05, 'uvi': 0, 'clouds': 100, 'visibility': 2731, 'wind_speed': 9.58, 'wind_deg': 312, 'weather': [{'id': 600, 'main': 'Snow', 'description': 'light snow', 'icon': '13n'}], 'pop': 0.44, 'snow': {'1h': 0.13}}, {'dt': 1613512800, 'temp': 263.91, 'feels_like': 254.18, 'pressure': 1018, 'humidity': 89, 'dew_point': 259.15, 'uvi': 0, 'clouds': 100, 'visibility': 5577, 'wind_speed': 9.46, 'wind_deg': 314, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04n'}], 'pop': 0.4}, {'dt': 1613516400, 'temp': 263.54, 'feels_like': 254.12, 'pressure': 1019, 'humidity': 89, 'dew_point': 259.17, 'uvi': 0.2, 'clouds': 100, 'visibility': 3890, 'wind_speed': 8.98, 'wind_deg': 316, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04d'}], 'pop': 0.4}, {'dt': 1613520000, 'temp': 263.98, 'feels_like': 254.37, 'pressure': 1019, 'humidity': 87, 'dew_point': 258.4, 'uvi': 0.71, 'clouds': 100, 'visibility': 10000, 'wind_speed': 9.27, 'wind_deg': 315, 'weather': [{'id': 804, 'main': 'Clouds', 'description': 'overcast clouds', 'icon': '04d'}], 'pop': 0.4}], 'daily': [{'dt': 1613358000, 'sunrise': 1613341269, 'sunset': 1613380284, 'temp': {'day': 275.24, 'min': 270.41, 'max': 280.68, 'night': 270.41, 'eve': 271.13, 'morn': 278.44}, 'feels_like': {'day': 265.06, 'night': 262.21, 'eve': 261.11, 'morn': 274.08}, 'pressure': 1010, 'humidity': 78, 'dew_point': 271.97, 'wind_speed': 11.44, 'wind_deg': 293, 'weather': [{'id': 616, 'main': 'Snow', 'description': 'rain and snow', 'icon': '13d'}], 'clouds': 56, 'pop': 0.64, 'rain': 0.38, 'snow': 0.25, 'uvi': 2.82}, {'dt': 1613444400, 'sunrise': 1613427600, 'sunset': 1613466747, 'temp': {'day': 269.06, 'min': 267.36, 'max': 271.49, 'night': 267.36, 'eve': 268.78, 'morn': 269.89}, 'feels_like': {'day': 261.04, 'night': 257.91, 'eve': 260.21, 'morn': 265.56}, 'pressure': 1013, 'humidity': 96, 'dew_point': 267.37, 'wind_speed': 7.79, 'wind_deg': 353, 'weather': [{'id': 601, 'main': 'Snow', 'description': 'snow', 'icon': '13d'}], 'clouds': 100, 'pop': 1, 'snow': 4.07, 'uvi': 2.13}, {'dt': 1613530800, 'sunrise': 1613513930, 'sunset': 1613553210, 'temp': {'day': 266.37, 'min': 263.54, 'max': 267.44, 'night': 265.79, 'eve': 266.32, 'morn': 264.17}, 'feels_like': {'day': 255.86, 'night': 257.09, 'eve': 256.16, 'morn': 254.38}, 'pressure': 1019, 'humidity': 81, 'dew_point': 257.84, 'wind_speed': 10.71, 'wind_deg': 307, 'weather': [{'id': 600, 'main': 'Snow', 'description': 'light snow', 'icon': '13d'}], 'clouds': 69, 'pop': 0.44, 'snow': 0.26, 'uvi': 2.64}, {'dt': 1613617200, 'sunrise': 1613600260, 'sunset': 1613639672, 'temp': {'day': 269.07, 'min': 265.08, 'max': 271.1, 'night': 269.81, 'eve': 270.25, 'morn': 265.08}, 'feels_like': {'day': 261.37, 'night': 265.46, 'eve': 265.39, 'morn': 258.2}, 'pressure': 1021, 'humidity': 81, 'dew_point': 259.73, 'wind_speed': 7.01, 'wind_deg': 319, 'weather': [{'id': 801, 'main': 'Clouds', 'description': 'few clouds', 'icon': '02d'}], 'clouds': 17, 'pop': 0, 'uvi': 2.92}, {'dt': 1613703600, 'sunrise': 1613686588, 'sunset': 1613726134, 'temp': {'day': 280.38, 'min': 269.15, 'max': 281.83, 'night': 276.8, 'eve': 278.31, 'morn': 269.15}, 'feels_like': {'day': 273.91, 'night': 272.16, 'eve': 273.27, 'morn': 264.63}, 'pressure': 1017, 'humidity': 66, 'dew_point': 274.65, 'wind_speed': 6.69, 'wind_deg': 224, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'clouds': 0, 'pop': 0, 'uvi': 3.07}, {'dt': 1613790000, 'sunrise': 1613772915, 'sunset': 1613812596, 'temp': {'day': 284.83, 'min': 276.6, 'max': 284.93, 'night': 278.45, 'eve': 281.55, 'morn': 277.27}, 'feels_like': {'day': 279.23, 'night': 274.68, 'eve': 276.59, 'morn': 273.19}, 'pressure': 1006, 'humidity': 67, 'dew_point': 279.13, 'wind_speed': 6.62, 'wind_deg': 239, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'clouds': 0, 'pop': 0, 'uvi': 4}, {'dt': 1613876400, 'sunrise': 1613859241, 'sunset': 1613899057, 'temp': {'day': 283.92, 'min': 275.85, 'max': 287.73, 'night': 280.9, 'eve': 283.6, 'morn': 275.85}, 'feels_like': {'day': 281.28, 'night': 278.93, 'eve': 280.54, 'morn': 272.47}, 'pressure': 1014, 'humidity': 58, 'dew_point': 276.03, 'wind_speed': 1.59, 'wind_deg': 139, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'clouds': 0, 'pop': 0, 'uvi': 4}, {'dt': 1613962800, 'sunrise': 1613945565, 'sunset': 1613985518, 'temp': {'day': 285.47, 'min': 278.37, 'max': 287.84, 'night': 281.81, 'eve': 284.68, 'morn': 278.37}, 'feels_like': {'day': 284.5, 'night': 278.92, 'eve': 281.61, 'morn': 275.64}, 'pressure': 1017, 'humidity': 69, 'dew_point': 280.06, 'wind_speed': 0.32, 'wind_deg': 275, 'weather': [{'id': 800, 'main': 'Clear', 'description': 'clear sky', 'icon': '01d'}], 'clouds': 4, 'pop': 0, 'uvi': 4}]}
크롤링 이용해보기¶
1. 웹페이지 다운로드¶
In [3]:
# urlopen()함수를 통해 해당 서버에서 요청받은 ("HTTPResponse")객체를 반환 합니다.
import urllib
def download(url):
return urllib.request.urlopen(url)
In [4]:
from urllib.error import URLError, HTTPError, ContentTooShortError
def download(url):
try:
html = urllib.request.urlopen(url)
except (URLError, HTTPError, ContentTooShortError) as e:
print('Download error', e.reason)
html = None
return html
download('https://www.google.com')
Out[4]:
<http.client.HTTPResponse at 0x7f3f842060d0>
2. 웹페이지 분석하기¶
In [5]:
# HTML Data 파싱
def download(url):
try:
html = urllib.request.urlopen(url).read()
except (URLError, HTTPError, ContentTooShortError) as e:
print('Download error', e.reason)
html = None
return html
In [6]:
download('https://www.google.com')
Out[6]:
b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="2tCazhCmnL0BrKSzxIjvpA==">(function(){window.google={kEI:\'Ss8pYJvhEIXN-QaJxbeAAg\',kEXPI:\'0,1302433,56976,954,756,4348,207,2415,701,88,10,1590,2316,383,246,5,1354,1300,3951,5,1660,676,2998,7,1117169,1232,1196561,490,328984,51224,16114,28684,9188,8384,4858,1362,9291,3028,4739,7,1841,4720,6273,4020,978,13228,2974,873,37,4155,6430,14528,4516,2778,919,2277,8,2796,889,704,1279,2212,530,149,1103,840,520,1519,4258,312,1137,2,2063,606,2023,1777,520,4166,3,100,328,1284,2943,5846,3227,2845,7,5599,6755,5096,7540,336,4929,108,2854,554,907,2,941,2614,2397,1387,4948,1133,3277,3,346,230,970,865,4624,149,5990,7985,4,1528,2304,1236,1145,4658,1791,1373,1519,460,1555,4067,5634,1426,714,1770,3011,1753,2658,4243,518,912,565,463,655,31,1303,5784,875,167,3284,2215,2087,218,638,1494,605,2,4660,319,2361,55,3187,2243,1360,587,11,731,665,2145,377,3290,2545,479,142,370,1963,777,366,17,47,99,819,2153,6,614,294,3,3541,1,1042,2,471,3809,661,92,430,49,443,2295,1151,1008,3257,1187,627,38,245,38,671,3637,1940,147,471,543,717,239,4,293,1,657,2,60,322,692,179,940,878,545,682,402,30,3569,77,139,249,870,138,108,190,2,77,260,226,774,57,113,2,62,404,295,685,443,81,141,2,40,193,345,285,370,189,90,93,312,229,26,118,2,490,646,326,967,611,20,914,330,2,824,903,2300,1008,4,5691917,1874,1996,35,62,5996732,2801217,549,333,444,1,2,80,1,900,896,1,9,2,2551,1,748,141,59,736,563,1,4265,1,1,2,1331,3299,248,595,1,2608,155,17,13,72,46,81,27,36,15,37,1,23957152,2773820,10177,4968,1221866,432,413\',kBL:\'XyrI\'};google.sn=\'webhp\';google.kHL=\'ko\';})();(function(){\ngoogle.lc=[];google.li=0;google.getEI=function(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||google.kEI};google.getLEI=function(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute("leid")));)a=a.parentNode;return b};google.ml=function(){return null};google.time=function(){return Date.now()};google.log=function(a,b,c,d,f){if(c=google.logUrl(a,b,c,d,f)){a=new Image;var e=google.lc,g=google.li;e[g]=a;a.onerror=a.onload=a.onabort=function(){delete e[g]};a.src=c;google.li=g+1}};google.logUrl=function(a,b,c,d,f){var e="";c||-1!=b.search("&ei=")||(e="&ei="+google.getEI(d),-1==b.search("&lei=")&&(d=google.getLEI(d))&&(e+="&lei="+d));d="";!c&&window._cshid&&-1==b.search("&cshid=")&&"slh"!=a&&(d="&cshid="+window._cshid);c=c||"/"+(f||"gen_204")+"?atyp=i&ct="+a+"&cad="+b+e+"&zx="+Date.now()+d;/^http:/i.test(c)&&"https:"==window.location.protocol&&(google.ml(Error("a"),!1,{src:c,glmm:1}),c="");return c};}).call(this);(function(){google.y={};google.x=function(a,b){if(a)var c=a.id;else{do c=Math.random();while(google.y[c])}google.y[c]=[a,b];return!1};google.lm=[];google.plm=function(a){google.lm.push.apply(google.lm,a)};google.lq=[];google.load=function(a,b,c){google.lq.push([[a],b,c])};google.loadAll=function(a,b){google.lq.push([a,b])};google.bx=!1;google.lx=function(){};}).call(this);google.f={};(function(){\ndocument.documentElement.addEventListener("submit",function(b){var a;if(a=b.target){var c=a.getAttribute("data-submitfalse");a="1"==c||"q"==c&&!a.elements.q.value?!0:!1}else a=!1;a&&(b.preventDefault(),b.stopPropagation())},!0);document.documentElement.addEventListener("click",function(b){var a;a:{for(a=b.target;a&&a!=document.documentElement;a=a.parentElement)if("A"==a.tagName){a="1"==a.getAttribute("data-nohref");break a}a=!1}a&&b.preventDefault()},!0);}).call(this);\nvar a=window.location,b=a.href.indexOf("#");if(0<=b){var c=a.href.substring(b+1);/(^|&)q=/.test(c)&&-1==c.indexOf("#")&&a.replace("/search?"+c.replace(/(^|&)fp=[^&]*/g,"")+"&cad=h")};</script><style>#gbar,#guser{font-size:13px;padding-top:1px !important;}#gbar{height:22px}#guser{padding-bottom:7px !important;text-align:right}.gbh,.gbd{border-top:1px solid #c9d7f1;font-size:1px}.gbh{height:0;position:absolute;top:24px;width:100%}@media all{.gb1{height:22px;margin-right:.5em;vertical-align:top}#gbar{float:left}}a.gb1,a.gb4{text-decoration:underline !important}a.gb1,a.gb4{color:#00c !important}.gbi .gb4{color:#dd8e27 !important}.gbf .gb4{color:#900 !important}\n</style><style>body,td,a,p,.h{font-family:굴림,돋움,arial,sans-serif}.ko{font-size:9pt}body{margin:0;overflow-y:scroll}#gog{padding:3px 8px 0}td{line-height:.8em}.gac_m td{line-height:17px}form{margin-bottom:20px}.h{color:#1558d6}em{font-weight:bold;font-style:normal}.lst{height:25px;width:496px}.gsfi,.lst{font:18px arial,sans-serif}.gsfs{font:17px arial,sans-serif}.ds{display:inline-box;display:inline-block;margin:3px 0 4px;margin-left:4px}input{font-family:inherit}body{background:#fff;color:#000}a{color:#4b11a8;text-decoration:none}a:hover,a:active{text-decoration:underline}.fl a{color:#1558d6}a:visited{color:#4b11a8}.sblc{padding-top:5px}.sblc a{display:block;margin:2px 0;margin-left:13px;font-size:11px}.lsbb{background:#f8f9fa;border:solid 1px;border-color:#dadce0 #70757a #70757a #dadce0;height:30px}.lsbb{display:block}#WqQANb a{display:inline-block;margin:0 12px}.lsb{background:url(/images/nav_logo229.png) 0 -261px repeat-x;border:none;color:#000;cursor:pointer;height:30px;margin:0;outline:0;font:15px arial,sans-serif;vertical-align:top}.lsb:active{background:#dadce0}.lst:focus{outline:none}.tiah{width:458px}</style><script nonce="2tCazhCmnL0BrKSzxIjvpA=="></script></head><body bgcolor="#fff"><script nonce="2tCazhCmnL0BrKSzxIjvpA==">(function(){var src=\'/images/nav_logo229.png\';var iesg=false;document.body.onload = function(){window.n && window.n();if (document.images){new Image().src=src;}\nif (!iesg){document.f&&document.f.q.focus();document.gbqf&&document.gbqf.q.focus();}\n}\n})();</script><div id="mngb"><div id=gbar><nobr><b class=gb1>검색</b> <a class=gb1 href="https://www.google.co.kr/imghp?hl=ko&tab=wi">이미지</a> <a class=gb1 href="https://maps.google.co.kr/maps?hl=ko&tab=wl">지도</a> <a class=gb1 href="https://play.google.com/?hl=ko&tab=w8">Play</a> <a class=gb1 href="https://www.youtube.com/?gl=KR&tab=w1">YouTube</a> <a class=gb1 href="https://news.google.com/?tab=wn">뉴스</a> <a class=gb1 href="https://mail.google.com/mail/?tab=wm">Gmail</a> <a class=gb1 href="https://drive.google.com/?tab=wo">드라이브</a> <a class=gb1 style="text-decoration:none" href="https://www.google.co.kr/intl/ko/about/products?tab=wh"><u>더보기</u> »</a></nobr></div><div id=guser width=100%><nobr><span id=gbn class=gbi></span><span id=gbf class=gbf></span><span id=gbe></span><a href="http://www.google.co.kr/history/optout?hl=ko" class=gb4>웹 기록</a> | <a href="/preferences?hl=ko" class=gb4>설정</a> | <a target=_top id=gb_70 href="https://accounts.google.com/ServiceLogin?hl=ko&passive=true&continue=https://www.google.com/&ec=GAZAAQ" class=gb4>로그인</a></nobr></div><div class=gbh style=left:0></div><div class=gbh style=right:0></div></div><center><br clear="all" id="lgpd"><div id="lga"><img alt="Google" height="92" src="/images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png" style="padding:28px 0 14px" width="272" id="hplogo"><br><br></div><form action="/search" name="f"><table cellpadding="0" cellspacing="0"><tr valign="top"><td width="25%"> </td><td align="center" nowrap=""><input name="ie" value="ISO-8859-1" type="hidden"><input value="ko" name="hl" type="hidden"><input name="source" type="hidden" value="hp"><input name="biw" type="hidden"><input name="bih" type="hidden"><div class="ds" style="height:32px;margin:4px 0"><div style="position:relative;zoom:1"><input class="lst tiah" style="margin:0;padding:5px 8px 0 6px;vertical-align:top;color:#000;padding-right:38px" autocomplete="off" value="" title="Google 검색" maxlength="2048" name="q" size="57"><img src="/textinputassistant/tia.png" style="position:absolute;cursor:pointer;right:5px;top:4px;z-index:300" data-script-url="/textinputassistant/11/ko_tia.js" id="tsuid1" alt="" height="23" width="27"><script nonce="2tCazhCmnL0BrKSzxIjvpA==">(function(){var id=\'tsuid1\';document.getElementById(id).onclick = function(){var s = document.createElement(\'script\');s.src = this.getAttribute(\'data-script-url\');(document.getElementById(\'xjsc\')||document.body).appendChild(s);};})();</script></div></div><br style="line-height:0"><span class="ds"><span class="lsbb"><input class="lsb" value="Google 검색" name="btnG" type="submit"></span></span><span class="ds"><span class="lsbb"><input class="lsb" id="tsuid2" value="I’m Feeling Lucky" name="btnI" type="submit"><script nonce="2tCazhCmnL0BrKSzxIjvpA==">(function(){var id=\'tsuid2\';document.getElementById(id).onclick = function(){if (this.form.q.value){this.checked = 1;if (this.form.iflsig)this.form.iflsig.disabled = false;}\nelse top.location=\'/doodles/\';};})();</script><input value="AINFCbYAAAAAYCndWvPVHMr8o-ACFBYgoN6WX5tf1c9q" name="iflsig" type="hidden"></span></span></td><td class="fl sblc" align="left" nowrap="" width="25%"><a href="/advanced_search?hl=ko&authuser=0">고급검색</a></td></tr></table><input id="gbv" name="gbv" type="hidden" value="1"><script nonce="2tCazhCmnL0BrKSzxIjvpA==">(function(){var a,b="1";if(document&&document.getElementById)if("undefined"!=typeof XMLHttpRequest)b="2";else if("undefined"!=typeof ActiveXObject){var c,d,e=["MSXML2.XMLHTTP.6.0","MSXML2.XMLHTTP.3.0","MSXML2.XMLHTTP","Microsoft.XMLHTTP"];for(c=0;d=e[c++];)try{new ActiveXObject(d),b="2"}catch(h){}}a=b;if("2"==a&&-1==location.search.indexOf("&gbv=2")){var f=google.gbvu,g=document.getElementById("gbv");g&&(g.value=a);f&&window.setTimeout(function(){location.href=f},0)};}).call(this);</script></form><div id="gac_scont"></div><div style="font-size:83%;min-height:3.5em"><br></div><span id="footer"><div style="font-size:10pt"><div style="margin:19px auto;text-align:center" id="WqQANb"><a href="/intl/ko/ads/">광고 프로그램</a><a href="http://www.google.co.kr/intl/ko/services/">비즈니스 솔루션</a><a href="/intl/ko/about.html">Google 정보</a><a href="https://www.google.com/setprefdomain?prefdom=KR&prev=https://www.google.co.kr/&sig=K_GL4ZsM-wq0hyw0I6QvzjWty4J7U%3D">Google.co.kr</a></div></div><p style="font-size:8pt;color:#70757a">© 2021 - <a href="/intl/ko/policies/privacy/">개인정보처리방침</a> - <a href="/intl/ko/policies/terms/">약관</a></p></span></center><script nonce="2tCazhCmnL0BrKSzxIjvpA==">(function(){window.google.cdo={height:0,width:0};(function(){var a=window.innerWidth,b=window.innerHeight;if(!a||!b){var c=window.document,d="CSS1Compat"==c.compatMode?c.documentElement:c.body;a=d.clientWidth;b=d.clientHeight}a&&b&&(a!=google.cdo.width||b!=google.cdo.height)&&google.log("","","/client_204?&atyp=i&biw="+a+"&bih="+b+"&ei="+google.kEI);}).call(this);})();(function(){var u=\'/xjs/_/js/k\\x3dxjs.hp.en.TfxTXQuR2rI.O/m\\x3dsb_he,d/am\\x3dAHiCOA/d\\x3d1/rs\\x3dACT90oFJSxyGmch3o7ur9NQ6CZoREKrK8g\';\nvar d=this||self,e=/^[\\w+/_-]+[=]{0,2}$/,f=null,g=function(a){return(a=a.querySelector&&a.querySelector("script[nonce]"))&&(a=a.nonce||a.getAttribute("nonce"))&&e.test(a)?a:""},h=function(a){return a};var l;var n=function(a,b){this.g=b===m?a:""};n.prototype.toString=function(){return this.g+""};var m={};function p(){var a=u;google.lx=function(){q(a);google.lx=function(){}};google.bx||google.lx()}\nfunction q(a){var b=document;var c="SCRIPT";"application/xhtml+xml"===b.contentType&&(c=c.toLowerCase());c=b.createElement(c);if(void 0===l){b=null;var k=d.trustedTypes;if(k&&k.createPolicy){try{b=k.createPolicy("goog#html",{createHTML:h,createScript:h,createScriptURL:h})}catch(r){d.console&&d.console.error(r.message)}l=b}else l=b}a=(b=l)?b.createScriptURL(a):a;a=new n(a,m);c.src=a instanceof n&&a.constructor===n?a.g:"type_error:TrustedResourceUrl";(a=c.ownerDocument&&c.ownerDocument.defaultView)&&\na!=d?a=g(a.document):(null===f&&(f=g(d.document)),a=f);a&&c.setAttribute("nonce",a);google.timers&&google.timers.load&&google.tick&&google.tick("load","xjsls");document.body.appendChild(c)};setTimeout(function(){p()},0);})();(function(){window.google.xjsu=\'/xjs/_/js/k\\x3dxjs.hp.en.TfxTXQuR2rI.O/m\\x3dsb_he,d/am\\x3dAHiCOA/d\\x3d1/rs\\x3dACT90oFJSxyGmch3o7ur9NQ6CZoREKrK8g\';})();function _DumpException(e){throw e;}\nfunction _F_installCss(c){}\n(function(){google.jl={dw:false,em:[],emw:false,lls:\'default\',pdt:0,snet:true,uwp:true};})();(function(){var pmc=\'{\\x22d\\x22:{},\\x22sb_he\\x22:{\\x22agen\\x22:true,\\x22cgen\\x22:true,\\x22client\\x22:\\x22heirloom-hp\\x22,\\x22dh\\x22:true,\\x22dhqt\\x22:true,\\x22ds\\x22:\\x22\\x22,\\x22ffql\\x22:\\x22ko\\x22,\\x22fl\\x22:true,\\x22host\\x22:\\x22google.com\\x22,\\x22isbh\\x22:28,\\x22jsonp\\x22:true,\\x22msgs\\x22:{\\x22cibl\\x22:\\x22검색어 지우기\\x22,\\x22dym\\x22:\\x22이것을 찾으셨나요?\\x22,\\x22lcky\\x22:\\x22I’m Feeling Lucky\\x22,\\x22lml\\x22:\\x22자세히 알아보기\\x22,\\x22oskt\\x22:\\x22입력 도구\\x22,\\x22psrc\\x22:\\x22검색어가 \\\\u003Ca href\\x3d\\\\\\x22/history\\\\\\x22\\\\u003E웹 기록\\\\u003C/a\\\\u003E에서 삭제되었습니다.\\x22,\\x22psrl\\x22:\\x22삭제\\x22,\\x22sbit\\x22:\\x22이미지로 검색\\x22,\\x22srch\\x22:\\x22Google 검색\\x22},\\x22nrft\\x22:false,\\x22ovr\\x22:{},\\x22pq\\x22:\\x22\\x22,\\x22refpd\\x22:true,\\x22refspre\\x22:true,\\x22rfs\\x22:[],\\x22sbas\\x22:\\x220 3px 8px 0 rgba(0,0,0,0.2),0 0 0 1px rgba(0,0,0,0.08)\\x22,\\x22sbpl\\x22:16,\\x22sbpr\\x22:16,\\x22scd\\x22:10,\\x22stok\\x22:\\x22u0qKYnUF4ytCDFiIkQVcINk6T2I\\x22,\\x22uhde\\x22:false}}\';google.pmc=JSON.parse(pmc);})();</script> </body></html>'
3. 파이썬 라이브러리 BeautifulSoup, Requests 사용하여 쉽게 웹 크롤링하기¶
- pip install bs4
- pip install requests
In [7]:
# 웹페이지 다운로드
import requests
url = 'http://www.google.com'
response = requests.get(url)
response
Out[7]:
<Response [200]>
In [8]:
def download2(url):
try:
response = requests.get(url)
html = response.text
except requests.ConnectionError:
print('Connection error')
html = None
return html
download2('https://www.google.com')
Out[8]:
'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="tG/4BkLneG0cf5R9vnT1rQ==">(function(){window.google={kEI:\'x88pYPXYLKLw-QaCrKv4Ag\',kEXPI:\'0,1359409,954,5104,207,3204,10,1590,2316,383,246,5,1129,225,1301,3949,2342,3179,7,1116988,1232,1196511,539,328985,51223,16115,17444,11240,9188,8384,4859,1361,284,9006,3027,4741,12841,4020,978,13228,2054,920,873,4192,6430,14528,4517,2777,919,2277,8,3681,708,1279,2212,530,149,1103,840,517,1522,158,4100,108,204,1137,2,2063,606,2023,1777,520,1704,2472,93,328,1284,2943,5846,3227,2845,7,4773,826,6755,5096,7877,3748,1180,108,3407,908,2,940,2615,2397,1387,6081,3277,3,576,970,865,2550,2074,149,5992,7983,4,498,950,80,2304,1236,1145,4658,1791,2893,459,1555,4067,1036,1928,2670,1426,714,1579,3202,1753,2658,4242,519,913,563,464,39,617,30,1303,2551,1809,1424,1042,3283,3,2213,2305,638,1494,605,2,892,590,1886,2,1289,320,2361,55,5433,50,1894,11,731,665,323,1822,1519,2145,2548,479,142,370,1055,908,777,4,359,20,47,99,2091,881,6,613,295,3,3541,1,3324,853,763,384,693,982,1354,287,2,130,1063,610,660,232,116,3257,1187,627,38,245,38,3328,980,1941,146,471,544,716,239,162,285,499,2,69,1014,179,940,1423,682,32,368,32,3524,45,77,139,250,1115,190,2,77,100,160,226,831,178,317,86,390,590,443,110,154,3,535,285,369,374,311,226,29,3128,31,21,914,336,2,1251,45,2660,408,1719,5690867,3870,35,62,8797949,549,333,444,1,2,80,1,900,896,1,9,2,2551,1,748,141,59,736,563,1,4265,1,1,2,1331,3299,248,595,1,2608,155,17,13,72,46,81,27,36,15,37,1,23957153,2790608,1220655,183\',kBL:\'XyrI\'};google.sn=\'webhp\';google.kHL=\'ko\';})();(function(){\ngoogle.lc=[];google.li=0;google.getEI=function(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||google.kEI};google.getLEI=function(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute("leid")));)a=a.parentNode;return b};google.ml=function(){return null};google.time=function(){return Date.now()};google.log=function(a,b,c,d,f){if(c=google.logUrl(a,b,c,d,f)){a=new Image;var e=google.lc,g=google.li;e[g]=a;a.onerror=a.onload=a.onabort=function(){delete e[g]};a.src=c;google.li=g+1}};google.logUrl=function(a,b,c,d,f){var e="";c||-1!=b.search("&ei=")||(e="&ei="+google.getEI(d),-1==b.search("&lei=")&&(d=google.getLEI(d))&&(e+="&lei="+d));d="";!c&&window._cshid&&-1==b.search("&cshid=")&&"slh"!=a&&(d="&cshid="+window._cshid);c=c||"/"+(f||"gen_204")+"?atyp=i&ct="+a+"&cad="+b+e+"&zx="+Date.now()+d;/^http:/i.test(c)&&"https:"==window.location.protocol&&(google.ml(Error("a"),!1,{src:c,glmm:1}),c="");return c};}).call(this);(function(){google.y={};google.x=function(a,b){if(a)var c=a.id;else{do c=Math.random();while(google.y[c])}google.y[c]=[a,b];return!1};google.lm=[];google.plm=function(a){google.lm.push.apply(google.lm,a)};google.lq=[];google.load=function(a,b,c){google.lq.push([[a],b,c])};google.loadAll=function(a,b){google.lq.push([a,b])};google.bx=!1;google.lx=function(){};}).call(this);google.f={};(function(){\ndocument.documentElement.addEventListener("submit",function(b){var a;if(a=b.target){var c=a.getAttribute("data-submitfalse");a="1"==c||"q"==c&&!a.elements.q.value?!0:!1}else a=!1;a&&(b.preventDefault(),b.stopPropagation())},!0);document.documentElement.addEventListener("click",function(b){var a;a:{for(a=b.target;a&&a!=document.documentElement;a=a.parentElement)if("A"==a.tagName){a="1"==a.getAttribute("data-nohref");break a}a=!1}a&&b.preventDefault()},!0);}).call(this);\nvar a=window.location,b=a.href.indexOf("#");if(0<=b){var c=a.href.substring(b+1);/(^|&)q=/.test(c)&&-1==c.indexOf("#")&&a.replace("/search?"+c.replace(/(^|&)fp=[^&]*/g,"")+"&cad=h")};</script><style>#gbar,#guser{font-size:13px;padding-top:1px !important;}#gbar{height:22px}#guser{padding-bottom:7px !important;text-align:right}.gbh,.gbd{border-top:1px solid #c9d7f1;font-size:1px}.gbh{height:0;position:absolute;top:24px;width:100%}@media all{.gb1{height:22px;margin-right:.5em;vertical-align:top}#gbar{float:left}}a.gb1,a.gb4{text-decoration:underline !important}a.gb1,a.gb4{color:#00c !important}.gbi .gb4{color:#dd8e27 !important}.gbf .gb4{color:#900 !important}\n</style><style>body,td,a,p,.h{font-family:굴림,돋움,arial,sans-serif}.ko{font-size:9pt}body{margin:0;overflow-y:scroll}#gog{padding:3px 8px 0}td{line-height:.8em}.gac_m td{line-height:17px}form{margin-bottom:20px}.h{color:#1558d6}em{font-weight:bold;font-style:normal}.lst{height:25px;width:496px}.gsfi,.lst{font:18px arial,sans-serif}.gsfs{font:17px arial,sans-serif}.ds{display:inline-box;display:inline-block;margin:3px 0 4px;margin-left:4px}input{font-family:inherit}body{background:#fff;color:#000}a{color:#4b11a8;text-decoration:none}a:hover,a:active{text-decoration:underline}.fl a{color:#1558d6}a:visited{color:#4b11a8}.sblc{padding-top:5px}.sblc a{display:block;margin:2px 0;margin-left:13px;font-size:11px}.lsbb{background:#f8f9fa;border:solid 1px;border-color:#dadce0 #70757a #70757a #dadce0;height:30px}.lsbb{display:block}#WqQANb a{display:inline-block;margin:0 12px}.lsb{background:url(/images/nav_logo229.png) 0 -261px repeat-x;border:none;color:#000;cursor:pointer;height:30px;margin:0;outline:0;font:15px arial,sans-serif;vertical-align:top}.lsb:active{background:#dadce0}.lst:focus{outline:none}.tiah{width:458px}</style><script nonce="tG/4BkLneG0cf5R9vnT1rQ=="></script></head><body bgcolor="#fff"><script nonce="tG/4BkLneG0cf5R9vnT1rQ==">(function(){var src=\'/images/nav_logo229.png\';var iesg=false;document.body.onload = function(){window.n && window.n();if (document.images){new Image().src=src;}\nif (!iesg){document.f&&document.f.q.focus();document.gbqf&&document.gbqf.q.focus();}\n}\n})();</script><div id="mngb"><div id=gbar><nobr><b class=gb1>검색</b> <a class=gb1 href="https://www.google.co.kr/imghp?hl=ko&tab=wi">이미지</a> <a class=gb1 href="https://maps.google.co.kr/maps?hl=ko&tab=wl">지도</a> <a class=gb1 href="https://play.google.com/?hl=ko&tab=w8">Play</a> <a class=gb1 href="https://www.youtube.com/?gl=KR&tab=w1">YouTube</a> <a class=gb1 href="https://news.google.com/?tab=wn">뉴스</a> <a class=gb1 href="https://mail.google.com/mail/?tab=wm">Gmail</a> <a class=gb1 href="https://drive.google.com/?tab=wo">드라이브</a> <a class=gb1 style="text-decoration:none" href="https://www.google.co.kr/intl/ko/about/products?tab=wh"><u>더보기</u> »</a></nobr></div><div id=guser width=100%><nobr><span id=gbn class=gbi></span><span id=gbf class=gbf></span><span id=gbe></span><a href="http://www.google.co.kr/history/optout?hl=ko" class=gb4>웹 기록</a> | <a href="/preferences?hl=ko" class=gb4>설정</a> | <a target=_top id=gb_70 href="https://accounts.google.com/ServiceLogin?hl=ko&passive=true&continue=https://www.google.com/&ec=GAZAAQ" class=gb4>로그인</a></nobr></div><div class=gbh style=left:0></div><div class=gbh style=right:0></div></div><center><br clear="all" id="lgpd"><div id="lga"><img alt="Google" height="92" src="/images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png" style="padding:28px 0 14px" width="272" id="hplogo"><br><br></div><form action="/search" name="f"><table cellpadding="0" cellspacing="0"><tr valign="top"><td width="25%"> </td><td align="center" nowrap=""><input name="ie" value="ISO-8859-1" type="hidden"><input value="ko" name="hl" type="hidden"><input name="source" type="hidden" value="hp"><input name="biw" type="hidden"><input name="bih" type="hidden"><div class="ds" style="height:32px;margin:4px 0"><div style="position:relative;zoom:1"><input class="lst tiah" style="margin:0;padding:5px 8px 0 6px;vertical-align:top;color:#000;padding-right:38px" autocomplete="off" value="" title="Google 검색" maxlength="2048" name="q" size="57"><img src="/textinputassistant/tia.png" style="position:absolute;cursor:pointer;right:5px;top:4px;z-index:300" data-script-url="/textinputassistant/11/ko_tia.js" id="tsuid1" alt="" height="23" width="27"><script nonce="tG/4BkLneG0cf5R9vnT1rQ==">(function(){var id=\'tsuid1\';document.getElementById(id).onclick = function(){var s = document.createElement(\'script\');s.src = this.getAttribute(\'data-script-url\');(document.getElementById(\'xjsc\')||document.body).appendChild(s);};})();</script></div></div><br style="line-height:0"><span class="ds"><span class="lsbb"><input class="lsb" value="Google 검색" name="btnG" type="submit"></span></span><span class="ds"><span class="lsbb"><input class="lsb" id="tsuid2" value="I’m Feeling Lucky" name="btnI" type="submit"><script nonce="tG/4BkLneG0cf5R9vnT1rQ==">(function(){var id=\'tsuid2\';document.getElementById(id).onclick = function(){if (this.form.q.value){this.checked = 1;if (this.form.iflsig)this.form.iflsig.disabled = false;}\nelse top.location=\'/doodles/\';};})();</script><input value="AINFCbYAAAAAYCnd15-Wmf-aEk-61X8YNdgRENomqCE_" name="iflsig" type="hidden"></span></span></td><td class="fl sblc" align="left" nowrap="" width="25%"><a href="/advanced_search?hl=ko&authuser=0">고급검색</a></td></tr></table><input id="gbv" name="gbv" type="hidden" value="1"><script nonce="tG/4BkLneG0cf5R9vnT1rQ==">(function(){var a,b="1";if(document&&document.getElementById)if("undefined"!=typeof XMLHttpRequest)b="2";else if("undefined"!=typeof ActiveXObject){var c,d,e=["MSXML2.XMLHTTP.6.0","MSXML2.XMLHTTP.3.0","MSXML2.XMLHTTP","Microsoft.XMLHTTP"];for(c=0;d=e[c++];)try{new ActiveXObject(d),b="2"}catch(h){}}a=b;if("2"==a&&-1==location.search.indexOf("&gbv=2")){var f=google.gbvu,g=document.getElementById("gbv");g&&(g.value=a);f&&window.setTimeout(function(){location.href=f},0)};}).call(this);</script></form><div id="gac_scont"></div><div style="font-size:83%;min-height:3.5em"><br></div><span id="footer"><div style="font-size:10pt"><div style="margin:19px auto;text-align:center" id="WqQANb"><a href="/intl/ko/ads/">광고 프로그램</a><a href="http://www.google.co.kr/intl/ko/services/">비즈니스 솔루션</a><a href="/intl/ko/about.html">Google 정보</a><a href="https://www.google.com/setprefdomain?prefdom=KR&prev=https://www.google.co.kr/&sig=K_B2-IovtcfUlbnj2QiWssG9HFtxk%3D">Google.co.kr</a></div></div><p style="font-size:8pt;color:#70757a">© 2021 - <a href="/intl/ko/policies/privacy/">개인정보처리방침</a> - <a href="/intl/ko/policies/terms/">약관</a></p></span></center><script nonce="tG/4BkLneG0cf5R9vnT1rQ==">(function(){window.google.cdo={height:0,width:0};(function(){var a=window.innerWidth,b=window.innerHeight;if(!a||!b){var c=window.document,d="CSS1Compat"==c.compatMode?c.documentElement:c.body;a=d.clientWidth;b=d.clientHeight}a&&b&&(a!=google.cdo.width||b!=google.cdo.height)&&google.log("","","/client_204?&atyp=i&biw="+a+"&bih="+b+"&ei="+google.kEI);}).call(this);})();(function(){var u=\'/xjs/_/js/k\\x3dxjs.hp.en.TfxTXQuR2rI.O/m\\x3dsb_he,d/am\\x3dAHiCOA/d\\x3d1/rs\\x3dACT90oFJSxyGmch3o7ur9NQ6CZoREKrK8g\';\nvar d=this||self,e=/^[\\w+/_-]+[=]{0,2}$/,f=null,g=function(a){return(a=a.querySelector&&a.querySelector("script[nonce]"))&&(a=a.nonce||a.getAttribute("nonce"))&&e.test(a)?a:""},h=function(a){return a};var l;var n=function(a,b){this.g=b===m?a:""};n.prototype.toString=function(){return this.g+""};var m={};function p(){var a=u;google.lx=function(){q(a);google.lx=function(){}};google.bx||google.lx()}\nfunction q(a){var b=document;var c="SCRIPT";"application/xhtml+xml"===b.contentType&&(c=c.toLowerCase());c=b.createElement(c);if(void 0===l){b=null;var k=d.trustedTypes;if(k&&k.createPolicy){try{b=k.createPolicy("goog#html",{createHTML:h,createScript:h,createScriptURL:h})}catch(r){d.console&&d.console.error(r.message)}l=b}else l=b}a=(b=l)?b.createScriptURL(a):a;a=new n(a,m);c.src=a instanceof n&&a.constructor===n?a.g:"type_error:TrustedResourceUrl";(a=c.ownerDocument&&c.ownerDocument.defaultView)&&\na!=d?a=g(a.document):(null===f&&(f=g(d.document)),a=f);a&&c.setAttribute("nonce",a);google.timers&&google.timers.load&&google.tick&&google.tick("load","xjsls");document.body.appendChild(c)};setTimeout(function(){p()},0);})();(function(){window.google.xjsu=\'/xjs/_/js/k\\x3dxjs.hp.en.TfxTXQuR2rI.O/m\\x3dsb_he,d/am\\x3dAHiCOA/d\\x3d1/rs\\x3dACT90oFJSxyGmch3o7ur9NQ6CZoREKrK8g\';})();function _DumpException(e){throw e;}\nfunction _F_installCss(c){}\n(function(){google.jl={dw:false,em:[],emw:false,lls:\'default\',pdt:0,snet:true,uwp:true};})();(function(){var pmc=\'{\\x22d\\x22:{},\\x22sb_he\\x22:{\\x22agen\\x22:true,\\x22cgen\\x22:true,\\x22client\\x22:\\x22heirloom-hp\\x22,\\x22dh\\x22:true,\\x22dhqt\\x22:true,\\x22ds\\x22:\\x22\\x22,\\x22ffql\\x22:\\x22ko\\x22,\\x22fl\\x22:true,\\x22host\\x22:\\x22google.com\\x22,\\x22isbh\\x22:28,\\x22jsonp\\x22:true,\\x22msgs\\x22:{\\x22cibl\\x22:\\x22검색어 지우기\\x22,\\x22dym\\x22:\\x22이것을 찾으셨나요?\\x22,\\x22lcky\\x22:\\x22I’m Feeling Lucky\\x22,\\x22lml\\x22:\\x22자세히 알아보기\\x22,\\x22oskt\\x22:\\x22입력 도구\\x22,\\x22psrc\\x22:\\x22검색어가 \\\\u003Ca href\\x3d\\\\\\x22/history\\\\\\x22\\\\u003E웹 기록\\\\u003C/a\\\\u003E에서 삭제되었습니다.\\x22,\\x22psrl\\x22:\\x22삭제\\x22,\\x22sbit\\x22:\\x22이미지로 검색\\x22,\\x22srch\\x22:\\x22Google 검색\\x22},\\x22nrft\\x22:false,\\x22ovr\\x22:{},\\x22pq\\x22:\\x22\\x22,\\x22refpd\\x22:true,\\x22refspre\\x22:true,\\x22rfs\\x22:[],\\x22sbas\\x22:\\x220 3px 8px 0 rgba(0,0,0,0.2),0 0 0 1px rgba(0,0,0,0.08)\\x22,\\x22sbpl\\x22:16,\\x22sbpr\\x22:16,\\x22scd\\x22:10,\\x22stok\\x22:\\x22qC4zHfQDCl3SzBB7kJlwvsc0kXM\\x22,\\x22uhde\\x22:false}}\';google.pmc=JSON.parse(pmc);})();</script> </body></html>'
In [9]:
# 웹페이지 분석하기 BeautifulSoup
import requests
from bs4 import BeautifulSoup
html = requests.get('http://www.google.com')
soup = BeautifulSoup(html.text, 'html.parser')
In [10]:
soup.html.body
Out[10]:
<body bgcolor="#fff"><script nonce="GUWzDLiBQTiCpbcaY1FoxA==">(function(){var src='/images/nav_logo229.png';var iesg=false;document.body.onload = function(){window.n && window.n();if (document.images){new Image().src=src;} if (!iesg){document.f&&document.f.q.focus();document.gbqf&&document.gbqf.q.focus();} } })();</script><div id="mngb"><div id="gbar"><nobr><b class="gb1">검색</b> <a class="gb1" href="http://www.google.co.kr/imghp?hl=ko&tab=wi">이미지</a> <a class="gb1" href="http://maps.google.co.kr/maps?hl=ko&tab=wl">지도</a> <a class="gb1" href="https://play.google.com/?hl=ko&tab=w8">Play</a> <a class="gb1" href="http://www.youtube.com/?gl=KR&tab=w1">YouTube</a> <a class="gb1" href="https://news.google.com/?tab=wn">뉴스</a> <a class="gb1" href="https://mail.google.com/mail/?tab=wm">Gmail</a> <a class="gb1" href="https://drive.google.com/?tab=wo">드라이브</a> <a class="gb1" href="https://www.google.co.kr/intl/ko/about/products?tab=wh" style="text-decoration:none"><u>더보기</u> »</a></nobr></div><div id="guser" width="100%"><nobr><span class="gbi" id="gbn"></span><span class="gbf" id="gbf"></span><span id="gbe"></span><a class="gb4" href="http://www.google.co.kr/history/optout?hl=ko">웹 기록</a> | <a class="gb4" href="/preferences?hl=ko">설정</a> | <a class="gb4" href="https://accounts.google.com/ServiceLogin?hl=ko&passive=true&continue=http://www.google.com/&ec=GAZAAQ" id="gb_70" target="_top">로그인</a></nobr></div><div class="gbh" style="left:0"></div><div class="gbh" style="right:0"></div></div><center><br clear="all" id="lgpd"/><div id="lga"><img alt="Google" height="92" id="hplogo" src="/images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png" style="padding:28px 0 14px" width="272"/><br/><br/></div><form action="/search" name="f"><table cellpadding="0" cellspacing="0"><tr valign="top"><td width="25%"> </td><td align="center" nowrap=""><input name="ie" type="hidden" value="ISO-8859-1"/><input name="hl" type="hidden" value="ko"/><input name="source" type="hidden" value="hp"/><input name="biw" type="hidden"/><input name="bih" type="hidden"/><div class="ds" style="height:32px;margin:4px 0"><div style="position:relative;zoom:1"><input autocomplete="off" class="lst tiah" maxlength="2048" name="q" size="57" style="margin:0;padding:5px 8px 0 6px;vertical-align:top;color:#000;padding-right:38px" title="Google 검색" value=""/><img alt="" data-script-url="/textinputassistant/11/ko_tia.js" height="23" id="tsuid1" src="/textinputassistant/tia.png" style="position:absolute;cursor:pointer;right:5px;top:4px;z-index:300" width="27"/><script nonce="GUWzDLiBQTiCpbcaY1FoxA==">(function(){var id='tsuid1';document.getElementById(id).onclick = function(){var s = document.createElement('script');s.src = this.getAttribute('data-script-url');(document.getElementById('xjsc')||document.body).appendChild(s);};})();</script></div></div><br style="line-height:0"/><span class="ds"><span class="lsbb"><input class="lsb" name="btnG" type="submit" value="Google 검색"/></span></span><span class="ds"><span class="lsbb"><input class="lsb" id="tsuid2" name="btnI" type="submit" value="I’m Feeling Lucky"/><script nonce="GUWzDLiBQTiCpbcaY1FoxA==">(function(){var id='tsuid2';document.getElementById(id).onclick = function(){if (this.form.q.value){this.checked = 1;if (this.form.iflsig)this.form.iflsig.disabled = false;} else top.location='/doodles/';};})();</script><input name="iflsig" type="hidden" value="AINFCbYAAAAAYCneAn35K607Mq2lPhMlinTL4W9eFsM_"/></span></span></td><td align="left" class="fl sblc" nowrap="" width="25%"><a href="/advanced_search?hl=ko&authuser=0">고급검색</a></td></tr></table><input id="gbv" name="gbv" type="hidden" value="1"/><script nonce="GUWzDLiBQTiCpbcaY1FoxA==">(function(){var a,b="1";if(document&&document.getElementById)if("undefined"!=typeof XMLHttpRequest)b="2";else if("undefined"!=typeof ActiveXObject){var c,d,e=["MSXML2.XMLHTTP.6.0","MSXML2.XMLHTTP.3.0","MSXML2.XMLHTTP","Microsoft.XMLHTTP"];for(c=0;d=e[c++];)try{new ActiveXObject(d),b="2"}catch(h){}}a=b;if("2"==a&&-1==location.search.indexOf("&gbv=2")){var f=google.gbvu,g=document.getElementById("gbv");g&&(g.value=a);f&&window.setTimeout(function(){location.href=f},0)};}).call(this);</script></form><div id="gac_scont"></div><div style="font-size:83%;min-height:3.5em"><br/></div><span id="footer"><div style="font-size:10pt"><div id="WqQANb" style="margin:19px auto;text-align:center"><a href="/intl/ko/ads/">광고 프로그램</a><a href="http://www.google.co.kr/intl/ko/services/">비즈니스 솔루션</a><a href="/intl/ko/about.html">Google 정보</a><a href="http://www.google.com/setprefdomain?prefdom=KR&prev=http://www.google.co.kr/&sig=K_ntBu5HeKXG_Qbweyy3Qr5xoC_SY%3D">Google.co.kr</a></div></div><p style="font-size:8pt;color:#70757a">© 2021 - <a href="/intl/ko/policies/privacy/">개인정보처리방침</a> - <a href="/intl/ko/policies/terms/">약관</a></p></span></center><script nonce="GUWzDLiBQTiCpbcaY1FoxA==">(function(){window.google.cdo={height:0,width:0};(function(){var a=window.innerWidth,b=window.innerHeight;if(!a||!b){var c=window.document,d="CSS1Compat"==c.compatMode?c.documentElement:c.body;a=d.clientWidth;b=d.clientHeight}a&&b&&(a!=google.cdo.width||b!=google.cdo.height)&&google.log("","","/client_204?&atyp=i&biw="+a+"&bih="+b+"&ei="+google.kEI);}).call(this);})();(function(){var u='/xjs/_/js/k\x3dxjs.hp.en.q16A2ZJXvOw.O/m\x3dsb_he,d/am\x3dAHiCOA/d\x3d1/rs\x3dACT90oHl8tQbYsa-92K9xu5WrurNhbXRxw'; var d=this||self,e=/^[\w+/_-]+[=]{0,2}$/,f=null,g=function(a){return(a=a.querySelector&&a.querySelector("script[nonce]"))&&(a=a.nonce||a.getAttribute("nonce"))&&e.test(a)?a:""},h=function(a){return a};var l;var n=function(a,b){this.g=b===m?a:""};n.prototype.toString=function(){return this.g+""};var m={};function p(){var a=u;google.lx=function(){q(a);google.lx=function(){}};google.bx||google.lx()} function q(a){var b=document;var c="SCRIPT";"application/xhtml+xml"===b.contentType&&(c=c.toLowerCase());c=b.createElement(c);if(void 0===l){b=null;var k=d.trustedTypes;if(k&&k.createPolicy){try{b=k.createPolicy("goog#html",{createHTML:h,createScript:h,createScriptURL:h})}catch(r){d.console&&d.console.error(r.message)}l=b}else l=b}a=(b=l)?b.createScriptURL(a):a;a=new n(a,m);c.src=a instanceof n&&a.constructor===n?a.g:"type_error:TrustedResourceUrl";(a=c.ownerDocument&&c.ownerDocument.defaultView)&& a!=d?a=g(a.document):(null===f&&(f=g(d.document)),a=f);a&&c.setAttribute("nonce",a);google.timers&&google.timers.load&&google.tick&&google.tick("load","xjsls");document.body.appendChild(c)};setTimeout(function(){p()},0);})();(function(){window.google.xjsu='/xjs/_/js/k\x3dxjs.hp.en.q16A2ZJXvOw.O/m\x3dsb_he,d/am\x3dAHiCOA/d\x3d1/rs\x3dACT90oHl8tQbYsa-92K9xu5WrurNhbXRxw';})();function _DumpException(e){throw e;} function _F_installCss(c){} (function(){google.jl={dw:false,em:[],emw:false,lls:'default',pdt:0,snet:true,uwp:true};})();(function(){var pmc='{\x22d\x22:{},\x22sb_he\x22:{\x22agen\x22:true,\x22cgen\x22:true,\x22client\x22:\x22heirloom-hp\x22,\x22dh\x22:true,\x22dhqt\x22:true,\x22ds\x22:\x22\x22,\x22ffql\x22:\x22ko\x22,\x22fl\x22:true,\x22host\x22:\x22google.com\x22,\x22isbh\x22:28,\x22jsonp\x22:true,\x22msgs\x22:{\x22cibl\x22:\x22검색어 지우기\x22,\x22dym\x22:\x22이것을 찾으셨나요?\x22,\x22lcky\x22:\x22I’m Feeling Lucky\x22,\x22lml\x22:\x22자세히 알아보기\x22,\x22oskt\x22:\x22입력 도구\x22,\x22psrc\x22:\x22검색어가 \\u003Ca href\x3d\\\x22/history\\\x22\\u003E웹 기록\\u003C/a\\u003E에서 삭제되었습니다.\x22,\x22psrl\x22:\x22삭제\x22,\x22sbit\x22:\x22이미지로 검색\x22,\x22srch\x22:\x22Google 검색\x22},\x22nrft\x22:false,\x22ovr\x22:{},\x22pq\x22:\x22\x22,\x22refpd\x22:true,\x22refspre\x22:true,\x22rfs\x22:[],\x22sbas\x22:\x220 3px 8px 0 rgba(0,0,0,0.2),0 0 0 1px rgba(0,0,0,0.08)\x22,\x22sbpl\x22:16,\x22sbpr\x22:16,\x22scd\x22:10,\x22stok\x22:\x2273e-iWWlf4Vw-BZ7yyLfz5xn6DQ\x22,\x22uhde\x22:false}}';google.pmc=JSON.parse(pmc);})();</script> </body>
In [11]:
soup = BeautifulSoup("<span>Wow it's so good!!</span>", 'html.parser')
soup.span
Out[11]:
<span>Wow it's so good!!</span>
In [12]:
# ''', """ 는 여러줄의 문자열을 입력할 때 사용
html='''<title>Fundamental</title>
<body>
<p id='programming'>python</p>
<p id='programming'>java</p>
<p id='algorithm'>algorithm</p>
<p id='fundamental'>math</p>
<p id='programming'>C++</p>
</body>'''
soup = BeautifulSoup(html, 'html.parser')
soup.findAll({'p'})
Out[12]:
[<p id="programming">python</p>, <p id="programming">java</p>, <p id="algorithm">algorithm</p>, <p id="fundamental">math</p>, <p id="programming">C++</p>]
In [13]:
soup.findAll('p', id='programming')
Out[13]:
[<p id="programming">python</p>, <p id="programming">java</p>, <p id="programming">C++</p>]
4. 네이버 환율정보 크롤링해보기¶
In [14]:
from bs4 import BeautifulSoup
import requests
#URL 가져오기
url = 'https://m.stock.naver.com/marketindex/index.nhn'
response = requests.get(url)
#Soup 객체 생성
soup = BeautifulSoup(response.text, 'html.parser')
#원하는 데이터 추출 - 국가
country = []
country_1 = soup.findAll('strong')
country_2 = soup.findAll('span', {'class':'stock_item'})
for c in country_1:
country.append(c.text)
for c in country_2:
country.append(c.text)
country.remove('코스콤')
country.remove('에프앤가이드')
country.remove('레피니티브')
country.remove('이데일리')
country.remove('모닝스타')
country.remove('제로인')
country.remove('한국예탁결제원')
country.remove('IR큐더스')
country.remove('지속가능발전소')
#원하는 데이터 추출 - 환율정보
price = []
price_0 = soup.findAll('span', {"class":"stock_price"})
for p in price_0:
price.append(p.text)
#데이터 정렬, (pandas)
import pandas as pd
data = {}
for i in range(len(country)):
data[country[i]] = price[i]
pd.Series(data)
Out[14]:
미국 USD 1,104.30 유럽 EUR 1,339.18 일본 JPY 1,051.46 중국 CNY 172.01 국제금 1,821.60 유가 WTI 59.47 달러인덱스 90.47 남아프리카 ZAR 75.98 노르웨이 NOK 130.83 뉴질랜드 NZD 797.80 대만 TWD 39.42 덴마크 DKK 180.07 러시아 RUB 14.99 말레이시아 MYR 273.17 멕시코 MXN 55.43 몽골 MNT 0.39 바레인 BHD 2,929.18 방글라데시 BDT 13.02 베트남 VND 4.80 브라질 BRL 205.64 브루나이 BND 833.78 사우디 SAR 294.39 스웨덴 SEK 133.07 스위스 CHF 1,238.63 싱가포르 SGD 833.78 아랍에미리트 AED 300.64 영국 GBP 1,533.71 오만 OMR 2,868.39 요르단 JOD 1,557.55 이스라엘 ILS 339.52 이집트 EGP 70.98 인도 INR 15.21 인도네시아 IDR 7.92 체코 CZK 52.02 칠레 CLP 1.53 카자흐스탄 KZT 2.63 카타르 QAR 300.92 캐나다 CAD 870.90 쿠웨이트 KWD 3,650.34 태국 THB 36.96 터키 TRY 157.15 파키스탄 PKR 6.95 폴란드 PLN 297.89 필리핀 PHP 22.98 헝가리 HUF 3.73 호주 AUD 857.77 홍콩 HKD 142.44 dtype: object
5. 로그인하기¶
In [15]:
#세션 생성하기
session = requests.session()
#로그인하기
log_info = {'id':'', #여러분의 ID와 PW를 입력해 주세요
'pw':''}
url = 'https://nid.naver.com/nidlogin.login'
response = session.post(url, data=log_info)
#마이페이지 접근하기
url_mypage = 'https://nid.naver.com/user2/help/myInfo.nhn?lang=ko_KR'
response = session.get(url_mypage)
#Soup객체 생성
soup = BeautifulSoup(response.text, 'html.parser')
#마이페이지에 별명 가져 오기
soup.find('span')
Out[15]:
<span>본문으로 바로가기</span>
6. 브라우저 제어를 통한 크롤링 - 셀레니움 써보기¶
- 셀레니움 라이브러리 설치
- pip install selenium
- conda install selenium( 위의 방법이 되지않을시 )
브라우저 드라이버 설치
- 크롬의 경우 설정- 정보에서 버전확인 후 https://sites.google.com/a/chromium.org/chromedriver/downloads에서 다운로드
- mkdir -p ~/aiffel/lib
- cd ~/Downloads
- unzip chromedriver_linux64.zip
- mv chromedriver ~/aiffel/lib
https://data.seoul.go.kr/에서 산과 공원 데이터 크롤링
In [16]:
# URL 다운로드
crawling_urls = {
"산과공원": "https://data.seoul.go.kr/dataList/OA-12962/S/1/datasetView.do",
}
In [17]:
import requests
from selenium import webdriver
import time
import pandas as pd
import os
import os.path
import glob
In [18]:
# find_element_by_css_selector() 를 이용하여 제어
# 개발자도구를 켠 후 Ctrl+Shift+C를 통해 해당 html 검색
import os
wd_path = os.getenv('HOME')+'/aiffel/lib/chromedriver'
#웹드라이버 실행 및 페이지 이동
driver = webdriver.Chrome(wd_path) # 크롬드라이버를 통해 브라우저를 띄우고
driver.get(crawling_urls['산과공원']) # 우리가 원하는 URL로 이동합니다.
time.sleep(5) # 해당 화면이 다 로딩할 때까지 5초간 충분히 기다려 줍니다.
#csv파일 다운로드 버튼 클릭하기
driver.find_element_by_css_selector("#btnCsv").click() # 사람이 누른 것처럼 다운로드 버튼을 클릭한 후, id값을 select
time.sleep(3) # 다운로드가 완료될 때까지 3초간 기다려 줍니다.
driver.quit() # 브라우저를 닫습니다.
In [19]:
#다운받은 csv파일 확인
_dir = os.getenv('HOME')+'/Downloads' # 영문 우분투 사용자라면 이 경로를 선택해 주세요.
files = glob.glob('{}/서울시*.csv'.format(_dir))
print(files)
['/home/ssac24/Downloads/서울시 산과공원 생태관광 정보 (한국어).csv', '/home/ssac24/Downloads/서울시 산과공원 생태관광 정보 (한국어) (1).csv']
In [33]:
#csv파일을 dataframe으로 변환하기
#인코딩 에러 발생시에 encoding옵션 추가
f_M_park = pd.read_csv(files[0], encoding='CP949', engine='python') #CP949: windows에서 사용하는 인코딩 방식
f_M_park.head(3)
Out[33]:
키 | 명칭 | 대분류 | 주소 | 행정 시 | 행정 구 | 행정 동 | 대표전화 | 면적 | 지정일 | 교?안내 | |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | BE_IW14-0020 | 진관내동 생태경관보전지역 | 생태탐방 | 은평구 진관동 282-1번지 일대(북한산국립공원 북한산성 입구 주변 습지 ) | 서울특별시 | 은평구 | 진관동 | 02-2115-7550~5 02-350-1397 | 16639㎡ | 2002년 12월 30일 | 지하철 3호선 구파발역 1번 출구에서 704번 34번 버스를 타고 북한산성 입구에서... |
1 | BE_IW14-0109 | 안산공원 | 산과공원 | 서울특별시 서대문구 홍제동 산33번지 일대 | 서울특별시 | 서대문구 | 홍제1동 | 02-330-1395 | NaN | NaN | NaN |
2 | BE_IW14-0110 | 여의도공원 | 산과공원 | 서울특별시 영등포구 여의공원로68(여의도동 2번지) | 서울특별시 | 영등포구 | 여의동 | 02-761-4079 | NaN | NaN | NaN |
'파이썬 & AI 학습' 카테고리의 다른 글
딥러닝에 대한 개념 학습 (0) | 2021.02.21 |
---|---|
이상치 탐색 (0) | 2021.02.19 |
선형회귀와 로지스틱회귀 (0) | 2021.02.06 |
데이터 전처리 (0) | 2021.02.03 |
파이썬 문법 (0) | 2021.02.01 |