In [ ]:
import pandas as pd
In [ ]:
# 부재료 - 시트1.csv 파일을 판다스로 읽어옵니다
df2 = pd.read_csv('부재료가공완료.csv', encoding='utf-8')
# df2 index를 1부터 시작하게 바꿔줍니다
df2.index = range(1, len(df2) + 1)
df2
Out[ ]:
재료 | 사진 | Unnamed: 2 | |
---|---|---|---|
1 | 소주잔 | NaN | https://www.google.com/imgres?imgurl=https%3A%... |
2 | 맥주잔 | NaN | https://www.google.com/imgres?imgurl=https%3A%... |
3 | 얼음 | NaN | https://www.google.com/imgres?imgurl=http%3A%2... |
4 | 토닉워터 | NaN | https://www.google.com/imgres?imgurl=https%3A%... |
5 | 소주 | NaN | https://www.google.com/imgres?imgurl=http%3A%2... |
... | ... | ... | ... |
82 | 오렌지쌕쌕 | NaN | https://i.imgur.com/1ZQ3Z9M.png |
83 | 복숭아봉봉 | NaN | https://i.imgur.com/1ZQ3Z9M.png |
84 | 요거풋풋 | NaN | https://i.imgur.com/1ZQ3Z9M.png |
85 | 기네스 | NaN | https://i.imgur.com/1ZQ3Z9M.png |
86 | 숙취음료 | NaN | https://i.imgur.com/1ZQ3Z9M.png |
86 rows × 3 columns
In [ ]:
df2 = df2["재료"]
# df2를 데이터프레임으로 바꿔줍니다
df2 = pd.DataFrame(df2)
df2
# df2를 리스트로 바꿔줍니다
df2_list = df2.values.tolist()
In [ ]:
df2_list
# df2_list를 일반 리스트로 바꿔줍니다
df2_list = [i[0] for i in df2_list]
In [ ]:
df2_list
Out[ ]:
['소주잔', '맥주잔', '얼음', '토닉워터', '소주', '맥주', '흑맥주', '콜라', '사이다', '환타', '탄산수', '위스키', '레몬', '우유', '원두커피', '홍차', '봉봉', '밀키스', '블루레몬에이드', '이온음료', '망고주스', '홍초', '라임', '수박에이드', '메로나', '모구모구', '핫식스', '폴라포', '초코에몽', '미숫가루', '스크류바', '토마토주스', '오렌지주스', '피치트리', '매화수', '설레임', '아이스티', '요구르트', '깔루아', '오렌지', '데킬라', '체리', '소금', '젤리', '파인애플 통조림', '시럽', '예거', '꿀', '생수', '하이볼', '복분자', '우롱차', '레몬즙', '리큐어', '진저에일', '코코넛', '크림', '청포도', '막걸리', '맛밤', '쿨피스', '라거', '자몽', '깔라만시', '스파클링', '딸기우유', '아침햇살', '코코팜', '코코넛워터', '포도주스', '사과주스', '데미소다', '보리차', '비타500', '포도봉봉', '망고링고', '탄산', '레몬맛 탄산음료', '빨간과일식초', '파워에이드', '블루베리에이드', '오렌지쌕쌕', '복숭아봉봉', '요거풋풋', '기네스', '숙취음료']
재료를 가져왔으니 칵테일 목록도 가져옵니다
In [ ]:
import pandas as pd
# 칵테일목록가공완료.csv파일을 판다스로 읽어옵니다
df = pd.read_csv('칵테일목록가공완료.csv', encoding='utf-8')
df.head()
# df의 index를 2부터 시작하게 바꿔줍니다
df.index = range(2, len(df) + 2)
df.head()
Out[ ]:
title | ingredient1 | ingredient2 | ingredient3 | ingre_ratio1 | ingre_ratio2 | ingre_ratio3 | 비율 | 레시피임시 | 레시피 | |
---|---|---|---|---|---|---|---|---|---|---|
2 | 블루레몬에이드밀키스주 | 소주 | 밀키스 | 블루레몬에이드 | 4 | 3.0 | 3.0 | 4:3:3 | 소주, 밀키스, 블루레몬에이드 | 소주, 밀키스, 블루레몬에이드를 4:3:3 비율로 섞어서 만들어요 |
3 | 탄산봉봉주 | 소주 | 포도봉봉 | 탄산수 | 4 | 3.0 | 3.0 | 4:3:3 | 소주, 포도봉봉, 탄산수 | 소주, 포도봉봉, 탄산수를 4:3:3 비율로 섞어서 만들어요 |
4 | 소망주 | 소주 | 망고링고 | NaN | 3 | 7.0 | NaN | 3:7 | 소주, 망고링고 | 소주, 망고링고를 3:7 비율로 섞어서 만들어요 |
5 | 탄산이온주 | 소주 | 탄산 | 이온음료 | 4 | 2.0 | 4.0 | 4:2:4 | 소주, 탄산, 이온음료 | 소주, 탄산, 이온음료를 4:2:4 비율로 섞어서 만들어요 |
6 | 레몬주 | 소주 | 레몬맛 탄산음료 | NaN | 4 | 6.0 | NaN | 4:6 | 소주, 레몬맛 탄산음료 | 소주, 레몬맛 탄산음료를 4:6 비율로 섞어서 만들어요 |
In [ ]:
df["ingredient3"]
df1_list = df["ingredient3"].values.tolist()
df1_list
Out[ ]:
['블루레몬에이드', '탄산수', nan, '이온음료', nan, nan, '파란이온음료', nan, '밀키스', '핫식스', nan, '사이다', '사이다', nan, nan, '사이다', nan, '사이다', '콜라', '사이다', nan, nan, '토마토주스', nan, nan, nan, nan, nan, '봉봉', nan, nan, nan, nan, '사이다', nan, nan, nan, '레몬', nan, nan, '사이다', '복분자', '탱크보이', '이온음료']
In [ ]:
# nan값은 문자열도 아니고 null도 아니고 float이다 (특이점)
df1_list[2] == "nan"
Out[ ]:
False
In [ ]:
# 없는 재료를 저장할 리스트를 만듭니다
isNot = []
# 있는 재료를 저장할 리스트를 만듭니다
df_df2_list = []
# df1_list와 df2_list의 값을 숫자를 매겨주면서 비교합니다
for i in range(len(df1_list)):
if type(df1_list[i]) == float: # df1_list[i]가 nan값이면
print("nan값이 있습니다")
continue # 다음 반복문으로 넘어갑니다
# continue를 만나면 아래 코드는 실행되지 않습니다
print("--------", i, "번째 반복문 시작-----------")
print(df1_list[i]+" 있을까요?")
for j in range(len(df2_list)):
if df1_list[i] == df2_list[j]:
print(str(i)+"번째 " +df1_list[i] +" 는 "+str(j)+"번째 "+df2_list[j]+" 안에 있습니다")
df_df2_list.append(str(i)+","+str(j) + "," + df1_list[i] + "," + df2_list[j])
if df1_list[i] not in df2_list:
print("없습니다")
isNot.append(df1_list[i])
-------- 0 번째 반복문 시작----------- 블루레몬에이드 있을까요? 0번째 블루레몬에이드 는 18번째 블루레몬에이드 안에 있습니다 -------- 1 번째 반복문 시작----------- 탄산수 있을까요? 1번째 탄산수 는 10번째 탄산수 안에 있습니다 nan값이 있습니다 -------- 3 번째 반복문 시작----------- 이온음료 있을까요? 3번째 이온음료 는 19번째 이온음료 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 6 번째 반복문 시작----------- 파란이온음료 있을까요? 없습니다 nan값이 있습니다 -------- 8 번째 반복문 시작----------- 밀키스 있을까요? 8번째 밀키스 는 17번째 밀키스 안에 있습니다 -------- 9 번째 반복문 시작----------- 핫식스 있을까요? 9번째 핫식스 는 26번째 핫식스 안에 있습니다 nan값이 있습니다 -------- 11 번째 반복문 시작----------- 사이다 있을까요? 11번째 사이다 는 8번째 사이다 안에 있습니다 -------- 12 번째 반복문 시작----------- 사이다 있을까요? 12번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 15 번째 반복문 시작----------- 사이다 있을까요? 15번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 -------- 17 번째 반복문 시작----------- 사이다 있을까요? 17번째 사이다 는 8번째 사이다 안에 있습니다 -------- 18 번째 반복문 시작----------- 콜라 있을까요? 18번째 콜라 는 7번째 콜라 안에 있습니다 -------- 19 번째 반복문 시작----------- 사이다 있을까요? 19번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 22 번째 반복문 시작----------- 토마토주스 있을까요? 22번째 토마토주스 는 31번째 토마토주스 안에 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 28 번째 반복문 시작----------- 봉봉 있을까요? 28번째 봉봉 는 16번째 봉봉 안에 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 33 번째 반복문 시작----------- 사이다 있을까요? 33번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 37 번째 반복문 시작----------- 레몬 있을까요? 37번째 레몬 는 12번째 레몬 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 40 번째 반복문 시작----------- 사이다 있을까요? 40번째 사이다 는 8번째 사이다 안에 있습니다 -------- 41 번째 반복문 시작----------- 복분자 있을까요? 41번째 복분자 는 50번째 복분자 안에 있습니다 -------- 42 번째 반복문 시작----------- 탱크보이 있을까요? 없습니다 -------- 43 번째 반복문 시작----------- 이온음료 있을까요? 43번째 이온음료 는 19번째 이온음료 안에 있습니다
In [ ]:
isNot
Out[ ]:
['파란이온음료', '탱크보이']
두개의 빈값이 있는것을 확인했고
해당 두개의 빈값을 크롤링해서 가져옵니다
위에 코드에 드라이버만 추가합니다
In [ ]:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import pandas as pd
import numpy as np
import csv
import os
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.alert import Alert # 경고창
from selenium.webdriver.chrome.options import Options # 크롬 드라이버 자동 설치
from selenium.webdriver.chrome.service import Service # 크롬 드라이버 자동 설치
from webdriver_manager.chrome import ChromeDriverManager # 크롬 드라이버 자동 설치
import base64 # 이미지 인코딩
In [ ]:
# 구글 드라이버를 사용하기 위한 설정
options = webdriver.ChromeOptions() # 크롬 옵션 객체 생성
# options.add_argument("headless") # 창 숨기기
options.add_argument('window-size=1920x1080') # 창 크기 설정
options.add_argument("disable-gpu") # GPU 사용 안함
options.add_argument("lang=ko_KR") # 언어 설정
In [ ]:
# 없는 재료를 저장할 리스트를 만듭니다
isNot = []
# 있는 재료를 저장할 리스트를 만듭니다
df_df2_list = []
# 크롬 드라이버 객체 생성
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
# 이미지의 url을 저장할 리스트를 만듭니다
imgUrl = []
# df1_list와 df2_list의 값을 숫자를 매겨주면서 비교합니다
for i in range(len(df1_list)):
if type(df1_list[i]) == float: # df1_list[i]가 nan값이면
print("nan값이 있습니다")
continue # 다음 반복문으로 넘어갑니다
# continue를 만나면 아래 코드는 실행되지 않습니다
print("--------", i, "번째 반복문 시작-----------")
print(df1_list[i]+" 있을까요?")
for j in range(len(df2_list)):
if df1_list[i] == df2_list[j]:
print(str(i)+"번째 " +df1_list[i] +" 는 "+str(j)+"번째 "+df2_list[j]+" 안에 있습니다")
df_df2_list.append(str(i)+","+str(j) + "," + df1_list[i] + "," + df2_list[j])
if df1_list[i] not in df2_list:
print("없습니다")
isNot.append(df1_list[i])
# 구글 검색창에 내가입력한 keyword 검색한다.
driver.get('https://www.google.com/')
driver.find_element(By.NAME, 'q').send_keys(df1_list[i])
driver.find_element(By.NAME, 'q').send_keys(Keys.ENTER)
# 사진 검색
driver.find_element(By.LINK_TEXT, '이미지').click() # link_text는 링크 텍스트를 찾는다.
# # 1번째 이미지 클릭
# driver.find_element(By.CSS_SELECTOR, 'img.rg_i.Q4LuWd').click() # css_selector는 css 선택자를 찾는다.
# 1번째 이미지의 링크 주소를 가져온다.
img = driver.find_element(By.CSS_SELECTOR, 'img.rg_i.Q4LuWd')
img_src = img.get_attribute('src')
# 이미지의 링크 주소를 리스트에 저장한다.
imgUrl.append(df1_list[i]+","+ img_src)
-------- 0 번째 반복문 시작----------- 블루레몬에이드 있을까요? 0번째 블루레몬에이드 는 18번째 블루레몬에이드 안에 있습니다 -------- 1 번째 반복문 시작----------- 탄산수 있을까요? 1번째 탄산수 는 10번째 탄산수 안에 있습니다 nan값이 있습니다 -------- 3 번째 반복문 시작----------- 이온음료 있을까요? 3번째 이온음료 는 19번째 이온음료 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 6 번째 반복문 시작----------- 파란이온음료 있을까요? 없습니다 nan값이 있습니다 -------- 8 번째 반복문 시작----------- 밀키스 있을까요? 8번째 밀키스 는 17번째 밀키스 안에 있습니다 -------- 9 번째 반복문 시작----------- 핫식스 있을까요? 9번째 핫식스 는 26번째 핫식스 안에 있습니다 nan값이 있습니다 -------- 11 번째 반복문 시작----------- 사이다 있을까요? 11번째 사이다 는 8번째 사이다 안에 있습니다 -------- 12 번째 반복문 시작----------- 사이다 있을까요? 12번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 15 번째 반복문 시작----------- 사이다 있을까요? 15번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 -------- 17 번째 반복문 시작----------- 사이다 있을까요? 17번째 사이다 는 8번째 사이다 안에 있습니다 -------- 18 번째 반복문 시작----------- 콜라 있을까요? 18번째 콜라 는 7번째 콜라 안에 있습니다 -------- 19 번째 반복문 시작----------- 사이다 있을까요? 19번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 22 번째 반복문 시작----------- 토마토주스 있을까요? 22번째 토마토주스 는 31번째 토마토주스 안에 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 28 번째 반복문 시작----------- 봉봉 있을까요? 28번째 봉봉 는 16번째 봉봉 안에 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 33 번째 반복문 시작----------- 사이다 있을까요? 33번째 사이다 는 8번째 사이다 안에 있습니다 nan값이 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 37 번째 반복문 시작----------- 레몬 있을까요? 37번째 레몬 는 12번째 레몬 안에 있습니다 nan값이 있습니다 nan값이 있습니다 -------- 40 번째 반복문 시작----------- 사이다 있을까요? 40번째 사이다 는 8번째 사이다 안에 있습니다 -------- 41 번째 반복문 시작----------- 복분자 있을까요? 41번째 복분자 는 50번째 복분자 안에 있습니다 -------- 42 번째 반복문 시작----------- 탱크보이 있을까요? 없습니다 -------- 43 번째 반복문 시작----------- 이온음료 있을까요? 43번째 이온음료 는 19번째 이온음료 안에 있습니다
In [ ]:
imgUrl
Out[ ]:
['파란이온음료,', '탱크보이,']
In [ ]:
# 가져온 이미지의 링크 주소를 csv 파일에 저장한다.
with open('imgUrl.csv', 'w', encoding='utf-8') as f:
for i in imgUrl:
f.write(i + '\n')
base64이미지를 디코딩해서 저장합니다¶
In [ ]:
import base64
for i in range(len(imgUrl)):
img_data = base64.b64decode(imgUrl[i].split(',')[2]) # split(',')[1]은 base64로 인코딩된 이미지만 가져온다.
keyword = imgUrl[i].split(',')[0]
# myimages폴더가 없으면 생성한다.
if not os.path.exists('myimages'): # os.path.exists는 폴더가 있는지 확인한다.
os.makedirs('myimages') # os.makedirs는 폴더를 생성한다.
# 디코딩된 이미지를 저장한다.
with open(f'myimages/{keyword}.png', 'wb') as f: # wb는 write binary
f.write(img_data)
없는데이터도 가져왔으니 다시 한번 비교해보겠습니다
In [ ]:
# 부재료 - 시트2.csv를 불러와서 데이터 프레임으로 만든다.
df0 = pd.read_csv('부재료가공완료.csv', encoding='utf-8')
df0.loc[ :,["재료","Unnamed: 2"]]
#86 번째 행부터 마지막 행까지만 가져온다.
df0 = df0.loc[86: ,["재료","Unnamed: 2"]]
In [ ]:
df0
Out[ ]:
재료 | Unnamed: 2 | |
---|---|---|
86 | 파란이온음료 | https://i.imgur.com/1ZQ3Z9M.png |
87 | 탱크보이 | https://i.imgur.com/1ZQ3Z9M.png |
In [ ]:
df0= df0.values.tolist()
In [ ]:
df0
Out[ ]:
[['파란이온음료', 'https://i.imgur.com/1ZQ3Z9M.png'], ['탱크보이', 'https://i.imgur.com/1ZQ3Z9M.png']]
In [ ]:
# # df를 mysql에 넣기 위해 리스트로 바꿔줍니다
# df = df.values.tolist()
# df
# mysql에 연결합니다
import pymysql
from Config import Config
# MySQL Connection 연결
conn = pymysql.connect(host=Config.host , user=Config.user, password=Config.password, db=Config.db, charset='utf8')
# Connection 으로부터 Cursor 생성
curs = conn.cursor()
# SQL문 실행 name, imgUrl
sql = "insert into ingredient(name, imgUrl) values(%s, %s)"
curs.executemany(sql, df0)
# 저장을 반영합니다
conn.commit()
# Connection 닫기
conn.close()
curs.close()
잘저장되었는지 확인합니다
In [ ]:
# mysql에 연결합니다
conn = pymysql.connect(host=Config.host , user=Config.user, password=Config.password, db=Config.db, charset='utf8')
# Connection 으로부터 Cursor 생성
curs = conn.cursor()
#마지막 두개의 행만 가져오는 sql문
sql = "select * from ingredient order by id desc limit 2"
curs.execute(sql)
rows = curs.fetchall()
for row in rows:
print(row)
conn.commit()
conn.close()
(88, '탱크보이', 'https://i.imgur.com/1ZQ3Z9M.png', datetime.datetime(2023, 3, 6, 22, 7, 48), datetime.datetime(2023, 3, 6, 22, 7, 48)) (87, '파란이온음료', 'https://i.imgur.com/1ZQ3Z9M.png', datetime.datetime(2023, 3, 6, 22, 7, 48), datetime.datetime(2023, 3, 6, 22, 7, 48))
html 코드를 예쁘게 보기 위해 사용합니다
In [ ]:
from IPython.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))
'DataScience > Crawling' 카테고리의 다른 글
Crawling 구글자동검색이미지다운 (0) | 2023.03.06 |
---|---|
Selenium 구글웹드라이버 사용 기본 (0) | 2023.02.24 |