본문 바로가기

DataScience90

딥러닝에서 leaning rate, validation, EarlyStopping 을 사용하는 이유에 대해 지난 내용에 대한 추가설명 leaning rate 을 설정 하는 이유 leaning rate이 크게되면 보폭이 커져서 오차의 최소점을 넘어가는 오류를 범하게되고 (마지막차트) leaning rate이 작으면 오래걸리는 문제가 발생(시스템자원낭비) 하기때문에 (첫번째차트) 차트 중앙과 같이 적절한 leaning rate 을 설정 하는게 중요하다. validation(밸리데이션) 이란 무엇인가( 파라미터 validation_split=0.2 ) Epoch가 한번 끝날때 마다, 학습에 사용하지 않은 데이터로 시험을 보는 것을 말한다. 그럼 학습에 사용하지 않은 데이터는 어디서 얻을수 있느냐, 기존에 있던 X_trian, y_train 에서 validation_split=0.2 , 즉 학습할 데이터를 20퍼로 다시 나눠서 사용하는 방법이.. 2022. 12. 28.
딥러닝 텐서플로우 leaning rate를 옵티마이저에서 셋팅, 밸리데이션 데이터란 무엇이고 사용법,EarlyStopping 라이브러리 사용법 Auto MPG 데이터셋을 사용하여 1970년대 후반과 1980년대 초반의 자동차 연비를 예측하는 모델을 만듭니다. 이 정보에는 실린더 수, 배기량, 마력(horsepower), 공차 중량 같은 속성이 포함됩니다.¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt In [ ]: # 구글 드라이브 마운트 In [ ]: In [2]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive In [ ]: # Working Directory 설정 In [3]: import os In [4]: os.chdir.. 2022. 12. 28.
딥러닝 regression 문제, epoch_history, loss(경사)를 눈으로 확인 (오차가 더 떨어질지 보는것) In [ ]: # 50 Startups csv 파일을 가지고, 딥러닝 이용해서 학습하고, 평가까지 해보세요. In [1]: import numpy as np import pandas as pd In [2]: import os In [ ]: In [3]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive In [4]: pwd Out[4]: '/content' In [5]: os.chdir('/content/drive/MyDrive/Colab Notebooks/ml_plus') In [7]: pwd Out[7]: '/content/drive/MyDrive.. 2022. 12. 28.
딥러닝 텐서플로우 리그레션(regression) 문제 모델링 하는 방법 자동차 구매 가격 예측¶ PROBLEM STATEMENT¶ 다음과 같은 컬럼을 가지고 있는 데이터셋을 읽어서, 어떠한 고객이 있을때, 그 고객이 얼마정도의 차를 구매할 수 있을지를 예측하여, 그 사람에게 맞는 자동차를 보여주려 한다. Customer Name Customer e-mail Country Gender Age Annual Salary Credit Card Debt Net Worth (순자산) 예측하고자 하는 값 : Car Purchase Amount STEP #0: 라이브러리 임포트 및 코랩 환경 설정¶구글 드라이브 파일 읽기 참고 In [48]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seab.. 2022. 12. 28.
딥러닝 텐서플로우 분류의문제 GridSearch (저번편에 빈공간에 이어서..) 결론 : 그리드 서치란 하이퍼파라미터의 범위를 설정해두면 최적의 모델을 알아서 찾아서 반환해주는 그런것이다. 용어 정리 epoch 한 번의 epoch는 신경망에서 전체 데이터 셋에 대해 forward pass/backward pass 과정을 거친 것을 말함. 즉, 전체 데이터 셋에 대해 한 번 학습을 완료한 상태 batch_size 메모리의 한계와 속도 저하 때문에 대부분의 경우에는 한 번의 epoch에서 모든 데이터를 한꺼번에 집어넣을 수는 없습니다. 그래서 데이터를 나누어서 주게 되는데 이때 몇 번 나누어서 주는가를 iteration, 각 iteration마다 주는 데이터 사이즈를 batch size라고 합니다. 출처: https://www.slideshare.net/w0ong/ss-82372826 .. 2022. 12. 27.
딥러닝 ANN개념 정리 요약 https://vision-ai.tistory.com/entry/%EC%98%B5%ED%8B%B0%EB%A7%88%EC%9D%B4%EC%A0%80-Optimizer-%EC%A2%85%EB%A5%98 2022. 12. 27.
딥러닝 텐서플로우에서 학습시 epoch 와 batch_size 에 대한 설명, dummy variable trap, 분류의 문제 모델링 하는 방법, 실무 예시 금융상품 갱신 여부 예측하는 ANN¶Churn_Modelling.csv 파일을 보면, 고객 정보와 해당 고객이 금융상품을 갱신했는지 안했는지의 여부에 대한 데이터가 있다. 이 데이터를 가지고 갱신여부를 예측하는 딥러닝을 구성하시오. In [ ]: Neural Networks and Deep Learning¶ In [ ]: In [1]: # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns %matplotlib inline In [3]: # Churn_Modelling.csv 파일을 읽어올것이다. # 구글 드라이브를 연동해서 읽어온다. In [4]:.. 2022. 12. 27.
이미지 url을 가져올때 없는 이미지인지 체크하는 방법 이미지인지 체크하는 가장 쉬운방법은 해당 파일의 확장자를 보면됩니다 하지만 url 이미지 같은경우는 변수가 발생합니다 때문에 아래와같은 절차를 따릅니다. # Content-Type 헤더 확인: # URL이 이미지를 가리키는지 나타내는지 확인하는 것입니다. # 다음은 if 문을 사용하여 이를 수행하는 방법의 예입니다. import requests r = requests.get(url) if r.headers['Content-Type'].startswith('image'): print("This is an image URL.") else: print("This is not an image URL.") [out]This is not an image URL. 2022. 12. 23.
파이썬 차트 라이브러리 추천 plotly (커스터 마이징이 좋다) 파이썬 차트를 그리는 라이브러리는 matplotlib , seaborn 가 보편적이지만 인터랙티브하게 만들거나 커스터마이징을 하려면 꽤나 머리가 아프다 그래서 plotly 를 사용하면 보다 나은 차트를 구현 할 수 있다. https://plotly.com/python/ 다음 코드는 아래 차트를 그리는 예시이다. fig = make_subplots(rows=2, cols=2,subplot_titles=last_df.columns[1:]) fig.add_trace( go.Scatter(x=last_df['index'], y=last_df['Score'],name="Score", mode="markers+text", text=last_df['index'].values, # text=["Text A", "Tex.. 2022. 12. 23.
두 개의 데이터 프레임을 서브 플롯으로 배치해보자 fig, ax = plt.subplots(1, 2) df1['Win %'].plot(ax=ax[0]) hero.plot(ax=ax[1]) ax[0].set_title('Data Frame 1') ax[0].set_xlabel('X Axis') ax[0].set_ylabel('Y Axis') ax[1].set_title('Data Frame 2') ax[1].set_xlabel('X Axis') ax[1].set_ylabel('Y Axis') ax[1].legend() plt.show() 2022. 12. 22.
Streamlit 이미지 크기를 조절하기 서론 : 스트림릿 대쉬보드는 데이터 분석용으로 이미지 처리 기능이 내장되어있지 않기때문에 아래와 같은 단계를 따릅니다. steps: 1. 먼저 이미지 처리 및 조작 기능을 제공하는 Pillow 라이브러리를 설치합니다. Python 패키지 관리자인 pip를 사용하여 Pillow를 설치할 수 있습니다. pip install pillow 2. 다음으로 Streamlet 함수의 Pillow에서 필요한 모듈을 가져옵니다. from PIL import Image 3. 'requests' 라이브러리를 사용하여 URL에서 이미지 데이터를 읽습니다. import requests url = 'https://example.com/image.jpg' response = requests.get(url) image_data = .. 2022. 12. 22.
Pandas 행과 열의 문자열인덱스를 숫자로 가져오는 방법 # pandas 문자열로 된 인덱스를 숫자로 가져오는방법 # Create a sample dataframe df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c']) # Find the index number of label 'b' index_number = df.index.get_loc('b') print(index_number) # Output: 1 # pandas 문자열로 된 컬럼을 숫자로 가져오는방법 # Create a sample dataframe df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}) # Find the ind.. 2022. 12. 16.