Python

    [AWS]. S3 Bucket 에서 데이터 다운받기 (with Python)

    BackGround 로컬에서 다양한 데이터 및 인공지능 모델들을 사용하다 배포하려고할때. 전부 데이터를 서버에 옮겨야한다. 이런경우 보통 SCP 명령어를 사용하거나 정말 귀찮을때는 그냥 VS code에서 드래그 엔 드롭하는데 용량이 클수록 시간이 오래걸린다. 그래서 이번에 데이터 및 모델을 불러올때 해당 파일이 없을 경우 AWS S3에서 파일을 다운받는 방법을 알아봤다. 한 번 해놓으면 다음부터 옮길일 없음 반복적인 일은 자동화하는게 프로그래머의 자세 What is AWS S3 ? S3는 워낙 유명한 AWS의 스토리지 서비스이다. Amazon Simple Storage Service(Amazon S3)는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스입니다. (라고함...

    [Python]. multiProcessing 대용량 빅데이터 구간별로 전처리하기

    numpy 데이터를 DB 삽입 하려고하다보니 형식이 맞지않아 삽입을 할 수 없는 상황이 생겼다. 그래서 Python의 flaot 형태로 변경해서 삽입하려고 시도했고 numpy 에서 tolist() 함수를 통해 Python float 형태로 변경하면 FP형식이 유지되지않는다. **numpy FP16을 Python으로 변환해도 FP32로 바뀌어서 변환된다. 그래서 numpy 형식을 python float32 형태로 변경하고 그것을 round 함수를 통해 4째자리까지만 잘라내려고한다.(FP16) 총 256차원의 7,000,000만건의 벡터(Vector) 데이터를 전처리해야했고 생각없이 코드를 작성했더니 많은 시간(10분이상)이 소요되었고 중간중간 병목현상이 발생하였다. 이때 개념으로만 알고있던 멀티 프로세싱이..

    [이미지 전처리]. 이미지 크기 한꺼번에 변경하기 ( image preprocessing)

    구글의 티쳐블 머신을 학습시키기 위해선 224px , 224px로 이미지 크기를 조정해야 한다. 많은 이미지들의 크기를 한번에 바꾸는 방법을 알아보자.프로그래머는 귀차니즘이 많을수록 실력이 늘어나는 것같다. ㅋㅋ 먼저 패키지를 임포트 한다.import os import glob 그리고 현재 경로를 확인하는 함수 os.getcwd() 실행해서 현재 위치를 체크한다.os.getcwd() # 현재경로 확인 그리고 glob 함수를 통해서 이미지들의 경로들을 리스트로 받아온다.animal = glob.glob(os.getcwd() + "./동물/동물/*.jpg") beauti = glob.glob(os.getcwd() + "./뷰티/뷰티/*.jpg") fashion = glob.glob(os.getcwd() + ..

    [API]. Google maps API

    구글 맵스 API 를 활용하여 주소를 찍으면 위경도를 받아오기 https://cloud.google.com/maps-platform/ Geolocation API | Google Maps Platform | Google Cloud Google Maps Platform을 선택하면 정확한 실시간 데이터 및 동적 이미지로 몰입형 위치정보 활용 환경을 만들고 더 나은 비즈니스 의사결정을 내릴 수 있습니다. cloud.google.com 구글 맵스 API 를 활용하기 위해서 가입하여 Key 를 받아와야함 키를 받아왔다면, pip install googlemaps 구글 맵스 패키지를 다운로드 받아줍니다. import googlemaps myKey = "받아온 키값을 넣어주세요" gmaps = googlemaps.C..

    [기계학습]. 다중선형회귀(Multiple Linear Regression)실습 Python code -예제

    실습데이터 및 파이썬 script 실습에 사용된 라이브러리 import os import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.model_selection import train_test_split Pandas 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 numpy 다차원 배열을 처리하는데 필요한 여러 유용한 기능을 제공 statsmodels 검정 및 추정 , 회귀분석, 시계열분석등의 다양한 통계분석 기능을 제공 patsy 패키지를 포함하고 있어 기존에 R에서만 가능했던 회귀분석과 시계열분석 방법론을 그대로 파이썬에서 이용할 수 있..