Numpy

    [Python]. multiProcessing 대용량 빅데이터 구간별로 전처리하기

    numpy 데이터를 DB 삽입 하려고하다보니 형식이 맞지않아 삽입을 할 수 없는 상황이 생겼다. 그래서 Python의 flaot 형태로 변경해서 삽입하려고 시도했고 numpy 에서 tolist() 함수를 통해 Python float 형태로 변경하면 FP형식이 유지되지않는다. **numpy FP16을 Python으로 변환해도 FP32로 바뀌어서 변환된다. 그래서 numpy 형식을 python float32 형태로 변경하고 그것을 round 함수를 통해 4째자리까지만 잘라내려고한다.(FP16) 총 256차원의 7,000,000만건의 벡터(Vector) 데이터를 전처리해야했고 생각없이 코드를 작성했더니 많은 시간(10분이상)이 소요되었고 중간중간 병목현상이 발생하였다. 이때 개념으로만 알고있던 멀티 프로세싱이..

    [기계학습]. 다중선형회귀(Multiple Linear Regression)실습 Python code -예제

    실습데이터 및 파이썬 script 실습에 사용된 라이브러리 import os import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.model_selection import train_test_split Pandas 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 numpy 다차원 배열을 처리하는데 필요한 여러 유용한 기능을 제공 statsmodels 검정 및 추정 , 회귀분석, 시계열분석등의 다양한 통계분석 기능을 제공 patsy 패키지를 포함하고 있어 기존에 R에서만 가능했던 회귀분석과 시계열분석 방법론을 그대로 파이썬에서 이용할 수 있..

    [Machine Learning] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot

    Machine Learning 머신러닝 먼저 회귀분석에 대해서 알아봅시다. 2020/04/22 - [데이터사이언스/머신러닝] - [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 회귀분석이란? 회귀 분석에 들어가기 전에 먼저 지도 학습(Supervised Learnig)과 비지도 학습(Unsupervised Learning)에 대해서 알아봅시다. 2020/03/19 - [데이터 사이언스/머신러닝] - [기계학습] 2. 지도 학습. acdongpgm.tistory.com 패키지 설치 import os import pandas as pd import numpy as np import statsmodels.api as..