728x90
Avoid for loops with numpy array
- numpy는 배열을 효율적으로 다룰 수 있도록 만들어진 라이브러리입니다.
- 같은 배열을 저장하고 있더라도 list에 비해 효과적으로 메모리를 사용하고, tensor간 연산을 지원해 계산 속도에서도 큰 이점을 가집니다.1
- 요소별로 연산을 필요로 할 때, for 문을 활용해 계산을 하면 numpy의 장점을 활용하지 못합니다.
- numpy는 범용 함수ufunc을 지원하기 때문에 for문을 사용할 때와 비교가 안될 만큼 효율적인 요소별 계산을 할 수 있습니다.
- 아래 예를 보게 된다면 numpy 배열에 요소별 연산을 할 때 for 문이 얼마나 비효율적인지 알게 됩니다.
LoadingSorry, something went wrong. Reload?Sorry, we cannot display this file.Sorry, this file is invalid so it cannot be displayed.
- 속도 뿐만 아니라 코드를 작성할 때도 for 문을 사용하지 않아도 되기 때문에 간결하게 코드를 작성할 수 있습니다.
Example
- 서울대학교 김성우 교수님의 "머신러닝을 위한 기초 수학 및 프로그래밍 실습" 강의의 과제로 작성했던 코드를 예로 들어보겠습니다.
- 코페르니쿠스가 화성의 위치를 계산하기위해 유도했던 식을 프로그램화 해보는 과제입니다. 두 시점에서 지구의 태양 중심의 경도(
)와 화성의 지구 중심 경도(θ1,θ2 )로 아래와 같은 식으로 화성의 좌표를 계산할 수 있습니다.ϕ1,ϕ2
to_degree
함수는 각도의 단위를 변환해주는 함수이고,calculate_coordinate
는 화성의 좌표를 계산해주는 함수입니다.to_degree
에서 단위를 변환해 주는 과정 중에 array간의 element-wise 계산을 수행합니다.calculate_coordinate
에서는 line3 에서 데이터를 벡터로 분리했고, line4와 line5에서 화성의 좌표를 계산합니다.θ1,ϕ1,θ2,ϕ2
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
def calculate_coordinateangles: | |
angles = angles * np.pi/180 | |
t_1, p_1, t_2, p_2 = angles[:,0], angles[:,1], angles[:,2], angles[:,3] | |
x = np.sin(t2-np.sint1 + np.tan(p1*np.cost1 -np.tanp2*np.cost2))/np.tan(p1 - np.tanp2) | |
y = np.tanp1*x + np.sint1 - np.tanp1*np.cost1 | |
return np.array[x,y].T | |
def to_degreeangle: | |
deg = angle.astypedtype=np.int | |
minute = angle - deg | |
angle = deg + minute/0.6 | |
return angle |
- 만약에 numpy 배열을 list처럼 생각하고 for 문을 사용한다면 다음과 같이 비효율적인 방식으로 장황하게 코드를 작성해야합니다.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
def inefficient_calculate_coordinateangles: | |
[num_i, num_j] = angles.shape | |
x = np.zerosnumi | |
y = np.zerosnumi | |
for i in rangenumi: | |
for j in rangenumj: | |
angles[i,j] = angles[i,j] * np.pi/180 | |
for i in rangenumi: | |
t_1, p_1, t_2, p_2 = angles[i,0], angles[i,1], angles[i,2], angles[i,3] | |
x[i] = np.sin(t2-np.sint1 + np.tan(p1*np.cost1 -np.tanp2*np.cost2))/np.tan(p1 - np.tanp2) | |
y[i] = np.tanp1*x[i] + np.sint1 - np.tanp1*np.cost1 | |
return np.array[x,y].T | |
def inefficient_to_degreeangle: | |
[num_i, num_j] = angle.shape | |
for i in rangenumi: | |
for j in rangenumj: | |
deg = intangle[i,j] | |
minute = angle[i,j] - deg | |
angle[i,j] = deg + minute/0.6 | |
return angle |
- 실행 시간을 측정해보면 비효율 적인 방식이 3배의 시간이 걸리는 것을 볼 수 있습니다. 데이터가 많아지면 이 차이는 더 커집니다.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
import matplotlib.pyplot as plt | |
import numpy as np | |
import time | |
def calculate_coordinateangles: | |
angles = angles * np.pi/180 | |
t_1, p_1, t_2, p_2 = angles[:,0], angles[:,1], angles[:,2], angles[:,3] | |
x = np.sin(t2-np.sint1 + np.tan(p1*np.cost1 -np.tanp2*np.cost2))/np.tan(p1 - np.tanp2) | |
y = np.tanp1*x + np.sint1 - np.tanp1*np.cost1 | |
return np.array[x,y].T | |
def to_degreeangle: | |
deg = angle.astypedtype=np.int | |
minute = angle - deg | |
angle = deg + minute/0.6 | |
return angle | |
def inefficient_calculate_coordinateangles: | |
[num_i, num_j] = angles.shape | |
x = np.zerosnumi | |
y = np.zerosnumi | |
for i in rangenumi: | |
for j in rangenumj: | |
angles[i,j] = angles[i,j] * np.pi/180 | |
for i in rangenumi: | |
t_1, p_1, t_2, p_2 = angles[i,0], angles[i,1], angles[i,2], angles[i,3] | |
x[i] = np.sin(t2-np.sint1 + np.tan(p1*np.cost1 -np.tanp2*np.cost2))/np.tan(p1 - np.tanp2) | |
y[i] = np.tanp1*x[i] + np.sint1 - np.tanp1*np.cost1 | |
return np.array[x,y].T | |
def inefficient_to_degreeangle: | |
[num_i, num_j] = angle.shape | |
for i in rangenumi: | |
for j in rangenumj: | |
deg = intangle[i,j] | |
minute = angle[i,j] - deg | |
angle[i,j] = deg + minute/0.6 | |
return angle | |
if __name__ == '__main__': | |
observations = np.array([[159.23, 135.12, 115.21, 182.08], | |
[5.47, 284.18, 323.26, 346.56], | |
[85.53, 3.04, 41.42, 49.42], | |
[196.50, 168.12, 153.42, 218.48], | |
[179.41, 131.48, 136.06, 184.42], | |
[180.0,118,136,168], | |
[210, 151, 167, 204], | |
[121, 66, 76, 123], | |
[178, 108, 135, 153], | |
]) | |
start = time.perf_counter | |
brahe_processed = to_degreeobservations | |
brahe_result = calculate_coordinatebraheprocessed | |
efficient_time = time.perf_counter - start | |
print′>>>EfficientCalculation:′,efficienttime | |
start = time.perf_counter | |
brahe_processed_ineffi = inefficient_to_degreeobservations | |
brahe_result_ineffi = inefficient_calculate_coordinatebraheprocessedineffi | |
inefficient_time = time.perf_counter - start | |
print′>>>InefficientCalculation:′,inefficienttime | |
print′>>>InefficiencyRatio:′,inefficienttime/efficienttime | |
---------------- | |
>>> Efficient Calculation : 0.00013260000000003824 | |
>>> Inefficient Calculation : 0.0004408999999999663 | |
>>> Inefficiency Ratio : 3.3250377073894355 |
np.vectorize로 ufunc 정의하기
- 라이브러리에서 제공하는 ufunc으로 대부분의 작업이 가능하지만 스칼라 연산에 대해 정의 된 함수를 ufunc으로 바꿀 수 있는 방법이 있습니다.
- 궂이 vectorize방법이 필요한 상황을 생각해보았지만 지금은 떠오르지 않지만 억지로 예시를 만들자면 다음과 같은 예시가 있을 수 있습니다.
- python 내장 라이브러리인 math의 sin함수는 numpy array 연산을 지원하지 않지만 vecotrize 함수를 사용해 다음과 같이 범용함수로 만들 수 있습니다.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
import math | |
import numpy as np | |
def function_for_scalrx: | |
y = math.sinx + 2 | |
return y | |
vectorized_function = np.vectorizefunctionforscalar | |
test_array = np.random.rand5 | |
printvectorizedfunction(testarray) | |
printfunctionforscalar(testarray) # 에러 발생 |
마무리
- numpy array를 사용할 때 범용함수universialfunction의 유용함을 확인했습니다.
- numpy 연산의 특징을 잘 활용할 때, for 문을 사용해 코드가 길어질 때 발생할 수 있는 잠재적인 오류의 원인을 막을 수 있고 빠른 연산 속도를 보장할 수 있습니다.
Reference
[1] numpy ufunc docs
[2] Python Lists vs. Numpy Arrays - What is the difference? - UCF open course
[3] 코페르니쿠스 혁명 - wiki
'프로그래밍 언어 > python' 카테고리의 다른 글
lambda 함수 0 | 2022.07.26 |
---|---|
유연한 matplotlib subplot 사용하기 0 | 2022.07.26 |
python 함수를 아름답게 사용하기 0 | 2022.07.26 |
_var, var_, _var_, __var__과 같이 선언된 변수의 의미를 설명 0 | 2022.07.26 |
unittest, Test-driven develope를 위한 라이브러리 0 | 2022.07.26 |