Data science 7

Physics-based modeling과 Data-driven modeling

본 포스팅은 Data-Driven Modeling: Concept, Techniques, Challenges and a Case Study$($Maki K. Habib, 2021$)$에 정리된 내용에 부연 설명을 더해 작성했습니다. 별도 출처 표기가 없는 이미지는 wikipedia의 이미지를 활용했습니다. 현실 세계의 복잡한 시스템의 행동이나 특성을 예측하기 위해 모델링을 한다. 어떤 자극이나 입력$($$x$$)$에 대해 응답 혹은 출력$($$y$$)$을 예측할 수 있는 수학적인 모델을 만들어 활용한다. 모델을 활용해 시뮬레이션, 최적화, 예측, 제어, 고장 진단 등 많은 분야에 활용할 수 있다. 이번 포스팅에서는 데이터 기반 모델링에 대한 이해를 높히는 것을 목표로 한다. 이후 모델링 접근법 분류, 모..

Data science 2024.03.01

신뢰성 공학 기초

신뢰성$($Reliability$)$의 공학적 정의 신뢰성$($Reliability$)$는 주어진 기간 동안 주어진 조건에서 요구 기능을 수행할 수 있는 제품$($부품/시스템)의 능력으로 운영 중에 성능에 관련된 지표다. 유사한 개념으로는 품질$($Quality$)$가 있는데, 품질은 생산 직후 제품의 성능에 관련된 지표를 나타내는 개념이다. 쉽게 말해 품질은 제품의 양품/불량품에 관한, 신뢰성은 운영 중 제품의 수명, 고장에 대한 개념으로 볼 수 있다. 제품의 성능, 사용 환경 그리고 시간에 대한 불확실한 관계를 확률적으로 정의해 Risk와 고장률 등을 분석한다. 여러 갈래로 고도화 되어 제품의 설계, 생산, 유지보수, 고장 분석 등 제품의 life cycle 전반에 활용된다. 일반적으로 신뢰성 공학의..

Data science 2023.10.04

모델과 지도학습

모델이란 모델링은 현실 세계의 시스템, 현상의 간소화된 표현을 생성하는 과정으로 이를 통해 현실 세계를 이해, 분석, 예측 및 최적화를 할 수 있다. 대부분의 모델은 ‘예측’을 목적으로 한다. 여러 변수 간의 관계를 방정식, 알고리즘 등으로 정의해 실제로 만들어 관측하기 전에 자극$($stimulus$)$이나 입력$($input$)$에 대한 응답$($response$)$이나 출력$($output$)$을 예측하는 것이 모델링의 목적이다. Physics-based model 물리 기반 모델은 물리적인 법칙에 의해 만들어진 모델이다. 지금까지 과학 시간에 배웠던 가장 유명한 물리 모델은 힘과 운동의 관계를 기술한 $\sum{\vec{F}} = m\vec{a}$일 것이다. 이 식은 외부에서 어떤 물체에 가해준 ..

Data science 2023.08.30

인공지능과 수학

인공지능은 과거 전문가의 지식을 프로그램화 한 expert system부터 시작해 현재는 데이터로부터 학습하는 머신러닝과 딥러닝을 주로 인공지능이라고 한다. 최근에는 ChatGPT나 Dall-E와 같은 생성형 AI가 주목을 받고 있지만 여기서는 입력된 데이터로부터 어떤 판단을 하거나 예측을 하는 분류(classification)와 회귀(regression) 모델에 대한 설명을 할 예정이다. AI 모델의 학습 방식 지금부터 AI 모델은 Machine learning이나 Deep learning의 회귀나 분류를 수행하는 지도학습 모델이라고 이해하면 된다. 지금까지 어떤 대상이 특정 입력을 받았을 때 반응을 예측할 수 있는 모델은 Domain 전문가의 물리적인 지식으로 복잡한 현상과 데이터를 분석하고 이를 수..

Data science 2023.08.06

Affine 변환

1. 선형 변환 선형성 linearity 수학에서 선형성은 두 가지로 정의된다. Additivity : (f(a + b) = f(a) + f(b)) Homogeneity : (f(c a) = f(a)) ((c)는 상수) 기억하기 위해서 (f(c_1a + c_2b) = c_1f(a) + c_2f(b))를 만족하면 선형의 두 조건을 만족하는 셈이다. 앞으로 이 식으로 선형성을 확인하겠다. 선형 함수 linear function 단일 변수 일차 함수 "선형"이라는 말 때문에 선형 함수를 1차 함수로 오해할 수 있다. 일반적인 단일 변수 일차 함수는 $f(x) = m x + n$로 표현할 수 있다. $$ f(c_1a + c_2b) = m(c_1a + c_2b) + n = mc_1a +mc_2b +n \cdots..

Data science 2022.07.24

최적화와 머신러닝

최적화는 여러 공학 분야에서, 일상에서도 많이 쓰이지만 명확하게 의미를 파악하는 것이 어려웠습니다. 지금까지 공부를 하며 제가 이해한 최적화라는 개념의 의미와 기계학습 분야에서 최적화의 의미를 설명하는 포스팅을 남깁니다. Optimization수치해석 교과서1에서 optimization은 특성을 나타내는 함수의 최대값이나 최소값을 만드는 입력을 찾는 것이라고 설명하고 이 값을 optimal value라고 설명합니다. optimal value라고 하면 가능한 조건(domain)에서 가장 좋은 최적의 값이라고 생각할 수 있다. 최적화를 활용해 설계를 하고자 하면 최적 설계, 제어를 하고자한다면 최적 제어가 된다. 이렇게 공학적인 내용 뿐만아니라 물자 조달과 같은 실생활에 밀접한 문제도 최적화를 통해 해결을 ..

Data science 2022.07.24

클래스 불균형 다루기

이 포스팅은 다음 블로그를 주로 참고해 작성됐습니다. 데이터 imbalance는 실제 데이터에서 매우 흔히 발견될 수 있는 문제 class imbalance에 대해 설명하고 해결 방법을 소개 Class imbalance 특정 클래스의 수가 다른 클래스의 데이터의 수에 비해 꽤 적을 때를 의미함 아래와 같은 상황이 데이터 불균형이 존재하는 상황 데이콘 운동 동작 분류 대회에서 데이터 불균형이 존재하는 데이터 접근 가능 Non-Exercise는 1500개가 넘는 데이터가 존재하지만 그 외의 데이터는 200개 이하의 데이터를 갖습니다. Class imbalace가 왜 문제가 되는지 대부분의 머신러닝 모델은 class간의 데이터의 비율이 비슷하다는 가정에서 성립됨 training을 할 때 imbalance가 크..

Data science 2022.07.20