Data science/AI 5

micro average F1-score와 accuracy가 같은 이유

※ Multi-class에서 micro-avg recall = micro-avg f1 = accuracy인 이유 우선 multi class에서는 ‘한 class의 FN = 다른 class의 FP’이다. (한 클래스의 TP ≠ 다른 클래스의 TN) 이런 이유로 분모가 TP로 같은 precision과 recall은 분모도 동일해지고, f1score도 같아진다. 참고링크1, 참고링크2 그렇다면 각 class의 TP ≠ TN인데 accuracy는 왜 같은가? Micro-avg 구하는 수식은 오른쪽 그림에 따라 아래와 같이 세울 수 있다. 그리고 위 식은 accuracy 식과 같으므로 micro-avg recall=micro-avg f1=accuracy가 된다. (acc식에서 TP, TN은 binary class..

Data science/AI 2023.06.16

SHAP (SHapley Additive exPlanations)

Shapley value 더보기 - Shapley value : 게임이론을 바탕으로 하나의 특성에 대한 중요도를 알기 위해 여러 특성들의 조합을 구성하고 해당 특성의 유무에 따른 평균적인 변화를 통해 얻어낸 값 (모든 가능한 조합에 대해서 하나의 특성의 기여도를 종합적으로 합한 값) - 1953년에 shapley가 쓴 논문에서 처음 언급되었고, 이 방법은 총 지불금(payout)에 각 선수들(players)의 기여도에 따라 선수의 지불금을 정의하는 것이다. - 여기서 ‘게임’은 하나의 인스턴스(관측치)에 대한 예측 /하나의 인스턴스(관측치)=모든 특성들을 가지고 예측한 한번의 epoch?? - ‘이득(gain)=기여도?’은 모든 데이터로부터 얻은 평균 예측값에서 하나의 관측치로부터 얻은 예측값을 뺀 값 ..

Data science/AI 2023.06.16

공부해야 될 모델 리스트

▶ NLP (LSTM) transformer BERT GPT ▶ Vision AI Visual Trnasformer (ViT) ViT : paper, 블로그 MAE (masked auto encoder) pre-trained ViT : 블로그 Image GPT Generative model Diffusion GAN Foundation model segment anything (잘 정리된 블로그) - task : prompt 기반 모델 - model : image encoder(MAE pre-trained ViT), prompt encoder(sparse, dense), mask decoder - data : 데이터 엔진. 이외에.. Object Detection - R-CNN, Fast R-CNN, Fa..

Data science/AI 2023.06.16

bagging vs. boosting

Bias and Variance - bias : 예측값과 실제 정답과의 차이의 평균 (예측값이 정답에서 얼만큼 떨어져 있는가) - varaince : 얼만큼 예측값이 퍼져서 다양하게 출력될 수 있는가 → bias & variance는 모델의 복잡도와 관련이 있고, 서로 trade-off 관계 출처1 : https://gaussian37.github.io/machine-learning-concept-bias_and_variance/ 출처2 : https://www.pico.net/kb/overfitting-variance-bias-and-model-complexity-in-machine-learning/ Ensemble - 앙상블 : 편향 및 분산(오버피팅)을 극복하여 더욱 일반화 된 모델을 만드는 것 b..

Data science/AI 2023.06.15

이미지 노이즈 종류 및 제거(Image Denoising)/ Gaussian, Median, Bilateral, NLmeans

이미지 노이즈 종류 - Guassian noise - Salt & pepper - Uniform noise .. etc ​ openCV 노이즈 제거 필터 1. Gaussian Filter 2. Bilateral Filter 3. Median Filter -> blurring or smooting에 사용되는 필터들 -> 한계 : locally하게 주변 픽셀들 참고해서 필터처리 ​ 4. NLmeans (Non-Local Means Denoising) - 함수명 cv2.fastfastNlMeansDenoising() - 이미지 전체를 고려해 픽셀 값 수정 ​ h : 필터 강도를 결정하는 인자. 더 높은 h 값이 잡음을 더 잘 제거하지만 잡음이 아닌 픽셀도 제거함(10이면 적당함) hForColorCompone..

Data science/AI 2023.04.08