일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 지니계수
- 머신러닝
- Python
- GINI
- scatter
- XGBoost
- Golang
- decisiontree
- ml
- bar
- matplotlib
- confusion matrix
- Heatmap
- gini coefficient
- sklearn
- pyplot
- Today
- Total
목록deeplearning (2)
Passion, Grace & Fire.
지니 계수의 정의 지니계수는 어떤 값의 분배상태를 표현하기 위한 로렌츠 곡선을 이용하여 값의 분배 정도를 수치화하는 방법이다. 머신러닝 분야에서는 Decision Tree Model의 성능평가를 하는 데 사용된다. 아래 이미지는 로렌츠 곡선으로, X축은 데이터 수의 누적 비율이고, Y축은 데이터 value의 누적 비율이다. 위 로렌츠 곡선에서 A를 Line of Equality와 로렌츠 곡선 사이의 영역이라 하고 B를 로렌츠 곡선의 영역이라고 하면 지니 계수의 값은 아래와 같다. 지니계수 = A / (A + B) 여러개의 값을 가진 데이터의 경우, 지니 계수는 아래 공식에 따라 구할 수 있다. 출처 : https://en.wikipedia.org/wiki/Gini_coefficient 코드 구현 여러 개..
개인 PC나 노트북에서 kaggle 코드나 딥러닝/머신러닝 실습을 하는 경우 데이터를 불러오거나 훈련하는 데 시간이 너무 오래 걸리는 경우가 많습니다. google colab에 코드를 올리고 런타임 유형을 GPU로 설정해서 실행하면 개인 PC보다 훨씬 빠르게 신경망을 훈련시킬 수 있지만, colab 디렉토리에 file을 업로드하는 경우 런타임을 초기화하면 사라지므로 그때마다 파일을 다시 업로드해야 하는 번거로움이 있습니다. 이런 경우를 방지하기 위해 데이터 파일을 별도의 공간에 올려놓고, colab에서 파일 링크로 다운로드 받는 방식이 많이 사용되고 있습니다. 파일을 올려둘 만한 곳을 찾기는 어렵지만, 실습을 위해서라면 네이버 대용량 메일 기능으로 자신에게 데이터 파일을 송신하고 파일 링크 주소를 따서 ..