일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Github
- mifare
- django
- finpilot
- pandas
- streamlit
- 정치기 필기
- 파이썬
- pytorch
- mysql
- ML
- aws
- 오블완
- 티스토리챌린지
- chromeextention
- djangorestframework
- sLLM
- team_project
- ai 캠프
- seaborn
- ai캠프
- conda
- 머신러닝
- Python
- EC2
- ollama
- Jupyterlab
- lightsail
- ai_캠프
- 로컬 런타임
- Today
- Total
목록프로그래밍/SK AI 캠프 (61)
greatsangho의 이야기

The four FsFACTS(사실, 객관) : 이번 일주일 동안 있었던 일, 내가 한 일4주차는 Pandas 입문, 머신러닝을 위한 데이터 전처리 및 시각화를 배웠다.판다스로 CSV를 가져온 뒤 필요한 DataFrame으로 정리하고 원하는 index와 column을 추가/제거하는 방법을 배웠다.이 과정에서 axis를 주의해서 사용해야 한다는 것을 알 수 있었다.FEELINGS(느낌, 주관) : 나의 감정적인 반응, 느낌모델을 학습하기에 앞서 전처리가 중요하다는 것을 배울 수 있었다. 특히 도메인 지식이 중요하다는 것을 배울 수 있었는데 어떤 데이터를 전처리 할 때 단순히 모델을 돌려 정확도를 높이는 것보다 전처리를 통해 모델을 확실히 분류하고 난 다음 모델을 적용하는 것이 중요하다는 것을 알 수 있었다..

머신러닝은 학습하는 데이터의 정답의 유무에 따라 각각 지도학습과 비지도 학습으로 나뉜다.지도 학습(supervised learning)은 대표적으로 회귀분석, 분류가 있고,비지도 학습(unsupervised learning)은 대표적으로 군집 분석이 있다. 머신러닝을 진행하는 과정은데이터 수집 --> 데이터 정리(전처리) --> 데이터 분리(훈련/검증) --> 알고리즘 선택 --> 모형 학습(훈련) --> 예측(검증) --> 모형 평가 --> 모형 활용의 단계를 거치게 된다. 지도학습에서 회귀분석은 값을 예측하는 분석 방법으로 값을 나누는 분류와 차이가 있다.회귀분석은 여러개의 독립변수 x를 머신러닝 알고리즘을 거쳐 종속변수 y를 계산하는 과정이다.방정식의 해를 구하는 과정이라 생각하면 된다. 단순회귀분..
Matplotlib 라이브러리 - 기본 파이썬 그래프 도구import pandas as pdimport matplotlib.pyplot as plt로 주로 판다스와 함께 import하여 판다스로 처리한 데이터를 시각화 한다.df = df.ffill # 앞 데이터로 채움빈 값을 앞의 값으로 채울 때plt.plot(sr_name.index, sr_name.values) # x,y 값sr_name은 plot하고자 하는 series이고, 인덱스를 x값 데이터를 y 값으로 한다.꾸미기plt.plot(sr_name.index, sr_name.values, linestyle='--') # x,y 값plt.title('그래프 제목')plt.xlabel('x축 이름')plt.ylabel('y축 이름')기본 linesty..

# 시계열데이터는 시간정보.. 과거와 현재 미래의 정보를 가지고 있음 # 년 월 일 요일 공휴일 로 파생피처를 생성한다 # 대부분 날자데이터는 판다스에서 문자열로 취급하는경우가 대다수 # to_date() 변환 # .dt.yaer .dt.to_period() 등을 이용해서 분리 # 공휴일은 파이썬에 제공안함... 외부 라이브러리를 사용 (다양함) # 연속적인 시계열 데이서 생성은 pd.date_range()# 시계열 데이터 생성하기ts_ms = pd.date_range( start='2024-01-01', end = '2024-09-11', #periods=100, freq='M', # 월의시작일 MS M:월의 마지막 tz = 'Asia/Seoul')!pip inst..

# 데이터 전처리- 누락 데이터 처리- 데이터 표준화- 범주형 데이터 - 구간 분할 - one hot- 정규화- 시계열 데이터 - 날씨, 주식, 음악, 인공지능에서 중요, 성능이 잘 안 나오기로 유명함- 프레임 데이터- 누락 데이터 - 제거 - 적절한 값으로 처리- Dataset - 데이터 프레임으로 표현되는 자료들- df.info() - 논리적 결측치 ex. 주소가 들어가야하는 column에 다른 특수문자가 들어감, df.info()로 찾을 수 없는 경우 - age 같은 값에 결측치가 없어보여도 datatype이 int가 아닌 object이면 의심할 수 있음 - datatype을 잘 볼 것- value_counts() - isnull(), notnull() -> bool type으로 반환 ..
데이터 분석에 필요한 판다스를 공부하였다.먼저 기존에 설치한 anaconda 환경을 vscode에서 실행하기 위해 vscode를 다운로드 한다.https://code.visualstudio.com/download Download Visual Studio Code - Mac, Linux, WindowsVisual Studio Code is free and available on your favorite platform - Linux, macOS, and Windows. Download Visual Studio Code to experience a redefined code editor, optimized for building and debugging modern web and cloud applicati..