[Capstone Study] 머신러닝 완벽 가이드 10

[머신러닝] 섹션 1.5 사이킷런 (1)

1.5.1 사이킷런 소개와 특징 사이킷런(Scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다. 사이킷런은 머신러닝을 위한 쉽고 효율적인 개발 라이브러리를 제공하는데, 사이킷런의 특징을 정리하면 다음과 같다. [ 사이킷런의 특징 ] 1) 가장 파이썬스러운 API를 제공하며, 쉽고 편리함 2) 머신러닝을 위한 다양하고 편리한 프레임워크와 API 제공 3) 오랜 기간 실제 환경에서 사용되며 검증된 라이브러리 사이킷런은 아나콘다 설치 시 자동으로 설치되므로, 별도의 설치 과정이 필요하지 않다. 실습의 경우 사이킷런 1.0.2 버전을 사용하였다. 1.5.2 첫 번째 머신러닝 만들어보기 - 붓꽃 품종 예측하기 붓꽃 데이터 세트를 이용하여 붓꽃의 품종을 분류하는 머신러닝 모델을..

[머신러닝] 섹션 1.4 데이터 핸들링 - 판다스 (4)

https://wlalsu.tistory.com/122 [머신러닝] 섹션 1.4 데이터 핸들링 - 판다스(3) https://wlalsu.tistory.com/121 [머신러닝] 섹션 1.4 데이터 핸들링 - 판다스(2) https://wlalsu.tistory.com/120 [머신러닝] 섹션 1.4 데이터 핸들링 - 판다스(1) 1.4.1 판다스(Pandas) 란? 판다스는 기존의 불편한 분석용 wlalsu.tistory.com 1.4.8 정렬, Aggregation 함수, GroupBy 적용 DataFrame, Series의 정렬 - sort_values() - 매우 편리한 데이터 필터링 방식 - RDBMS SQL의 order by 와 유사 [ 추가 ] sort_values() 의 주요 파라미터 기능..

[머신러닝] 섹션 1.4 데이터 핸들링 - 판다스 (3)

https://wlalsu.tistory.com/121 [머신러닝] 섹션 1.4 데이터 핸들링 - 판다스(2) https://wlalsu.tistory.com/120 [머신러닝] 섹션 1.4 데이터 핸들링 - 판다스(1) 1.4.1 판다스(Pandas) 란? 판다스는 기존의 불편한 분석용 데이터 툴을 개선하기 위해, 분석 전문가인 '웨스 매키니'가 개발하였 wlalsu.tistory.com 1.4.6 Index 객체 판다스의 Index 객체는 DataFrame 과 Series의 레코드를 고유하게 식별하는 역할을 수행한다. (RDBMS의 PK 값과 유사) index - (DataFrame/Series).index를 이용하여 Index 추출 - 반환된 Index 객체의 실제 값은 넘파이 1차원 ndarray..

[머신러닝] 섹션 1.4 데이터 핸들링 - 판다스 (2)

https://wlalsu.tistory.com/120 [머신러닝] 섹션 1.4 데이터 핸들링 - 판다스(1) 1.4.1 판다스(Pandas) 란? 판다스는 기존의 불편한 분석용 데이터 툴을 개선하기 위해, 분석 전문가인 '웨스 매키니'가 개발하였다. 대부분의 데이터 세트는 행(row)과 열(column)으로 구성된 2차원 데이 wlalsu.tistory.com 1.4.3 DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환 리스트, 딕셔너리, 넘파이 ndarray 등으로 DataFrame 을 생성할 수 있지만, 반대로 Dataframe 을 이러한 형식으로도 변환가능하다. 이때 많은 머신러닝 패키지가 기본 데이터형으로 넘파이 ndarray를 사용하므로, DataFrame을 ndarray..

[머신러닝] 섹션 1.4 데이터 핸들링 - 판다스 (1)

1.4.1 판다스(Pandas) 란? 판다스는 기존의 불편한 분석용 데이터 툴을 개선하기 위해, 분석 전문가인 '웨스 매키니'가 개발하였다. 대부분의 데이터 세트는 행(row)과 열(column)으로 구성된 2차원 데이터인데, (RDBMS의 TABLE이나 엑셀과 같은 형태) 2차원 데이터는 이해하기 쉽고, 효과적으로 데이터를 담을 수 있어서 많이 사용된다. 판다스는 이러한 2차원 데이터를 가공하고 처리할 수 있는 훌륭한 기능을 제공한다. 즉, 판다스를 한마디로 정리하면 다음과 같다. 1) 파이썬에서 데이터 처리를 위한 가장 인기 있는 라이브러리 2) 2차원 데이터를 효율적으로 가공/처리 할 수 있는 다양한 기능 제공 판다스의 핵심 객체는 여러개의 행과 열로 이루어진 2차원 데이터인 DataFrame 인데..

[머신러닝] 섹션 1.3 넘파이 (2)

https://wlalsu.tistory.com/110?category=670879 [머신러닝] 섹션 1.3 넘파이 (1) 1.3.1 넘파이(NumPy) 란? 1) Numercial Python 를 의미 2) 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지 - 많은 머신러닝 알고리즘이 넘파이를 기반으로 작성되어 있음 - 대 wlalsu.tistory.com 1.3.6 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing) 넘파이의 ndarray 에 있는 일부 데이터 세트나 특정 데이터를 선택하는 방식은 다음과 같다. 1. 단일 값 추출 - 한 개의 데이터만을 추출하는 방법 - 원하는 위치의 인덱스 값을 지정 시, 해당 위치 데이터 반환 - 추출하고자 하는 위치..

[머신러닝] 섹션 1.3 넘파이 (1)

1.3.1 넘파이(NumPy) 란? 1) Numercial Python 를 의미 2) 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지 - 많은 머신러닝 알고리즘이 넘파이를 기반으로 작성되어 있음 - 대량 데이터의 배열 연산을 루프를 사용하지 않고 수행하므로, 빠른 연산 속도를 보장 - C / C++ 과 같은 low level 언어 기반 호환 API 제공 - Python 의 수행 시간이 길기 때문에, 중요한 부분은 C / C++ 로 작성 후 넘파이에서 호출 (ex. 텐서플로) - 데이터가 행과 열의 2차원 형태로 이루어져 다양한 가공, 변환 필요 - 따라서 판다스에 비해 편의성이 부족함 1.3.2 넘파이 ndarray 개요 먼저 넘파이 모듈을 import 하기 위해, 주피터 노트북..

[머신러닝] 섹션 1.2 파이썬 머신러닝 생태계를 구성하는 주요 패키지

1.2.1 Python 기반의 머신러닝을 익히기 위해 필요한 일반적인 패키지 1. 머신러닝 패키지 1) 사이킷런 (Scikit-Learn) : 가장 대표적인 머신러닝 패키지로, 데이터 마이닝 기반 머신러닝에서 독보적인 위치 : API 구성이 직관적이고 간결하여 이를 이용한 개발이 쉬움 2) 텐서플로 / 케라스 : 영상, 음성 등의 비정형 데이터 분야에서 사용 2. 행렬 / 선형대수 / 통계 패키지 1) 넘파이 (NumPy) : 대표적인 행렬과 선형대수를 다루는 패키지로, 사이킷런 역시 넘파이 기반으로 만들어져 있음 2) 사이파이 (SciPy) : 자연과학과 통계를 다루는 패키지로, 사이킷런 역시 사이파이의 도움을 받아 구축되어 있음 3. 데이터 핸들링 1) 판다스 : 대표적인 2차원 데이터 처리 패키지로..

[머신러닝] 섹션 1.1 머신러닝의 개념

1.1.1 머신러닝 (Machine Learning) 이란? 1) 인공지능의 하위 집합 2) 일반적으로 애플리케이션을 수정하지 않아도, 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법 예를 들어, 금융 사기를 적발하는 프로그램을 개발한다고 가정해보자. 금융 사기를 예방하기 위해 아무리 수천 라인의 소스 코드를 작성하고 다양한 로직을 구현하여도, 금융 사기자들은 이 로직을 뚫어 낼 것이다. 그리고 이 과정에서 우리는 많은 시간과 비용을 소모하게 된다. 하지만, 머신러닝을 사용하면 여러 문맥과 상황을 바탕으로 패턴을 찾아내고, 신뢰도 있는 결과를 도출해낼 수 있을 것이다. 따라서 현대의 데이터 분석 영역은 머신러닝 알고리즘 분석으로 확대되고 있고, 이러한 머신러닝의 도입은 소프트웨어 코드만으..

[머신러닝] 섹션 0. 머신러닝을 공부하게 된 이유 / 스터디 계획 소개

머신러닝을 공부하게 된 이유 사실 지금까지 Web과 Server 위주의 공부를 진행하면서, 한번도 AI 공부를 시작하게 될 것이라고는 상상도 못했다. 수학에 큰 흥미와 재능이 없었기 때문에, 학부 1학년 때 전공 수학 학점만 간신히 채워나가면서, 인공지능은 앞으로 영원히 공부할 일이 없겠구나 하고 큰 관심을 두지 않았던 것 같다. 이번 졸업 프로젝트에서 '개인 소비 습관 기반 카드 추천 및 금융 컨설팅 AI 서비스'를 진행하게 되었는데, 지도 교수님과의 면담에서 방학 동안 많은 데이터를 쌓고 카드 추천 모델을 완성하는 것을 목표로 한다면, 이번 학기 내에 추천 시스템 머신러닝에 대한 기본적인 공부는 마쳐야 할 것이라는 조언을 들었다. 아직 리서치를 많이 해보지는 못했지만, 우리가 가져와서 사용할 만한 소..