머신러닝이란? 머신러닝의 이해
오늘은 기계학습 중 하나인 머신러닝은 무엇일까? 에 대해서 알아보겠습니다. 기계 학습에 대한 이 소개에서는 오늘날 기업 내에서 기계 학습의 역사, 중요한 정의, 응용 프로그램 및 우려 사항에 대한 개요를 안내해줍니다. 머신 러닝이란 무엇일까? 머신 러닝은 인공 지능(AI) 및 컴퓨터 과학의 한 분야로, 데이터와 알고리즘을 사용하여 인간이 학습하는 방식을 모방하고 점차적으로 정확도를 향상하는 데 중점을 둡니다. IBM은 기계 학습에 대한 풍부한 역사를 가지고 있습니다. 그중 하나인 Arthur Samuel 은 체커 게임에 대한 연구 (PDF, 481KB)(IBM 외부 링크)를 통해 "머신 러닝"이라는 용어를 만든 것으로 알려져 있습니다. 자칭 체커 마스터인 Robert Nealey는 1962년 IBM 7094 컴퓨터에서 게임을 하다가 컴퓨터에게 졌습니다. 오늘날 할 수 있는 것과 비교하면 이 위업은 거의 사소해 보이지만 인공 지능 분야에서 중요한 이정표로 간주됩니다. 향후 20년 동안 스토리지 및 처리 능력에 대한 기술 발전으로 넷플릭스의 추천 엔진이나 자율 주행 자동차와 같이 오늘날 우리가 알고 사랑하는 혁신적인 제품이 구현될 것입니다. 머신 러닝은 성장하는 데이터 과학 분야의 중요한 구성 요소입니다. 통계적 방법의 사용을 통해 알고리즘은 분류 또는 예측을 수행하도록 훈련되어 데이터 마이닝 프로젝트 내에서 핵심 통찰력을 드러냅니다. 이러한 통찰력은 이후 애플리케이션 및 비즈니스 내에서 의사 결정을 주도하여 주요 성장 지표에 이상적으로 영향을 미칩니다. 빅 데이터가 계속해서 확장되고 성장함에 따라 데이터 과학자에 대한 시장 수요가 증가할 것이며 가장 관련성이 높은 비즈니스 질문을 식별하고 이에 대한 답변을 제공할 데이터가 필요합니다. 딥 러닝과 머신 러닝은 같은 의미로 사용되는 경향이 있습니다. 그래서 둘 사이의 뉘앙스를 주목해 보겠습니다. 머신 러닝과 딥 러닝의 신경망은 모두 인공 지능의 하위 분야입니다. 그러나 딥 러닝은 실제로 기계 학습의 하위 분야이고 신경망은 딥 러닝의 하위 분야입니다. 딥 러닝과 머신 러닝이 다른 방식은 각 알고리즘이 학습하는 방식에 있습니다. 딥 러닝은 프로세스의 많은 기능 추출 부분을 자동화하여 필요한 수동 개입을 일부 제거하고 더 큰 데이터 세트를 사용할 수 있도록 합니다. 한마디로 딥 러닝을 확장 가능한 기계 학습으로 생각할 수 있습니다. 고전적이면서 심층적이지 않은 머신 러닝은 학습을 위한 인간 개입에 더 많이 의존합니다. 인간 전문가는 데이터 입력 간의 차이점을 이해하기 위해 기능 집합을 결정하며 일반적으로 학습하려면 더 구조화된 데이터가 필요합니다. 딥 머신 러닝은 지도 학습이라고도 하는 레이블이 지정된 데이터 세트를 활용하여 알고리즘에 정보를 제공할 수 있지만 레이블이 지정된 데이터 세트가 반드시 필요한 것은 아닙니다. 원시 형태로 구조화되지 않은 데이터를 수집할 수 있으며 서로 다른 범주의 데이터를 서로 구별하는 기능 집합을 자동으로 결정할 수 있습니다. 머신 러닝과 달리 데이터를 처리하기 위해 사람의 개입이 필요하지 않으므로 더 흥미로운 방식으로 머신 러닝을 확장할 수 있습니다. 딥 러닝 및 신경망은 주로 컴퓨터 비전, 자연어 처리 및 음성 인식과 같은 영역에서 발전을 가속화하는 것으로 알려져 있습니다. 신경망 또는 인공 신경망(ANN)은 입력 계층, 하나 이상의 은닉 계층 및 출력 계층을 포함하는 노드 계층으로 구성됩니다. 각 노드 또는 인공 뉴런은 다른 노드에 연결되며 연관된 가중치 및 임계값이 있습니다. 개별 노드의 출력이 지정된 임계값보다 높으면 해당 노드가 활성화되어 네트워크의 다음 계층으로 데이터를 보냅니다. 그렇지 않으면 네트워크의 다음 계층으로 데이터가 전달되지 않습니다. 딥 러닝의 "딥"은 신경망의 레이어 깊이를 나타냅니다. 입력과 출력을 포함하는 3개 이상의 레이어로 구성된 신경망은 심층 학습 알고리즘 또는 심층 신경망으로 간주될 수 있습니다. 2~3개의 레이어만 있는 신경망은 기본적인 신경망일 뿐입니다. 기계학습의 작동 원리는 일반적으로 기계학습 알고리즘은 예측이나 분류에 사용됩니다. 레이블이 지정되거나 레이블이 지정되지 않은 일부 입력 데이터를 기반으로 알고리즘은 데이터의 패턴에 대한 추정치를 생성합니다. 또한 오류 함수는 모델의 예측을 평가하는 역할을 합니다. 알려진 예가 있는 경우 오류 함수는 모델의 정확도를 평가하기 위해 비교를 수행할 수 있습니다. 그리고 모델이 훈련 세트의 데이터 포인트에 더 잘 맞을 수 있으면 가중치가 조정되어 알려진 예제와 모델 추정치 간의 불일치를 줄입니다. 알고리즘은 이 평가 및 최적화 프로세스를 반복하여 정확도 임계값에 도달할 때까지 가중치를 자율적으로 업데이트합니다. 머신 러닝에는 몇 가지 종류로 나뉘게 되는데, 지도 학습이라고도 하는 지도 학습은 레이블이 지정된 데이터 세트를 사용하여 데이터를 분류하거나 결과를 정확하게 예측하는 알고리즘을 훈련하는 것으로 정의됩니다. 입력 데이터가 모델에 입력되면 모델이 적절하게 피팅될 때까지 가중치를 조정합니다. 이것은 모델이 과적합 또는 과소 적합을 방지하도록 하기 위한 교차 검증 프로세스의 일부로 발생합니다. 지도 학습은 조직이 받은 편지함과 별도의 폴더에 스팸을 분류하는 것과 같은 다양한 실제 문제를 대규모로 해결하는 데 도움이 됩니다. 지도 학습에 사용되는 몇 가지 방법에는 신경망, 나이브 베이, 선형 회귀, 로지스틱 회귀, 랜덤 포레스트, 지원 벡터 머신(SVM) 등이 있습니다. 비지도 학습 이라고도 하는 비지도 학습은 기계 학습 알고리즘을 사용하여 레이블이 지정되지 않은 데이터 세트를 분석하고 클러스터링 합니다. 이러한 알고리즘은 사람의 개입 없이 숨겨진 패턴 또는 데이터 그룹화를 발견합니다. 정보의 유사점과 차이점을 발견하는 능력은 탐색적 데이터 분석, 교차 판매 전략, 고객 세분화, 이미지 및 패턴 인식을 위한 이상적인 설루션입니다. 또한 차원 축소 프로세스를 통해 모델의 기능 수를 줄이는 데 사용됩니다. 주성분 분석(PCA)과 특이값 분해(SVD)는 이를 위한 두 가지 일반적인 접근 방식입니다. 비지도 학습에 사용되는 다른 알고리즘에는 신경망, k-평균 클러스터링, 확률적 클러스터링 방법 등이 있습니다. 준지도 학습은 지도 학습과 비지도 학습 사이의 행복한 매개체를 제공합니다. 훈련하는 동안 더 작은 레이블이 지정된 데이터 세트를 사용하여 레이블이 지정되지 않은 더 큰 데이터 세트에서 분류 및 기능 추출을 안내합니다. 반 지도 학습은 지도 학습 알고리즘을 훈련하기 위해 레이블이 지정된 데이터가 충분하지 않은 문제를 해결할 수 있습니다. 마지막으로 머신 러닝의 종류를 살펴보자면, 음성 인식: ASR(자동 음성 인식), 컴퓨터 음성 인식 또는 음성을 텍스트로 변환이라고도 하며 자연어 처리(NLP)를 사용하여 사람의 음성을 서면 형식으로 처리하는 기능입니다. 많은 모바일 장치는 음성 검색(예: Siri)을 수행하거나 문자 메시지 주변에 더 많은 접근성을 제공하기 위해 음성 인식을 시스템에 통합합니다. 고객 서비스: 온라인 챗봇은 고객 여정에서 상담원을 대체하고 있습니다. 배송과 같은 주제에 대해 자주 묻는 질문(FAQ)에 답변하거나 개인화된 조언, 제품 교차 판매 또는 사용자를 위한 사이즈 제안을 제공하여 웹사이트 및 소셜 미디어 플랫폼 전반에서 고객 참여에 대한 생각을 변화시킵니다. 예로는 가상 에이전트가 있는 전자 상거래 사이트의 메시징 봇 , Slack 및 Facebook Messenger와 같은 메시징 앱, 일반적으로 가상 비서 및 음성 비서가 수행하는 작업이 있습니다. 컴퓨터 비전: 이 AI 기술을 통해 컴퓨터와 시스템은 디지털 이미지, 비디오 및 기타 시각적 입력에서 의미 있는 정보를 도출하고 이러한 입력을 기반으로 조치를 취할 수 있습니다. 권장 사항을 제공하는 이 기능은 이미지 인식 작업과 구별됩니다. 합성곱 신경망으로 구동되는 컴퓨터 비전은 소셜 미디어의 사진 태깅, 의료의 방사선 영상, 자동차 산업의 자율 주행 자동차에 응용할 수 있습니다. 추천 엔진: 과거 소비 행동 데이터를 사용하여 AI 알고리즘은 보다 효과적인 교차 판매 전략을 개발하는 데 사용할 수 있는 데이터 추세를 발견하는 데 도움이 될 수 있습니다. 이는 온라인 소매업체의 체크아웃 프로세스 중에 고객에게 관련 추가 기능을 권장하는 데 사용됩니다. 자동화된 주식 거래: 주식 포트폴리오를 최적화하도록 설계된 AI 기반 고주파 거래 플랫폼은 사람의 개입 없이 하루에 수천 또는 수백만 건의 거래를 합니다. 머신러닝은 이와 같은 역할을 할 수 있습니다.