convolutional neural networks(CNN)란 무엇입니까?

0 Comments
이미지 제공:

이 문서의 일부입니다 Demystifying AI,의 시리즈는 게시물(시도하)구분 용어와 신화 주변 AI.

1950 년대 이후의 초기 인공지능,컴퓨터 과학자들이 있을 구축하기 위해 노력하고 컴퓨터를 만들 수 있는 시각적 데이터입니다., 계속되는 수십 년 동안 컴퓨터 비전으로 알려지게 된이 분야는 점진적인 발전을 보았습니다. 2012 년에,컴퓨터 비전을 시작 양자 도약을 때 그룹 연구원들의 토론토 대학에서 개발하 AI 모델 능가하는 최상의 이미지 인식 알고리즘에 의해에 대한 우려가 커지고 있다.

AlexNet(주요 제작자 인 Alex Krizhevsky 의 이름을 따서 명명 됨)으로 알려진 AI 시스템은 2012 년 ImageNet computer vision 경연 대회에서 놀라운 85%의 정확도로 우승했습니다. 준우승은 테스트에서 겸손한 74%를 기록했다.,

AlexNet 의 중심에는 convolutional neural network(CNN)가 있었는데,인간의 시각 시스템을 대략 모방 한 특수화 된 유형의 인공 신경망이었습니다. 최근 몇 년 동안,CNNs 가에 중요한 많은 컴퓨터 비전 응용 프로그램. 다음은 CNNs 의 역사와 동작에 대해 알아야 할 사항입니다.

의 간략한 역사선 신경 네트워크

나선형 신경망이라고도 ConvNets 서 처음으로 도입되었습니 1980 년대에 의해 얀 마칠,박사 후 컴퓨터 과학 연구원이다., 마칠을 구축했에 의해 수행되는 작업 구 후쿠시마,일본 과학자,몇 년 이전에 발명했 neocognitron,아주 기본적인 이미지 인식을 신경 네트워크입니다.

Lenet(LeCun 이후)이라고 불리는 CNNs 의 초기 버전은 손으로 쓴 숫자를 인식 할 수있었습니다. CNNs 는 은행 및 우편 서비스 및 은행 업무에서 틈새 시장을 발견했으며 봉투에 우편 번호와 수표에 숫자를 읽습니다.

그러나에도 불구하고 자신의 독창성,ConvNets 남아에서 사이드 라인의 컴퓨터 비전과 인공 지능하기 때문에 그들이 직면한 심각한 문제:그들이 할 수 있지 않은 규모입니다., CNNs 는 대용량 이미지에 대해 효율적으로 작업하기 위해 많은 데이터와 컴퓨팅 리소스가 필요했습니다. 당시이 기술은 해상도가 낮은 이미지에만 적용 할 수있었습니다.

2012 년 AlexNet 은 아마도 다층 신경망을 사용하는 AI 의 지점 인 deep learning 을 다시 방문 할 때가 왔음을 보여주었습니다. 의 가용성에 대량의 데이터를 즉 ImageNet 데이터 집합으로 수백만 명의 표시 사진,광 컴퓨팅 리소스 연구원을 만드는 복잡한 CNNs 를 수행할 수 있는 컴퓨터 비전 작업 이전에 불가능합니다.

CNNs 는 어떻게 작동합니까?,

Convolutional 신경 네트워크는 여러 층의 인공 뉴런으로 구성됩니다. 인공 신경,거의 모방 생물학적 대응은 수학적 기능에는 계산의 가중치 합의 여러 입력 및 출력을 활성화 값입니다.

의 구조를 인공 신경,기본적인 구성요소의 인공 신경망(출처:)

동작의 각 신경에 의해 정의된 그것의 무게., 픽셀 값을 공급하면 CNN 의 인공 뉴런은 다양한 시각적 기능을 선택합니다.

ConvNet 에 이미지를 입력하면 각 레이어가 여러 개의 활성화 맵을 생성합니다. 활성화 맵은 이미지의 관련 기능을 강조 표시합니다. 각 뉴런 걸립 패치의 픽셀이 입력으로 곱하고 자신의 색상 값에 의해 그것의 무게,합계하고 실행을 통해 활성화 기능입니다.

첫 번째(또는 바닥)층의 일반적으로 현지를 감지하는 기본 기능 등의 수평,수직,및 대각선 가장자리입니다., 첫 번째 레이어의 출력은 다음 레이어의 입력으로 공급되어 모서리 및 모서리 조합과 같은 더 복잡한 피쳐를 추출합니다. 컨볼 루션 신경망으로 깊숙이 이동함에 따라 레이어는 객체,면 등과 같은 상위 레벨 기능을 감지하기 시작합니다.

각 계층의 신경 네트워크 추출물 특정 기능에서 입력된 이미지입니다.,

작업의 픽셀값을 곱하여 무게와 합산하는 그들은”회선”(따라서 이름을 나선형 신경 네트워크)에 있습니다. CNN 은 일반적으로 여러 컨볼 루션 레이어로 구성되지만 다른 구성 요소도 포함합니다. 최종 계층의 현지 분류층이 소요되는 출력의 최종 회선 레이어 입력으로(기억,높은 콘볼루션 층에 복잡한 물체 감지).,

기반으로 활성화 지도의 최종 회선층 분류 층 출력 설정의 신뢰도 점수(사이의 값은 0 과 1)지정하는 방법을 가능성 이미지가에 속하는”클래스입니다.”예를 들어,만약 당신이 ConvNet 감지하는 고양이,고양이,그 말은,최종 계층을 가능성이 입력되는 이미지 그 어떤 동물입니다.,

상위 계층의 현지 결정한 클래스에 따라 이미지의 특징을 추출하여 나선형 층(출처:http://www.deeplearningbook.org)

교육곱 신경망

중 하나 큰 문제는 개발의 CNNs 은 가중치를 조정하의 개인 신경 세포를 추출물 권리 특징에서 이미지입니다. 이러한 가중치를 조정하는 과정을 신경 네트워크를”훈련”이라고합니다.

처음에 CNN 은 임의의 가중치로 시작합니다., 훈련하는 동안,개발자가 제공하는 신경 네트워크와 크기가 큰 데이터 집합의 이미지와 주석들이 해당 클래스(cat,dog,말,등등.). ConvNet 은 각 이미지를 임의의 값으로 처리 한 다음 출력을 이미지의 올바른 레이블과 비교합니다. 네트워크의 출력 레이블과 일치하지 않는 가능성이 높은 경우 시작 부분에서의 훈련 과정—그것은 작은 조정을 가중치의 뉴런 그래서 그 다음에 그것을보고 같은 이미지,그 출력이 조금 더 가까이 올바른 대답이다.,

backpropagation(또는 backprop)이라는 기술을 통해 수정이 이루어집니다. 기본적으로 역전파 하 여을 최적화 튜닝 과정은 쉽게 네트워크에 대한 결정하는 단위로 조정하는 대신 임의의 수정 작업을 수행합니다.

전체 교육 데이터 세트의 모든 실행을”신기원”이라고합니다.”ConvNet 은 훈련 중에 여러 신기원을 거치며 적은 양으로 무게를 조정합니다. 각 신기원 후에 신경망은 훈련 이미지를 분류하는 데 조금 더 좋아집니다., CNN 이 향상됨에 따라 가중치에 대한 조정이 점점 작아집니다. 어떤 시점에서,네트워크는”수렴”이며,그것은 본질적으로 할 수 있습니다.

CNN 을 교육 한 후 개발자는 테스트 데이터 세트를 사용하여 정확성을 확인합니다. 테스트 데이터 집합은 교육 프로세스의 일부가 아닌 레이블이 지정된 이미지 집합입니다. 각 이미지는 ConvNet 을 통해 실행되며 출력은 이미지의 실제 레이블과 비교됩니다. 본질적으로 테스트 데이터 세트는 이전에 보지 못했던 이미지를 분류 할 때 신경망이 얼마나 좋아 졌는지 평가합니다.,

CNN 이 훈련 데이터에 대해 좋은 점수를 받았지만 시험 데이터에 대해 나쁜 점수를 얻은 경우,”overfitted.”이것은 일반적으로 발생하면 거기에 충분하지 않아 다양한 훈련에 데이터을 때 또는 ConvNet 를 통해 간다 너무 많은 시대에서 훈련합니다.

convolutional neural network 의 성공은 지난 10 년 동안 개발 된 거대한 이미지 데이터 세트의 가용성에 크게 기인합니다. ImageNet,대회의 시작 부분에서 언급은 이 문서의 제목에서 이름을 딴 데이터 집합 14 개 이상의 백만 표시된 이미지입니다., 필기 숫자의 70,000 이미지 데이터베이스 인 MNIST 와 같은 다른보다 전문화 된 데이터 세트가 있습니다.그러나 수백만 개의 이미지에서 모든 컨볼 루션 신경망을 훈련 할 필요는 없습니다. 많은 경우 AlexNet 또는 Microsoft 의 ResNet 과 같은 사전 훈련 된 모델을 사용하고 다른보다 전문화 된 응용 프로그램을 위해 finetune 할 수 있습니다. 이 과정을 훈련 된 신경 네트워크가 새로운 예제의 더 작은 세트를 재교육하는 전송 학습이라고합니다.,

제의 나선형 신경 네트워크

에도 불구하고 자신의 능력과 복잡한 나선형의 신경 네트워크는,본질적으로,패턴 인식 기계입니다. 그들이 활용할 수 있는 거대한 컴퓨팅 리소스를 색출 작은 눈에 띄지 않는 시각할 수 있습니다 주목하는 인간의 눈입니다. 그러나 이미지의 내용의 의미를 이해에 올 때,그들은 제대로 수행합니다.

다음 이미지를 고려하십시오. 잘 훈련 된 ConvNet 은 군인,어린이 및 미국 국기의 이미지임을 알려줄 것입니다., 하지만 사람을 줄 수 있는 긴 설명의 장면,그리고 이야기에 대한 군사 서비스,여행 안내소,외국에서 느낌의 갈망에 대한 가정의 기쁨을 논하고 가족과 함께,etc. 인공 신경망에는 이러한 개념에 대한 개념이 없습니다.

이미지 제공:

이러한 제한을 더욱 분명하게 실제적인 응용 프로그램의 나선형 신경망이 있습니다. 예를 들어 Cnn 은 이제 소셜 미디어 네트워크의 콘텐츠를 중간화하는 데 널리 사용됩니다., 그러나에도 불구하고 광대한 저장소의 이미지 및 동영상들을 훈련에,그들은 여전히 투쟁을 감지하고 차단 부적절한 콘텐츠입니다. 한 경우,Facebook 의 콘텐츠 중재 AI 는 3 만년 된 동상 사진을 누드로 금지했습니다.또한 신경망이 문맥에서 조금 벗어나 자마자 깨지기 시작합니다. 몇몇 연구에서는 CNNs 훈련에 ImageNet 과 다른 인기있는 데이터가 실패하는 물체 감지를 볼 때 그들은 그들이 아래에서 다양한 조명 조건과 새로운 각도에서.,

MIT-IBM Watson AI 연구소의 연구원에 의한 최근 연구는 이러한 단점을 강조합니다. 또한 객체가 실제 생활에서 어떻게 보이는지에 대한 다양한 뉘앙스를 더 잘 나타내는 데이터 세트 인 ObjectNet 을 소개합니다. CNNs 개발 하지 않는 정신 모델는 인간에 대해 다른 물체와 그들의 능력은 상상 그 개체에 이전에 보이지 않는 상황.

ImageNet vs 현실에서 ImageNet(왼쪽 열)객체를 깔끔하게 위치한 이상적인 배경과 조명 조건이 있습니다., 현실 세계에서 사물은 메시에(출처:objectnet.dev)

또 다른 문제로 나선형 신경망이 그들의 무능력을 이해하는 사이의 관계를 다른 개체입니다. 발명가 인 러시아 컴퓨터 과학자 인 Mikhail Moiseevich Bongard 의 이름을 딴”Bongard 문제”로 알려진 다음 이미지를 생각해보십시오. Bongard 문제는 두 세트의 이미지(왼쪽에 6 개,오른쪽에 6 개)를 제시하며 두 세트의 주요 차이점을 설명해야합니다., 예를 들어,아래 예에서,이미지의 왼쪽 설정이 포함 하나의 객체에 이미지 오른쪽 설정이 포함될 수 있습니다.인간이 그러한 소량의 샘플에서 그러한 결론을 도출하는 것은 쉽습니다. 이 두 세트를 보여준 다음 새 이미지를 제공하면 왼쪽 또는 오른쪽 세트로 들어가야하는지 여부를 신속하게 결정할 수 있습니다.

봉 가드의 문제는 쉬운 인간에 대한 해결하기 위해,하지만 하드를 위해 컴퓨터 시각 시스템입니다., (출처:해리 Foundalis)

지만 아직도 나선형 신경 네트워크를 해결할 수 있는 문제에 봉 가드와 함께 이렇게 몇몇 교육 예입니다. 2016 년에 실시 된 한 연구에서 AI 연구원은 20,000 개의 Bongard 샘플에 대해 CNN 을 교육하고 10,000 개 이상의 샘플을 테스트했습니다. CNN 의 성능은 평균적인 인간보다 훨씬 낮았습니다.

의 특성 ConvNets 또한 취약하고 적대적 공격에서 물결하는 입력 데이터를 주목하는 인간의 눈이 있지만 동작에 영향을 주의 신경망이 있습니다., 적대적 공격의 주요 원인이되고있의 관심 깊은 학습하고 특히 CNNs 가 되는 핵심 구성 요소의 많은 중요한 응용 프로그램과 같이 자동차 운전을 할 수 있습니다.

Adversarial 예:를 추가하는 눈에 보이지 않는 레이어의 소음을 이 그림의 원인 나선형 신경망을위한 기본.

이것은 CNNs 가 쓸모 없다는 것을 의미합니까?, 그러나 컨볼 루션 신경망의 한계에도 불구하고 인공 지능에 혁명을 일으켰다는 것을 부인할 수는 없습니다. 오늘날,CNNs 에서 사용되는 많은 컴퓨터 비전 응용 프로그램과 같은 얼굴인식,이미지 검색이 편집,증강 현실,그리고 더 많은. 의료 이미지 처리와 같은 일부 영역에서는 잘 훈련 된 ConvNets 가 관련 패턴을 탐지하는 데있어 인간 전문가를 능가 할 수도 있습니다.,

으로 발전에 나선형 신경망 보여,우리의 성과는 놀랍고 유용하지만,여전히 우리는 아주 멀리에서 복제의 주요 구성 요소는 인간의 정보입니다.피>


답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다