[특허]심층 강화 학습을 이용한 지속적인 제어

심층 강화 학습을 이용한 지속적인 제어 원문보기

IPC분류정보
국가/구분	한국(KR)/등록특허	크게보기
국제특허분류(IPC8판)	G06N-003/08 G06N-003/04
출원번호	10-2018-7005435 (2018-02-23)
공개번호	10-2018-0034553 (2018-04-04)
등록번호	10-2165126-0000 (2020-10-06)
우선권정보	미국(US) 62/196,854 (2015-07-24)
국제출원번호	PCT/US2016/043716 (2016-07-22)
국제공개번호	WO 2017/019555 (2017-02-02)
번역문제출일자	2018-02-23
DOI	http://doi.org/10.8080/1020187005435
발명자 / 주소	릴리크랩, 티모시 폴 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 헌트, 조나단 제임스 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 프리첼, 알렉산더 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 히스, 니콜라스 맨프레드 오토 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 에레즈, 톰 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 타사, 유발 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 실버, 데이빗 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 * 위어스트라, 다니엘 피에터 / 영국 엔씨 에이쥐 런던 킹스 크로스 판크라스 스퀘어 *
출원인 / 주소	딥마인드 테크놀로지스 리미티드 / 영국 런던 이씨에이 티더블유 뉴 스트리트 스퀘어 *
대리인 / 주소	양영준; 이민호; 백만기
심사청구여부	있음 (2018-02-23)
심사진행상태	등록결정(일반)
법적상태	등록

초록 ▼

환경과 상호작용하는 에이전트에 의해 수행될 액션들을 선택하기 위해 이용되는 액터 신경망을 훈련시키기 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는, 방법들, 시스템들, 및 장치.이 방법들 중 하나는 경험 튜플들의 미니배치를 획득하는 단계; 및 상기 액터 신경망의 파라미터들의 현재 값들을 업데이트하는 단계 - 이 단계는: 상기 미니배치 내의 각각의 경험 튜플에 대해: 상기 경험 튜플에 대한 신경망 출력을 결정하도록 비평 신경망을 이용하여 상기 경험 튜플 내의 상기 훈련 관찰 및 상기 훈련 액션을 처리하는 단계, 및 상기 경험 튜플에 대한 목표 신경망 출력을 결정하는 단계를 포함함 -; 상기 목표 신경망 출력들과 상기 신경망 출력들 사이의 오차들을 이용하여 상기 비평 신경망의 파라미터들의 현재 값들을 업데이트하는 단계; 및 상기 비평 신경망을 이용하여 상기 액터 신경망의 파라미터들의 현재 값들을 업데이트하는 단계를 포함한다.

대표청구항 ▼

환경의 현재 상태를 특징짓는 관찰들을 수신하고 액션들의 연속 공간으로부터 선택된 액션을 수행함으로써 상기 환경과 상호작용하는 에이전트에 의해 수행될 액션들을 선택하기 위해 이용되는 액터 신경망을 훈련시키는 방법으로서, 상기 액터 신경망은 상기 액터 신경망의 파라미터들의 현재 값들에 따라 다음 액션들로 관찰을 매핑하고, 상기 방법은 데이터 처리 장치에 의해 수행되고, 상기 방법은:리플레이 메모리로부터 경험 튜플들의 미니배치(minibatch)를 획득하는 단계 - 각각의 경험 튜플은 상기 환경의 훈련 상태를 특징짓는 훈련 관찰, 상기 훈련 관찰을 수신하는 것에 응답하여 상기 에이전트에 의해 수행되는 상기 액션들의 연속 공간으로부터의 훈련 액션, 상기 훈련 액션을 수행하기 위해 상기 에이전트에 의해 수신된 훈련 보상, 및 상기 환경의 다음 훈련 상태를 특징짓는 다음 훈련 관찰을 포함함 -; 및상기 경험 튜플들의 미니배치를 이용하여 상기 액터 신경망의 파라미터들의 현재 값들을 업데이트하는 단계 - 이 단계는:상기 미니배치 내의 각각의 경험 튜플에 대해:비평 신경망의 파라미터들의 현재 값들에 따라 상기 경험 튜플에 대한 신경망 출력을 결정하도록 상기 비평 신경망을 이용하여 상기 경험 튜플 내의 상기 훈련 관찰 및 상기 훈련 액션을 처리하는 단계, 및상기 경험 튜플 내의 상기 훈련 보상 및 상기 경험 튜플 내의 상기 다음 훈련 관찰로부터 상기 경험 튜플에 대한 목표 신경망 출력을 결정하는 단계를 포함함 -,상기 미니배치 내의 상기 경험 튜플들에 대한 상기 목표 신경망 출력들과 상기 신경망 출력들 사이의 오차들을 이용하여 상기 비평 신경망의 파라미터들의 현재 값들을 업데이트하는 단계; 및상기 비평 신경망을 이용하여 상기 액터 신경망의 파라미터들의 현재 값들을 업데이트하는 단계를 포함하는, 방법.

이 특허를 인용한 특허 (2)

[한국] 연속 행동 공간 제어를 위한 적응형 다중-배치 경험 리플레이 기법 | 성영철, 한승열
상세보기
[한국] 인공신경망 시뮬레이터와 강화학습 제어기를 사용한 실시간 가속기 제어 시스템 | 이근호, 이상윤, 이준현, 이준엽
상세보기

IPC	Description
A	생활필수품
A62	인명구조; 소방(사다리 E06C)
A62B	인명구조용의 기구, 장치 또는 방법(특히 의료용에 사용되는 밸브 A61M 39/00; 특히 물에서 쓰이는 인명구조 장치 또는 방법 B63C 9/00; 잠수장비 B63C 11/00; 특히 항공기에 쓰는 것, 예. 낙하산, 투출좌석 B64D; 특히 광산에서 쓰이는 구조장치 E21F 11/00)
A62B-1/08	.. 윈치 또는 풀리에 제동기구가 있는 것

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 국가코드, 자료구분, 상태, 출원번호, 출원일자, 공개번호, 공개일자, 등록번호, 등록일자, 발명명칭(한글), 발명명칭(영문), 출원인(한글), 출원인(영문), 출원인코드, 대표IPC 관리번호, 국가코드, 자료구분, 상태, 출원번호, 출원일자, 공개번호, 공개일자, 공고번호, 공고일자, 등록번호, 등록일자, 발명명칭(한글), 발명명칭(영문), 출원인(한글), 출원인(영문), 출원인코드, 대표출원인, 출원인국적, 출원인주소, 발명자, 발명자E, 발명자코드, 발명자주소, 발명자 우편번호, 발명자국적, 대표IPC, IPC코드, 요약, 미국특허분류, 대리인주소, 대리인코드, 대리인(한글), 대리인(영문), 국제공개일자, 국제공개번호, 국제출원일자, 국제출원번호, 우선권, 우선권주장일, 우선권국가, 우선권출원번호, 원출원일자, 원출원번호, 지정국, Citing Patents, Cited Patents
저장형식	Text(ASCII format) Excel format PIAS분석(.xls)
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

심층 강화 학습을 이용한 지속적인 제어 원문보기

초록 ▼

대표청구항 ▼

연구과제 타임라인

이 특허를 인용한 특허 (2)

관련 콘텐츠

특허 원문 보기

IPC 상위 출원인

이 특허와 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

심층 강화 학습을 이용한 지속적인 제어 원문보기

초록 ▼

대표청구항 ▼

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

이 특허를 인용한 특허 (2)

관련 콘텐츠

특허 원문 보기

IPC 상위 출원인

이 특허와 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트