VR/AR: 진정한 몰입형 경험 달성 – EE Instances

VR/AR: 진정한 몰입형 경험 달성 - EE Times

//php 에코 do_shortcode(‘[responsivevoice_button voice=”US English Male” buttontext=”Listen to Post”]’) ?>

수십 년 동안 진정한 몰입형 가상 현실(VR)과 증강 현실(AR)의 가능성은 감질날 정도로 가까웠지만 모든 신기술이 도입될 때마다 도달할 수 없는 것처럼 보입니다. 좋은 소식은 우리가 점점 더 가까워지고 있다는 것입니다. 그러나 AR과 VR이 진정으로 몰입적이 되려면 우리의 모든 감각이 경험이 실제라고 믿어야 합니다.

믿을 수 있는 VR 및 AR 경험을 만드는 것은 엔지니어가 인간의 생리학과 신경과학에 대한 이해를 시작으로 현실에 대한 인식을 구성하는 요소를 얼마나 정확하고 일관되게 재현할 수 있는지에 달려 있습니다. 현실 세계에서 3D 구조를 인식하는 데 필수적인 다감각 신호를 이해한 다음 헤드셋 내 기술을 사용하여 이를 모방해야 합니다.

기술기반 현실성취

VR 장치는 사용자의 시야를 차단하여 감각 자극이 가상 객체와의 상호 작용 및 존재 감각을 제공하는 시뮬레이션 환경을 제공합니다. AR 장치는 물리적 요소와 증강 요소 간의 일관성을 제공하는 감각 신호를 통해 물리적 환경에 가상 개체를 오버레이합니다. 혼합 현실 장치라고도 하는 3D AR 시스템은 가상 환경 내에서 실제 요소를 혼합합니다.

각 구성에는 고유한 요구 사항이 있지만 이러한 시스템을 발전시키는 일반적인 개발에는 실시간 3D 감지 및 추적, 강력하고 에너지 효율적인 계산 처리, 고충실도 그래픽 렌더링 및 디스플레이, 몰입형 오디오, 머신 러닝 및 AI 알고리즘, 직관적인 인간이 포함됩니다. 인터페이스 및 새로운 응용 프로그램.

몰입형 시각적 경험

혁신적인 그래픽 및 디스플레이 기술을 통해 우리는 더 높은 충실도의 디지털 개체를 렌더링하고 그 어느 때보다 더 큰 선명도와 조명으로 더 작은 영역에 더 많은 픽셀을 담을 수 있지만 할 일이 더 많습니다. 실제와 같은 이미지를 렌더링하는 것뿐만 아니라 필요한 시각적 단서가 있는 눈 근처의 소형 디스플레이에서 충분히 넓은 FOV(시야)로 렌더링하는 것입니다.

오늘날의 고해상도 스마트폰 디스플레이는 인치당 500개 이상의 픽셀(PPI)을 렌더링합니다. 그러나 몰입형 헤드셋 비주얼의 경우 PPI를 측정하는 것만으로는 충분하지 않습니다. 디스플레이에 의해 커버되는 시야의 PPD(Pixel per Diploma)는 보다 관련성이 높은 메트릭입니다.

중앙 시야 지점에서 일반적인 인간의 눈은 약 1/60도의 각도 분해능을 가집니다. 각 눈은 약 160의 수평 FOV와 약 175의 수직 FOV를 가지고 있습니다. 두 눈은 약 120 너비와 약 135 높은 FOV 이상의 입체적 깊이 인식을 위해 함께 작동합니다. 이 모든 것은 60 PPD의 시력을 제공하기 위해 각 눈에 약 100MP(메가픽셀), 스테레오 비전에 약 60MP를 제공해야 함을 의미합니다. 이것을 현재 약 3.5MP의 최신 주류 VR 헤드셋 디스플레이와 비교해 보십시오.

제조 기술이 아직 이 픽셀 밀도를 지원하지 않기 때문에 디자이너는 인간 시각 시스템이 작동하는 방식에 대한 이해를 바탕으로 시각적 장면의 중요한 부분을 고해상도로 렌더링하는 데 절충해야 합니다.

아이트래킹 및 포비티드 렌더링

인간의 높은 시력은 중심와를 중심으로 하는 눈의 광축 주위 약 1개의 매우 작은 시야로 제한됩니다. 이것은 시야가 중앙에서 가장 선명하고 가장자리 주변에서 더 흐릿함을 의미합니다. 실시간 센서를 사용하여 사용자 시선을 추적하면 중앙 시선 영역에서 더 많은 수의 다각형을 렌더링하여 컴퓨팅 성능을 집중하고 다른 곳에서는 그래픽 충실도(다각형 밀도)를 기하급수적으로 떨어뜨릴 수 있습니다. 이 포비티드 렌더링은 그래픽 워크로드 및 관련 전력 소비를 크게 줄일 수 있습니다.

인간의 눈은 중심와에 고밀도의 원추형 광수용체를 가지고 있어 중심시력이 높습니다. 주변부에서 광수용체 밀도가 크게 떨어져 시력이 저하됩니다. (출처: E. Bruce Goldstein, Sensation and Notion)

전 세계의 연구원들이 이를 연구하고 있으며 장치 설계자들은 고해상도 디스플레이가 중심와 시야를 덮고 상대적으로 픽셀 수가 적은 디스플레이가 주변 시야를 커버하는 다중 디스플레이 구성을 탐색하고 있습니다. 미래의 디스플레이 아키텍처는 시선 방향 안팎에서 고해상도 시각적 콘텐츠의 동적 실시간 프로젝션을 가능하게 할 것입니다.

수용과 수렴 불일치

또 다른 주요 관심사는 안구 조절 및 수렴 불일치를 교정하기 위해 안구 운동 큐 일관성을 보장하는 것입니다. 인간은 두 개의 눈이 물체에 집중되어 세상을 입체적으로 봅니다. 조절을 통해 각 눈의 수정체가 모양을 변경하여 서로 다른 깊이에서 발생하는 빛을 집중시킵니다. 두 눈이 모이는 거리는 각 눈이 수용하는 거리와 같습니다.

오늘날의 상업용 VR 및 AR 헤드셋에서는 수렴 거리와 수용 거리 사이에 불일치가 있습니다. 실제 조명은 다양한 거리에서 다양한 소스의 반사 및 굴절을 통해 수정됩니다. 헤드셋에서 모든 빛은 한 거리에서 하나의 소스를 통해 생성됩니다. 가상 물체를 보기 위해 눈이 수렴할 때 렌즈 모양은 디스플레이에서 발산되는 고정 거리 빛의 초점을 맞추기 위해 지속적으로 조정되어야 하므로 거리 간 불일치 정도가 다양해져서 종종 눈의 피로 또는 방향 감각 상실을 초래합니다.

3D 디스플레이에 대한 수렴-조절 불일치.
3D 디스플레이에 대한 수렴-조절 불일치(출처: Martin Banks)

전압이 조정됨에 따라 초점 거리를 변경할 수 있는 동적으로 움직일 수 있는 광학 및 초점 조정 가능 액정 렌즈와 같은 다양한 접근 방식이 탐색되고 있습니다.

3D 공간 오디오

진정한 몰입을 위해서는 AR/VR 오디오 경험이 시각적 경험과 일치하고 조정되어 소리의 위치가 사용자가 보는 것과 완벽하게 일치해야 합니다. 현실 세계에서 대부분의 사람들은 눈을 감고 소리의 대략적인 위치를 이해할 수 있습니다. 이것은 도착 시간과 소리의 강도를 인지하고 번역하는 뇌를 기반으로 합니다. 이는 현실 세계에서는 즉시 자동으로 발생하지만 VR 헤드셋에서는 3D 공간 오디오를 프로그래밍하고 처리해야 합니다.

문제는 머리와 귀의 크기, 모양 및 질량을 포함한 요인에 따라 수정된 신호 스펙트럼을 사용하여 각 사람이 소리 신호를 다르게 경험한다는 것입니다. 이것은 헤드 관련 전달 함수로 알려져 있으며 오늘날의 기술은 근사화를 목표로 합니다. 이 기능을 개인화하기 위한 지속적인 연구를 통해 헤드셋 사용자는 올바른 공간 단서로 가상 물체에서 나오는 소리를 인식할 수 있습니다.

대기 시간이 짧은 인사이드 아웃 추적

사용자의 머리 움직임을 실시간으로 추적하는 것은 VR/AR에서 분명히 필요합니다. 시스템은 항상 다른 물체에 대한 3D 공간 내에서 헤드셋의 위치를 ​​결정할 수 있어야 하며, 동시에 사용자 머리 위치 및 방향에 따라 해당 시각 및 청각 정보를 렌더링하고 표시하기 위해 높은 정확도와 낮은 대기 시간을 보장해야 합니다. 사용자가 이동함에 따라 빠르게 업데이트합니다.

최근까지 VR 헤드셋은 사용자가 주변에 배치한 외부 센서를 사용하여 추적 방법으로 외부를 통해 머리 움직임을 추적했습니다. 그러나 오늘날 인사이드 아웃 트래킹은 컴퓨터 비전과 정밀하게 조정된 동작 센서의 조합을 기반으로 동시 위치 파악 및 매핑 기술과 시각적 관성 주행 거리계를 제공하여 헤드셋 내에서 움직임을 추적할 수 있습니다.

내부 추적 기능을 갖춘 최신 헤드셋은 내장 센서를 사용하여 사용자의 움직임을 실시간으로 정확하게 추적할 수 있습니다.
인사이드 아웃 추적 기능을 갖춘 최신 헤드셋은 내장 센서를 사용하여 사용자의 움직임을 실시간으로 정확하게 추적할 수 있습니다. (출처: 메타)

그러나 지속적인 과제는 낮은 모션-광자 대기 시간(사용자 동작 시작부터 디스플레이의 해당 이미지 프레임의 마지막 픽셀에서 광자 방출까지의 지연)을 달성하는 것입니다. 즉, 센서 데이터 수집 및 처리, 인터페이스, 그래픽 계산, 이미지 렌더링 및 디스플레이 업데이트에 걸리는 총 시간입니다.

현실 세계에서 우리는 시각에서 결정되는 시야의 변화와 전정 감각 시스템이 감지한 움직임 정보를 기반으로 머리 움직임을 추적합니다. VR 헤드셋의 지연 시간이 길면 시각-전정 불일치가 발생하여 방향 감각 상실과 현기증이 발생할 수 있습니다. 오늘날의 시스템은 일반적으로 20~40ms의 모션-광자 대기 시간을 달성할 수 있지만 지각적으로 매끄러운 경험을 위해서는 10ms 미만이어야 합니다.

사람의 입력 및 상호 작용

몰입형 경험을 위해서는 사용자가 가상 ​​개체와 현실적으로 상호 작용할 수 있어야 합니다. 그들은 손을 뻗어 물체를 잡을 수 있어야 하며 물리 법칙에 따라 실시간으로 반응해야 합니다.

오늘날 최첨단 헤드셋을 사용하면 사용자는 기본적인 손 제스처로 개체를 선택할 수 있으며 AI의 급속한 발전으로 컴퓨터 비전 기술이 계속 향상됨에 따라 미래의 헤드셋에는 더 풍부한 제스처 제어 기능이 포함될 것입니다.

차세대 장치는 또한 시선 추적 기술을 통해 사용자가 가상 ​​물체에 시선을 집중하여 선택을 한 다음 손 제스처로 활성화하거나 조작할 수 있는 다중 모드 상호 작용을 제공할 것입니다. 곧 AI 기술이 계속 발전하고 로컬 저지연 처리가 현실화됨에 따라 헤드셋도 실시간 음성 인식 기능을 갖게 될 것입니다.

컴퓨터 비전 및 AI 기술의 발전으로 제스처, 시선 응시 및 음성 명령을 사용하여 자연스러운 사용자 상호 작용이 가능합니다.
컴퓨터 비전 및 AI 기술의 발전으로 제스처, 시선 응시 및 음성 명령을 사용하여 자연스러운 사용자 상호 작용이 가능합니다. (출처: 데이비드 추기경)

앞을 내다보며

오늘날 우리는 일부 주류 VR과 유망한 산업용 AR 애플리케이션을 경험할 수 있지만 완전히 몰입할 수는 없습니다. 경로가 즉각적이지는 않지만 관련 기술에 수십억 달러를 투자하면 그 잠재력은 거의 무한합니다. 예를 들어 McKinsey는 메타버스가 2030년까지 4조 달러에서 5조 달러를 창출할 수 있다고 추정합니다.

기술적인 장애물을 지속적으로 공격함으로써 우리는 기술을 통해 실제와 같은 경험을 재현할 수 있을 것이며 궁극적으로 우리가 경험하는 현실 세계와 가상 세계의 차이를 줄일 수 있을 것입니다.

이러한 개발에 대해 자세히 알아보고 Show Week 2023에서 최신 AR 및 VR 제품을 볼 수 있습니다.

Achin Bhowmik은 Society for Info Display의 회장이자 Starkey의 CTO이자 엔지니어링 부사장입니다.

Leave a Reply

Your email address will not be published. Required fields are marked *