Kết xuất thực tế: tôi cần xem xét quá trình nào của mắt và não người?


12

Kết xuất quang học có mục tiêu hiển thị hình ảnh như một máy ảnh thực sẽ chụp được nó. Mặc dù đây đã là một mục tiêu đầy tham vọng, nhưng đối với một số trường hợp nhất định, bạn có thể muốn đưa nó đi xa hơn: hiển thị hình ảnh như mắt người sẽ chụp hoặc thậm chí là con người sẽ cảm nhận được nó. Bạn có thể gọi nó là visiorealistic hoặc perceptiorealistic vẽ , nhưng nếu có ai có thể đưa ra một thuật ngữ catchier (hay nói với tôi rằng đó là một trong những đã tồn tại) Tôi đánh giá cao điều đó.

Dưới đây là một số ví dụ để làm rõ quan điểm của tôi. Khi bạn chụp ảnh bằng máy ảnh ở mức chiếu sáng thấp, bạn có ống kính tốt hoặc có được hình ảnh nhiễu. Đối với một người quan sát con người, tầm nhìn scotopic khởi động và làm tăng hiệu ứng Purkinje (màu sắc được chuyển sang màu xanh). Hiệu ứng này phụ thuộc vào thông tin độ chói HDR, bị mất khi tôi hiển thị hình ảnh trên màn hình LDR. Ngoài ra, bộ não con người có thể sử dụng thông tin chuyên sâu để 'lọc' hình ảnh cảm nhận - thông tin bị mất trong kết xuất cuối cùng (không phải âm thanh nổi).

Lắp ráp một danh sách đầy đủ có lẽ là một mục tiêu khó nắm bắt. Bạn có thể đề xuất một số tác động của mắt và não mà tôi sẽ cần xem xét?


Tôi đã nghe một lần rằng chúng ta có tiếng ồn tương tự máy ảnh bởi vì tiếng ồn thực sự là vật lý và không chỉ là điện. (tức là không có quá nhiều photon). Nhưng bộ não xóa nó, sử dụng khử răng cưa tạm thời tôi nghĩ. (tức là chúng ta thấy với rất nhiều chuyển động mờ vào ban đêm).
v.oddou

Tôi không hiểu lắm. Nếu bạn kết xuất một hình ảnh trong điều kiện ánh sáng yếu và mô phỏng hiệu ứng Purkinje, nó sẽ không thực tế vì mắt người sẽ thêm hiệu ứng của chính nó, phải không?
Yves Daoust

1
@YvesDaoust Vì hình ảnh được hiển thị trên màn hình LDR trong điều kiện ánh sáng không xác định, có lẽ là không. Nói một cách đơn giản, hình ảnh bạn nhìn thấy trên màn hình sẽ sáng hơn để dễ nhận biết hơn. Nếu chúng ta đang sử dụng màn hình HDR và ​​có thể tái tạo chính xác các giá trị độ chói của cảnh đêm (và có một phòng tối khác), bạn đã đúng.
David Kuri

1
Không có gì sai với những gì bạn phấn đấu, nhưng tôi sợ rằng điều này có vẻ hơi quá rộng đối với tôi vì có rất nhiều hiệu ứng mà chúng ta cần xem xét. Tôi không thể viết cái này ở định dạng SE, vì nó thực sự sẽ sai. Tuy nhiên, nếu bạn điều chỉnh phạm vi của mình một chút như "Bạn có thể đề xuất một số hiệu ứng mà tôi sẽ cần xem xét" không thì sẽ dễ bắt đầu hơn.
joojaa

@joojaa Tôi đã thay đổi các câu hỏi như bạn đề nghị, cảm ơn.
David Kuri

Câu trả lời:


5

bạn có thể muốn đưa nó đi xa hơn: hiển thị một hình ảnh như mắt người sẽ chụp được nó hoặc thậm chí như con người sẽ cảm nhận được nó.

Có hai cách để giải thích điều này. Tôi sẽ làm cả hai.


Giải thích 1: Kết xuất một hình ảnh trông có vẻ thực tế.

Vào cuối ngày, hình ảnh của bạn vẫn cần được hiển thị ở đâu đó. Đây là chìa khóa: bạn muốn hiển thị hình ảnh của mình theo cách mà khi bạn * hiển thị * hình ảnh đó trên một thiết bị hiển thị cụ thể, nó sẽ tạo ra cảm giác giống như hình ảnh phóng xạ ban đầu sẽ tạo ra.

Đây là cách giải nén ý tưởng đó.

Trong thế giới thực, quang phổ kế (tức là sự phân bố ánh sáng thực sự) đi vào mắt bạn và kích thích khoảng 1 bốn thụ thể ánh sáng. Các kích thích của các thụ thể tạo ra cảm giác về màu sắc mà chúng ta liên kết với hình ảnh.

Trong kết xuất, chúng ta không có quyền kiểm soát tùy ý đối với quang phổ chúng ta tạo ra. May mắn thay, vì chúng ta (thường) chỉ có ba hình nón, mỗi hình nón chỉ tạo ra một giá trị vô hướng, tầm nhìn màu sắc có thể được sao chép bằng cách sử dụng chính xác ba nguyên tắc. Điểm mấu chốt là bạn có thể tạo ra bất kỳ cảm giác màu nào bằng cách sử dụng kết hợp tuyến tính chỉ gồm ba bước sóng (tối đa một vài màu có thể phải âm, trong trường hợp đó, bạn chỉ cần sử dụng các nguyên tắc khác nhau).

Bạn không có lựa chọn bầu cử sơ bộ. Hầu như tất cả các thiết bị hiển thị màu đều sử dụng tiêu chuẩn sRGB, cung cấp ba nguyên tắc (thường thực sự không có một bước sóng). Điều đó tốt bởi vì hóa ra tất cả đều trừu tượng hóa và bạn không cần phải quan tâm.

Để làm rõ mớ hỗn độn được hiển thị chính xác về mặt nhận thức, đây là thuật toán:

  1. Kết xuất hình ảnh của bạn bằng cách sử dụng các phép tính phóng xạ chính xác. Bạn theo dõi các bước sóng riêng lẻ của ánh sáng hoặc xô của bước sóng. Bất cứ điều gì. Cuối cùng, bạn có một hình ảnh có đại diện của phổ nhận được ở mọi điểm.
  2. Ở mỗi pixel, bạn lấy phổ bạn kết xuất và chuyển đổi nó sang không gian màu CIE XYZ . Điều này hoạt động để tích hợp sản phẩm của phổ với các chức năng quan sát tiêu chuẩn (xem định nghĩa CIE XYZ) .
  3. Điều này tạo ra ba giá trị vô hướng, đó là các màu CIE XYZ.
  4. Sử dụng một biến đổi ma trận để chuyển đổi này thành RGB tuyến tính, và sau đó từ đó sử dụng một biến đổi tuyến tính / công suất để chuyển đổi RGB tuyến tính thành sRGB .
  5. Chuyển đổi từ điểm nổi sang uint8 và lưu, kẹp các giá trị ngoài phạm vi (màn hình của bạn không thể đại diện cho chúng).
  6. Gửi các pixel uint8 đến bộ đệm khung.
  7. Màn hình có các màu sRGB, thực hiện phép biến đổi nghịch đảo để tạo ra ba nguyên hàm có cường độ cụ thể. Mỗi tỷ lệ đầu ra của bất kỳ yếu tố hình ảnh nào nó chịu trách nhiệm. Các yếu tố hình ảnh sáng lên, tạo ra một quang phổ. Quang phổ này sẽ được (hy vọng) một metamer cho phổ ban đầu bạn trả lại.
  8. Bạn cảm nhận phổ như bạn đã cảm nhận phổ được kết xuất.

Giải thích 2: Cố gắng mô phỏng dữ liệu cuối mà mắt người có thể nhận được cho mục đích hiển thị hoặc bù cho màn hình LDR.

Cái này có ý nghĩa ít hữu ích hơn, tôi nghĩ vậy. Về cơ bản, bạn đang cố gắng tạo ra một hình ảnh điều chỉnh cách não bộ cảm nhận nó cho vui / lợi nhuận.

Ví dụ, có một bài báo tại SIGGRAPH năm nay , nơi họ mô phỏng các ảnh hưởng và giảm màu để làm cho hình ảnh có vẻ khác biệt về mặt nhận thức. Tất nhiên, lý do duy nhất họ làm điều này là vì các màn hình chúng tôi đang làm việc đều là dải động thấp (LDR). Vấn đề là mô phỏng các hiệu ứng mà ai đó có thể thấy nếu tiếp xúc với màn hình dải động cao (HDR) thực sự như dữ liệu hình ảnh thực tế.

Trong thực tế, điều này hóa ra không hoạt động tốt. Ví dụ, đối với các ảnh hưởng, chúng ta thấy các ảnh hưởng do các tế bào màu bị kích thích rất sáng. Thay vào đó, nếu bạn cố gắng kích thích hiệu ứng bằng một hình ảnh giả, nó có thể trông tương tự - nhưng vì nó là một cơ chế hoàn toàn khác, nên nó không thuyết phục lắm.

Loại đồ họa này thực sự chưa được khám phá trong tài liệu nếu bạn muốn thực hiện nó. Bài báo được đề cập là một ví dụ về các phương pháp tiếp cận hiện đại nhất mà chúng ta có. Tuy nhiên, tôi nghĩ rằng sự đồng thuận hiện tại là nó không thực sự đáng để thử mô phỏng (ít nhất là tại thời điểm này), vì tốt nhất bạn chỉ nên xấp xỉ các hiệu ứng tầm nhìn thực bằng cách thay thế các hiệu ứng khác nhau, và điều này thực sự không công việc.


1 Rod + 3 * hình nón, trường hợp thông thường. Gần đúng bởi vì con người có thể có ít nhất là 0 thụ thể ánh sáng chức năng lên đến tối đa được phỏng đoán là bảy (với mức cao nhất từng được quan sát là năm).


Cảm ơn câu trả lời của bạn. Tôi coi nó là không đầy đủ mặc dù. Tuyên bố của bạn từ Giải thích 1 "Bạn nhận thấy phổ như bạn đã cảm nhận phổ được kết xuất" là có thể sai. Khi cảm nhận phổ thực, các hiệu ứng sẽ không xảy ra khi sử dụng chuyển đổi mà bạn đã mô tả (ví dụ: bạn phải sử dụng trình quan sát tiêu chuẩn scotopic trong điều kiện ánh sáng yếu, như đã đề cập trong Jameson, Hurvich: Tâm lý học thị giác). Những gì bạn mô tả là ý tưởng của kết xuất quang phổ. Giải thích 2 là những gì tôi muốn tìm hiểu thêm về. Bài viết sẽ là một khởi đầu tốt, cảm ơn vì điều đó.
David Kuri

4

Khi nói đến nhận thức, cũng có vấn đề về những gì chúng ta gần như mù quáng (về các tính chất hoặc tạo tác), và những gì chúng ta đã thực thi nhận thức về.

Ví dụ như đối với âm thanh, bạn có độ tương phản hoặc tần số khiến bạn ít hoặc không biết về các nội dung khác (một bài báo SIGGRAPH cũ minh họa cách kết cấu có thể che giấu độ phân giải của lưới), cộng với tất cả các khía cạnh thời gian (google cho "thay đổi mù"). Tương tự, các chi tiết về bề mặt, quy tắc, BRDF có thể hoặc không thể nhìn thấy tùy thuộc vào các giá trị và giá trị tương đối.

Ngoài ra, vì hệ thống nhận thức của chúng ta có xu hướng thích ứng cục bộ và toàn cầu, đối với các giá trị tần số thấp, điều quan trọng là phải có cực đại và cực tiểu ở đúng vị trí, nhưng giá trị chính xác của chúng sẽ không thực sự được chú ý.

Đôi khi nhận thức có thể ở đó, giống như bạn cho phép rất nhiều lỗi trong mây và cây nhưng chắc chắn ít hơn ở mặt người. (Đôi khi bạn có thể hạ cấp này xuống thống kê tham số cho một danh mục nhất định.)

Đó là lý do tại sao tôi thích sử dụng từ "hợp lý" hơn là "phaticealistic".

Ngược lại, chúng tôi cực kỳ nhạy cảm với các vật phẩm như pixel sai hoặc pixel nhấp nháy, siêu nhạy với các mối tương quan như mặt trước chỉ có 1 mức xám, các mẫu không mong muốn như Moiré, răng cưa hoặc ngẫu nhiên xấu, v.v.

Nhân tiện, đó là một trong những lý do mà các giải pháp dựa trên tối ưu hóa tổng hợp mọi thứ trong một năng lượng đơn giản có thể là một ý tưởng rất tệ khi nói về mặt nhận thức vì trong mọi tình huống nghịch lý, điều này có thể dễ bị tập trung vào các lỗi hoặc điểm. Vì lý do tương tự, những người chiếu sáng toàn cầu ban đầu đã thực sự thất vọng vì các giải pháp chính xác về năng lượng ít được chấp nhận hơn so với bóng gần đúng chống răng cưa (và sau đó đến từ phương pháp bốn cây dựa trên phương pháp thích ứng dựa trên lưới).

Tổng quan (khá chung chung) về nhận thức cho đồ họa có thể được tìm thấy trong khóa học SigAsia'11 này về "Nhận thức về đồ họa, trực quan hóa, môi trường ảo và hoạt hình"

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.