作者(英文):Luo-Yu Lin
論文名稱(英文):Multi-view generation via monocular face in 3D stereoscopic TV base on PSM-Net
指導教授(英文):Wei-Ming Chen
口試委員(英文):Yao-Chung Chang
Wei-Che Chien
關鍵詞(英文):stereo matching2D to 3Dpre-processing of the depth mapdeep learningmulti-view face image
近年來3D應用十分普及,不論是在3D電影、動畫和VR(虛擬實境)上,或是在工業和製造業等都有許多幫助,不僅提高了大眾的娛樂性還幫助產業減少人力和縮短生產的時間,讓許多產業都有顯著的進步。然而在製作裸眼3D電影和動畫以及電視等產業方面還是頗具挑戰性的,其過程不僅耗時、耗費金錢和難以製作且呈現出來的效果難以讓大眾有長時間舒適的觀看效果。因此本研究欲研究透過單張圖片生成3D人臉並提升裸眼3D(Auto stereoscopic)的穩定性及效果。其作法為將單張圖片透過無監督式單目估計深度方法去生成6張不同視角的人臉圖像。本文使用深度圖預測圖片視差只需要輸入單張左視圖就能生成右邊視圖,透過調整視差值以獲取6張不同視角的人臉圖像,最後將圖像輸入到3D立體電視中。若能完整呈現3D人臉在3D立體電視上,能讓製作過程變得不複雜、不需要大量設備就能得到良好的3D圖像,並且本文所產生的人臉部不容易扭曲變形或是更改樣貌,而且是對於整體的視角去進行轉換的因此連同背景也會更改,本研究所提出的方法其效益,除了在娛樂業製程方面會簡便許多,還能有效改善許多2D人臉衍伸出的資安問題,像是現在很多使用照片取代人臉的問題,透過3D人臉更可以將實際人臉與2D圖像做區別,對於人臉識別這區塊的議題有實質性的幫助。相信在現今資訊發達的時代立體人臉也能有更廣泛的應用以及不可限量的發展。
3D applications are currently becoming more and more popular, no matter in 3D movies or animation. However, producing 3D videos and pictures remains a challenge, because of the difficulty and the time-consuming process. Therefore, this research intends to generate 3D faces from a single image, called left view, to improve the stability and the effect of Autostereoscopy. In this paper we propose a method using a single image to generate the face images of six different perspectives by PSMNet, it is a pyramid stereo matching network. We predict the disparity map and combine it with the left view to generate the right view. By adjusting the disparity value, we can obtain the face images of six different perspectives or more. And showing the images by 3D stereoscopic TV. Our method can simplify the process with the high quality 3D image. Compared to other paper about rotation, such as CR-GAN , our paper won't distort the face when switching viewpoints and also produce good viewpoint changes when including backgrounds.The advantages of our method are: Simplify the process of the entertainment industry, Effectively improve the security problems of 2D faces, such as the problem of using photos instead of real human faces.
Through 3D faces, the real face can be distinguished from the 2D images. I believe that in today's era of advanced information, the three-dimensional face can also have a wider range of applications and unlimited development.
第一章 緒論   1
1.1 研究動機與背景   1
1.2 研究目的   2
第二章 文獻探討   4
2.1 人類雙眼立體視覺   4
2.1.1 視差(Disparity)   4
2.1.2 立體顯示器   5
2.2 裸眼3D (Autostereoscopy)   6
2.2.1 2D多工式(Multiplexed 2D)   6
2.2.2 分時多工式(time multiplexed)   8
2.3 其它 3D 成像技術   9
2.3.1 多平面式(multi-plane type)   9
2.4 立體匹配(Stereo Matching)   9
2.4.1 單目深度估計   12
2.5 合成新視圖   15
2.6 空洞產生   18
2.7 頭部旋轉   18
2.8 圖像修復(Image Inpainting)   20
第三章 研究方法   22
3.1 研究架構   22
3.2 研究工具   29
3.2.1 軟硬體開發工具   29
3.3 深度前處理   30
3.3.1 正規化   30
3.3.2 高斯平滑   32
3.3.3 倒轉和縮放   33
3.4 訓練過程   34
3.4.1 視差範圍值及孤立像素點   34
3.4.2 向前扭曲   35
3.4.3 圖像修復   36
第四章 實驗結果   37
4.1 實驗過程與結果   37
4.1.1 前處理的比較   38
4.2 與其他方法比較   41
4.3 與原始右視圖比較   45
4.4 帶有複雜背景的情況下   47
4.5 視差圖驗證   48
4.6 研究限制   49
第五章 結論與未來展望   50
參考文獻   51
