导航：首页> 电通信技术>终端装置

终端装置

文献发布时间：2024-04-18 20:02:18

技术领域

本公开涉及终端装置。

背景技术

公知有使用经由网络连接的计算机从而各计算机的用户与其他用户收发彼此的图像、声音来进行通话的技术。例如，在专利文献1中，公开了将从通信对象侧取得的通信对象侧空间的拍摄图像显示于显示部的双向通信系统。

专利文献1：日本特开2021－141346号公报

在用户收发彼此的图像、声音来进行虚拟的面对面交流的技术中，仍有余地提高交流的真实感。

发明内容

本公开提供能够提高虚拟的面对面交流中的真实感的终端装置等。

本公开中的终端装置是具有通信部；显示部；对用户进行拍摄的拍摄部；以及通过上述通信部进行通信的控制部，其中，上述控制部接受用于显示基于使用其他终端装置的其他用户的拍摄图像和包含该拍摄图像中的不可见部分的补充用图像来表示该其他用户的3D模型的信息，并且上述控制部使上述显示部显示利用基于上述补充用图像的3D模型来补充基于上述拍摄图像的3D模型中的上述不可见部分而得到的3D模型。

根据本公开中的终端装置等，能够提高虚拟的面对面交流中的真实感和便利性。

附图说明

图1是表示通话系统的结构例的图。

图2A是表示终端装置的使用方式的图。

图2B是表示终端装置的图像处理的方式的图。

图2C是表示终端装置的使用方式的图。

图3是表示通话系统的动作例的时序图。

图4A是表示终端装置的动作例的流程图。

图4B是表示终端装置的动作例的流程图。

附图标记说明：

1…通话系统；10…服务器装置；11…网络；12…终端装置；101、111…通信部；102、112…存储部；103、113…控制部；105、115…输入部；106…输出部；116…显示及输出部；117…拍摄部；118…检测部。

具体实施方式

以下，对实施方式进行说明。

图1是表示1个实施方式中的通话系统1的结构例的图。通话系统1具有经由网络11相互连接为能够进行信息通信的服务器装置10、和多个终端装置12。通话系统1是用于用户能够使用终端装置12收发图像、声音等来相互进行虚拟的面对面交流(以下称为虚拟面对面交流)的系统。

服务器装置10例如属于云计算系统或其他计算系统，是作为安装各种功能的服务器而发挥功能的服务器计算机。服务器装置10也可以由以能够进行信息通信的方式连接来进行协作动作的2个以上的服务器计算机构成。服务器装置10执行提供虚拟面对面交流而所需的信息的收发以及信息处理。

终端装置12是具备通信功能和图像、声音等的输入输出功能的信息处理装置，由用户使用。终端装置12例如是智能手机、平板终端、个人计算机、数字标牌等。

网络11例如是因特网，但包括自组织网络、LAN(Local Area Network：局域网)、MAN(Metropolitan Area Network：城域网)或其他网络或这些网络的任意组合。

在本实施方式中，终端装置12接受用于显示基于使用其他终端装置12的其他用户的拍摄图像和包含该拍摄图像中的不可见部分的补充用图像来表示其他用户的3D模型的信息，并显示利用基于补充用图像的3D模型补充基于拍摄图像的3D模型中的不可见部分而得到的3D模型。在终端装置12的用户(以下称为本用户)与其他终端装置12的其他用户(以下称为其他用户)进行虚拟面对面交流时，当其他用户在触摸面板上描绘文字、图形等描绘图像时因保持描绘工具的手而从拍摄部来看被遮蔽而成为不可见的部分通过基于补充用图像的3D模型来补充。因此，本用户看到其他用户的更自然的3D模型，而宛如体验一边在透明面板上进行描绘一边隔着透明面板与其他用户进行面对面交流那样的真实感。因此，能够提高虚拟面对面交流中的真实感。

对服务器装置10与终端装置12各自的结构进行详述。

服务器装置10具有通信部101、存储部102、控制部103、输入部105以及输出部106。在服务器装置10由2个以上的服务器计算机构成的情况下，这些结构适当地配置于2个以上的计算机中。

通信部101包括1个以上的通信用接口。通信用接口例如是LAN接口。通信部101接收在服务器装置10的动作中所使用的信息，另外发送通过服务器装置10的动作而得到的信息。服务器装置10通过通信部101与网络11连接，并经由网络11与终端装置12进行信息通信。

存储部102例如包括作为主存储装置、辅助存储装置或高速缓冲存储器而发挥功能的1个以上的半导体存储器、1个以上的磁存储器、1个以上的光存储器、或它们中的至少2种的组合。半导体存储器例如是RAM(Random Access Memory：随机存取存储器)或ROM(ReadOnly Memory：只读存储器)。RAM例如是SRAM(Static RAM：静态随机存取存储器)或DRAM(Dynamic RAM：动态随机存取存储器)。ROM例如是EEPROM(Electrically ErasableProgrammable ROM：电可擦除可编程只读存储器)。存储部102储存在服务器装置10的动作中所使用的信息和通过服务器装置10的动作而得到的信息。

控制部103包括1个以上的处理器、1个以上的专用电路、或它们的组合。处理器例如是CPU(Central Processing Unit：中央处理器)等通用处理器，或专用于特定的处理的GPU(Graphics Processing Unit：图形处理器)等专用处理器。专用电路例如是FPGA(Field-Programmable Gate Array：现场可编程门阵列)、ASIC(Application SpecificIntegrated Circuit：专用集成电路)等。控制部103一边对服务器装置10的各部进行控制，一边执行服务器装置10的动作所涉及的信息处理。

输入部105包括1个以上的输入用接口。输入用接口例如是物理按键、静电电容按键、指示设备、与显示器设置为一体的触摸面板、或受理声音输入的麦克风。输入部105受理对在服务器装置10的动作中所使用的信息进行输入的操作，并将所输入的信息送到控制部103。

输出部106包括1个以上的输出用接口。输出用接口例如是显示器或扬声器。显示器例如是LCD(Liquid Crystal Display：液晶显示器)或有机EL(Electro-Luminescence：电致发光)显示器。输出部106输出通过服务器装置10的动作而得到的信息。

服务器装置10的功能通过控制部103所包含的处理器执行控制程序来实现。控制程序是用于使计算机作为服务器装置10而发挥功能的程序。另外，服务器装置10的一部分或全部功能也可以通过控制部103所包含的专用电路来实现。另外，控制程序也可以储存于服务器装置10能够读取的非暂时性的记录、存储介质，从而服务器装置10从介质来读取控制程序。

终端装置12具有通信部111、存储部112、控制部113、输入部115、显示及输出部116、拍摄部117以及检测部118。

通信部111具有与有线或无线LAN标准对应的通信模块、与LTE、4G、5G等移动体通信标准对应的模块等。终端装置12通过通信部111经由附近的路由器装置或移动体通信的基站与网络11连接，并经由网络11与服务器装置10等进行信息通信。

存储部112包括1个以上的半导体存储器、1个以上的磁存储器、1个以上的光存储器、或这些存储器中的至少2种的组合。半导体存储器例如是RAM或ROM。RAM例如是SRAM或DRAM。ROM例如是EEPROM。存储部112例如作为主存储装置、辅助存储装置或高速缓冲存储器而发挥功能。存储部112储存在控制部113的动作中所使用的信息、以及通过控制部113的动作而得到的信息。

控制部113具有例如CPU、MPU(Micro Processing Unit：微处理器)等1个以上的通用处理器、或专用于特定的处理的GPU等1个以上的专用处理器。或者，控制部113也可以具有1个以上的FPGA、ASIC等专用电路。控制部113通过按照控制、处理程序进行动作，或按照作为电路安装的动作顺序进行动作，对终端装置12的动作统一进行控制。而且，控制部113经由通信部111与服务器装置10等进行各种信息的收发，执行本实施方式所涉及的动作。

输入部115包括与显示器设置为一体的触摸面板以及1个以上的输入用接口。输入部115基于手指、指示设备等对触摸面板的接触位置的位移来检测描绘图像的输入，并将检测出的信息发送至控制部113。输入用接口例如包括物理按键、静电电容按键以及指示设备。另外，输入用接口包括受理声音输入的麦克风。并且，输入用接口也可以包括扫描图像码的扫描仪或照相机、IC卡读取器。输入部115受理对在控制部113的动作中所使用的信息进行输入的操作，并将所输入的信息发送至控制部113。

显示及输出部116包括显示图像的显示器、和1个以上的输出用接口。显示器例如是LCD或有机EL显示器。输出用接口例如包括扬声器。显示及输出部116输出通过控制部113的动作而得到的信息。

拍摄部117包括拍摄被拍摄体的基于可见光的拍摄图像的照相机、和测定至被拍摄体为止的距离来取得距离图像的测距传感器。照相机例如以每秒15～30帧拍摄被拍摄体来生成由连续的拍摄图像构成的动态图像。测距传感器包括ToF(Time Of Flight：飞行时间)照相机、LiDAR(Light DetectionAnd Ranging：光探测与测距)、立体照相机，并生成被拍摄体的包含距离信息的距离图像。拍摄部117将拍摄图像和距离图像发送至控制部113。

检测部118具有检测终端装置12的各部或终端装置12的周围的状况的1个以上的传感器类或与传感器类的接口，将表示基于传感器类的检测结果的信息发送至控制部113。传感器类包括使用电磁波、声波等检测物体相对于终端装置12的任意部位的接近的接近传感器。接近传感器例如检测手指等对输入部115的触摸面板的接近，并将检测结果发送至控制部113。

控制部113的功能通过控制部113所包含的处理器执行控制程序来实现。控制程序是用于使处理器作为控制部113而发挥功能的程序。另外，控制部113的一部分或全部功能也可以通过控制部113所包含的专用电路来实现。另外，控制程序也可以储存于终端装置12能够读取的非暂时性的记录、存储介质，终端装置12从介质来读取控制程序。

图2A～2C表示用户使用终端装置12进行面对面交流的方式。

图2A表示使用终端装置12的本用户的方式。本用户20一边在重叠设置于显示及输出部116的显示器的输入部115的触摸面板上描绘文字、图案等一边进行通话。显示及输出部116显示与指示设备等的接触对应的图像等的信息。拍摄部117设置于显示器上部，或者在由透射显示器构成显示器的情况下设置于显示器的背后等能够拍摄本用户20的至少上半身的位置。

控制部113通过拍摄部117取得本用户20的拍摄图像和距离图像。另外，控制部113利用输入部115的麦克风收集本用户20发出的声音。并且，控制部113从输入部115取得本用户20在输入部115的触摸面板上描绘的描绘图像的信息。控制部113对用于生成本用户20的3D模型的本用户20的拍摄图像和距离图像、本用户20描绘出的描绘图像、以及用于再现本用户20的声音的声音信息进行编码来生成编码信息。在编码时，控制部113也可以对拍摄图像等进行任意的加工处理(例如分辨率变更、修剪、补充等)。

图2B是对加工处理进行说明的图。在本用户20进行描绘时，根据拍摄部117的位置，在拍摄部117的视场角的范围26中，产生因被描绘图像23、保持描绘工具的手24这样的物体遮蔽而成为从拍摄部117不可见的遮挡区域27。若包含于遮挡区域27的例如本用户20的臂部25未被拍摄，则未取得与臂部25有关的可见光图像、距离图像，仅生成缺少臂部25的3D模型。因此，在本实施方式中，控制部113使用预先储存于存储部112的补充用图像，对缺少的部分进行补充。控制部113也对补充用图像的信息进行编码，使其成为编码信息的一部分。

另外，控制部113基于本用户20的拍摄图像导出描绘图像相对于本用户20的位置。例如，基于拍摄部117与触摸面板的位置关系、本用户20相对于拍摄部117的位置、以及描绘图像的位置，导出描绘图像相对于本用户20的位置。然后，控制部113以与导出的位置对应的方式决定使描绘图像相对于本用户20的3D模型重叠的位置。

然后，控制部113通过通信部111将编码信息经由服务器装置10发送至其他终端装置12。

图2C表示显示于终端装置12的其他用户的形态。包含其他用户的3D模型21的构思图像22和其他用户21描绘的描绘图像23一起显示于显示及输出部116的显示器。

控制部113通过通信部111接受从其他终端装置12经由服务器装置10送来的编码信息。若对从其他终端装置12接受了的编码信息进行解码，则控制部113使用已解码的信息来生成表示使用其他终端装置12的其他用户的3D模型21。在生成3D模型21时，控制部113使用其他用户的距离图像生成多边形模型，并对多边形模型实施使用了其他用户的拍摄图像的纹理映射，由此生成其他用户的3D模型21。但是，对于3D模型21的生成，不限于这里所示的例子，可以采用任意的方法。在生成3D模型21时，控制部113生成用于通过补充用图像来补充不可见的臂部25的补充用3D模型28，从而对3D模型21进行补充。然后，控制部113生成从虚拟的视点观察包含3D模型21的虚拟空间而得的构思图像22。虚拟的视点例如是本用户20的眼睛的位置。控制部113根据本用户20的拍摄图像导出眼睛相对于任意基准的空间坐标，并与虚拟空间内的空间坐标建立对应。任意基准例如是拍摄部117的位置。其他用户21的3D模型配置于相对于虚拟的视点而能够取得目光接触的位置、角度。进而，控制部113在构思图像22上重叠描绘图像23来生成显示用图像。描绘图像23配置成与3D模型21的保持有描绘工具的手的位置对应。控制部113通过显示及输出部116显示显示用图像，且输出基于其他用户21的声音信息的其他用户21发出的声音。

图3是用于说明通话系统1的动作顺序的时序图。该时序图表示服务器装置10以及多个终端装置12(在对各个进行区别时，为了方便，称为终端装置12A及12B)的协同动作所涉及的顺序。该顺序是终端装置12A呼叫终端装置12B时的顺序。在多个终端装置12B被呼叫的情况下，这里所示的终端装置12B所涉及的动作顺序由多个终端装置12B的每一个执行，或者由多个终端装置12B的每一个和服务器装置10执行。

图3中的涉及服务器装置10以及终端装置12的各种信息处理的步骤由各个控制部103及113来执行。另外，涉及服务器装置10以及终端装置12的各种信息的收发的步骤通过各个控制部103及113分别经由通信部101及111相互收发信息来执行。在服务器装置10以及终端装置12中，各个控制部103及113将分别收发的信息适当地储存于存储部102及112。并且，终端装置12的控制部113通过输入部115受理各种信息的输入，通过显示及输出部116输出各种信息。

在步骤S300中，终端装置12A受理来自该用户的设定信息的输入。设定信息包括通话的时间表、通话对象的清单等。清单包括通话对象的用户名和各用户的邮件地址。然后，在步骤S301中，终端装置12A将设定信息发送至服务器装置10。服务器装置10接受从终端装置12A送来的信息。例如，终端装置12A从服务器装置10取得设定信息的输入画面，并将输入画面显示给用户。然后，通过用户在输入画面中输入设定信息，并将设定信息发送至服务器装置10。

在步骤S302中，服务器装置10基于设定信息来确定通话对象。控制部103将设定信息与通话对象的信息以建立对应的方式储存于存储部102。

在步骤S303中，服务器装置10将认证信息发送至终端装置12B。认证信息是用于确定并认证使用终端装置12B的通话对象的ID、密码等的信息。这些信息例如附加在电子邮件中被送来。终端装置12B接受从服务器装置10送来的信息。

在步骤S305中，终端装置12B将已从服务器装置10接受的认证信息和认证申请的信息发送至服务器装置10。通话对象对终端装置12B进行操作，使用从服务器装置10送来的认证信息来申请认证。例如，终端装置12B访问服务器装置10提供的用于通话的网站，来取得认证信息和用于认证申请的信息的输入画面，并将输入画面显示给通话对象。然后，终端装置12B受理通话对象输入的信息并将其发送至服务器装置10。

在步骤S306中，服务器装置10进行通话对象的认证。在存储部102中，将终端装置12B的识别信息与通话对象的识别信息以建立对应的方式进行储存。

在步骤S308及S309中，服务器装置10将通话的开始通知分别发送至终端装置12A及12B。若终端装置12A及12B分别收到从服务器装置10送来的信息，则分别开始用户的拍摄和发出声音的收集。

在步骤S310中，经由服务器装置10，通过终端装置12A及12B执行包含用户间的通话在内的虚拟面对面交流。终端装置12A及12B经由服务器装置10相互收发用于生成表示各自的用户的3D模型的信息、描绘图像以及发出声音的信息。另外，终端装置12A及12B向各自的用户输出包含表示其他用户的3D模型在内的图像和其他用户发出的声音。

图4A、4B是对涉及执行虚拟面对面交流的终端装置12的动作顺序进行说明的流程图。这里所示的顺序是在终端装置12A及12B中共通的顺序，不对终端装置12A及12B进行区别地来说明。

图4A涉及各终端装置12送出用于生成使用该终端装置12的本用户的3D模型的信息时的控制部113的动作顺序。

在步骤S402中，控制部113进行可见光图像、距离图像的取得、描绘图像的取得以及声音的收集。控制部113通过拍摄部117进行任意设定的帧速率下的本用户的可见光图像的拍摄以及距离图像的取得。另外，控制部113通过输入部115取得描绘图像。并且，控制部113通过输入部115收集本用户发出的声音。

在步骤S403中，控制部113决定补充用图像。补充用图像是与拍摄图像中的不可见部分对应的图像。

首先，控制部113确定不可见部分。不可见部分是在本用户想要在触摸面板上进行描绘而将保持描绘工具的手向前方进行了伸展时位于手的背后而从拍摄部117的照相机来看被遮蔽的上臂部或前臂部。控制部113通过对拍摄图像进行图案匹配等任意的图像处理来提取保持描绘工具的手的图像，并在手的图像示出如表示向拍摄部117的接近那样的任意决定的尺寸时，将与该手相连的前臂以及上臂部确定为不可见部分。控制部113也可以在由检测部118检测出的从触摸面板至手的距离为任意的基准以下时，经由触摸面板的位置来判定手向拍摄部117的接近。

控制部113若确定不可见部分，则从储存于存储部112的补充用图像样本中选定用于补充不可见部分的补充用图像。补充用图像包含3D模型生成所需的距离信息。在存储部112中，储存有各种补充用图像的样本。例如，储存有左右手的每只手、不同性别、不同肤色、各种穿衣的种类(半袖或长袖)、各种穿衣的颜色的已预先生成的前臂部或上臂部的图像的样本。控制部113例如通过针对拍摄图像中的本用户的左右手、性别、肤色、穿衣的种类、穿衣的颜色等的图案匹配来选定最适合的图像样本。或者，控制部113根据拍摄图像的历史记录检测拍摄到不可见部分的拍摄图像，并根据该拍摄图像和与其对应的距离图像来制作对不可见部分进行补充的补充用图像。

在步骤S404中，控制部113对包含补充用图像的拍摄图像以及距离图像、描绘图像以及声音信息进行编码，并生成编码信息。

在步骤S406中，控制部113通过通信部111将编码信息分组化，并以其他终端装置12为目标向服务器装置10送出。

若取得用于中断拍摄、声音收集或用于退出虚拟面对面交流的与本用户的操作对应地被输入的信息(S408的是)，则控制部113结束图4A的处理顺序，在未取得与用于中断或退出的操作对应的信息的期间(S408的否)，执行步骤S402～S407，并以其他终端装置12为目标向服务器装置送出用于生成表示本用户的3D模型的信息、描绘图像以及用于输出声音的信息。

图4B涉及终端装置12输出其他用户的3D模型的图像、描绘图像以及声音时的控制部113的动作顺序。控制部113若经由服务器装置10接受通过其他终端装置12执行图4A的顺序而送出的信息包，则执行步骤S410～S413。

在步骤S410中，控制部113对已从其他终端装置12接受的信息包所含的编码信息进行解码，由此取得拍摄图像、距离图像、描绘图像以及声音信息。

在步骤S412中，控制部113基于拍摄图像以及距离图像，生成其他终端装置12的表示本用户的3D模型。在从多个其他终端装置12接受信息的情况下，控制部113针对其他终端装置12的每一个执行步骤S410～S412，生成各本用户的3D模型。此时，控制部113在各3D模型中根据补充用图像生成补充用3D模型，并利用补充用3D模型对3D模型的缺少的部分进行补充。

在步骤S413中，控制部113将表示其他用户的3D模型配置于虚拟空间中。在存储部112中，预先储存有虚拟空间的坐标信息、以及每个其他用户的例如根据已认证的顺序应配置3D模型的坐标的信息。控制部113将已生成的3D模型配置于虚拟空间内的坐标。

在步骤S414中，控制部113生成显示用图像。控制部113生成从虚拟的视点拍摄配置于虚拟空间的3D模型而得的构思图像。然后，控制部113将描绘图像重叠于与构思图像的3D模型对应的位置来生成显示用图像。

在步骤S416中，控制部113通过显示及输出部116对显示用图像进行显示，且输出声音。

通过控制部113反复执行步骤S410～S416，本用户能够一边看到包含其他用户的3D模型和该3D模型描绘的描绘图像在内的动画，一边听到其他用户发出的声音。此时，由于3D模型的缺少部分通过补充用3D模型被补充，所以本用户能够看到更自然的其他用户的图像，从而真实感提高。

也可以代替图4A的步骤S403，在图4B的步骤S412中，控制部113根据已从其他终端装置12接受的拍摄图像确定不可见部分，由此来进行补充用图像的决定和补充用3D模型的生成。

在上述例子中，终端装置12从其他终端装置12接受用于生成其他用户的3D模型的信息即拍摄图像、距离图像等，之后生成3D模型，从而生成了在虚拟空间配置有3D模型的构思图像。然而，3D模型的生成及其补充、构思图像的生成等处理也可以适当地在终端装置12间分散进行。例如，也可以由其他终端装置12基于拍摄图像等生成其他用户的3D模型和其补充用的3D模型，接受了这些3D模型的信息的终端装置12使用该3D模型来生成构思图像。

在上述中，基于各附图及实施例对实施方式进行了说明，但如果是本领域技术人员，应注意的是，基于本公开进行各种变形及修正是容易的。因此，应注意的是，这些变形及修正包含在本公开的范围内。例如，各部分、各步骤等所包含的功能等能够以逻辑上不矛盾的方式进行再配置，能够将多个部分、步骤等组合为1个或进行分割。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：丰田自动车株式会社;

上一篇：数据通信方法和装置、计算机可读存储介质、电子设备
下一篇：一种收集光分配网络拓扑的方法及设备