无阻挡外部装置调用

文献发布时间：2023-06-19 18:32:25

技术领域

本申请案涉及无阻挡外部装置调用。

背景技术

例如冯·诺伊曼(Von Neumann)架构的各种计算机架构常规地使用用于数据的共享存储器、用于存取共享存储器的总线、算术单元以及程序控制单元。然而，在处理器与存储器之间移动数据可能需要大量时间和能量，这进而可能约束计算机系统的性能和容量。鉴于这些限制，需要新计算架构和装置来推动计算性能超出晶体管规模的实践(即，摩尔定律(Moore's Law))。

发明内容

在一个方面中，本申请案提供一种系统，其包括：第一存储器计算节点，其包含：被配置成接受远程调用的装置；和第二存储器计算节点，其包含：混合线程处理器(HTP)，其包含被配置成进行以下操作的处理电路系统：接收来自用于所述装置的线程的指令，所述指令对应于无返回指示；基于所述无返回指示增加对应于所述线程的计数器；与来自所述装置的返回值无关地执行所述线程；基于接收到所述返回值使所述计数器递减；和阻止所述线程完成直到所述计数器为零。

在另一个方面中，本申请案提供一种设备，其包括：通向装置的接口；和处理电路系统，其被配置成：接收来自用于所述装置的线程的指令，所述指令对应于无返回指示；响应于接收到所述指令而跨所述接口做出对所述装置的调用；基于所述无返回指示增加对应于所述线程的计数器；继续所述线程的执行而无需等待来自所述装置的返回值；基于接收到所述返回值使所述计数器递减；和阻止所述线程完成直到所述计数器为零。

附图说明

为容易地识别对任何特定元件或动作的论述，附图标记中的一个或多个最高有效数字指的是首次介绍所述元件的图号。

图1大体说明根据实施例的在存储器计算系统的上下文中的第一存储器计算装置的第一实例。

图2大体说明根据实施例的存储器计算装置的存储器子系统的实例。

图3大体说明根据实施例的用于存储器控制器的可编程原子单元的实例。

图4说明根据实施例的存储器计算装置的混合线程处理器(HTP)加速器的实例。

图5说明根据实施例的在处理器中在对外部装置的无阻挡调用下的线程执行的实例。

图6说明根据实施例的对外部装置的有阻挡调用的操作序列与对外部装置的无阻挡调用的操作序列的对比的实例。

图7说明根据实施例的存储器计算装置的混合线程网状架构(HTF)的表示的实例。

图8A大体说明根据实施例的小芯片系统的实例。

图8B大体说明示出来自图8A的实例的小芯片系统中的各个组件的框图。

图9大体说明根据实施例的用于存储器计算装置的基于小芯片的实施方案的实例。

图10说明根据实施例的存储器计算装置小芯片的实例平铺(tiling)。

图11是根据实施例的用于无阻挡外部装置调用的方法的实例的流程图。

图12是实例机器的框图，本文中所论述的技术(例如，方法)中的任何一或多种可利用所述机器、在所述机器中或通过所述机器进行实施。

具体实施方式

可利用材料、装置和集成技术中的最新进展来提供以存储器为中心的计算拓扑。这类拓扑可实现例如用于受大小、重量或功率要求约束的应用的计算效率和工作负荷处理量的进展。拓扑可用于促进存储器或其它数据存储元件附近或内部的低时延计算。方法可尤其非常适合于利用稀疏查找的各种计算密集操作，例如在变换计算(例如，快速傅立叶变换计算(FFT))中，或在例如神经网络或人工智能(AI)、财务分析或模拟或模型化的应用中，所述模拟或模型化例如用于计算流体动力学(CFD)、工程师用增强型声学模拟器(EASE)、以集成电路为重心的模拟程序(SPICE)等。

本文中所论述的系统、装置和方法可包含或使用具有处理器或处理能力的存储器计算系统，所述处理器或处理能力提供于存储器或数据存储组件中、附近或与存储器或数据存储组件集成。这类系统在本文中通常被称为近存储器计算(compute-near-memory，CNM)系统。CNM系统可为基于节点的系统，其中系统中的个别节点使用系统缩放网状架构耦合。尤其在预期为高的高速缓存未命中速率的环境中，每一节点可包含或使用专用或通用处理器以及用户可存取加速器(具有用以促进密集操作的自定义计算网状架构)。

在实例中，CNM系统中的每一节点可具有一或多个主机处理器。在每一节点内，专用混合线程处理器可占用芯片上网络的离散端点。混合线程处理器可对系统的特定节点中的存储器中的一些或全部进行存取，或混合线程处理器可经由系统缩放网状架构对跨多个节点的网络的存储器进行存取。每一节点处的自定义计算网状架构或混合线程网状架构可具有其自身的处理器或加速器，且可在比混合线程处理器更高的带宽下操作。近存储器计算系统中的不同节点可不同地配置，例如具有不同计算能力、不同类型的存储器、不同接口或其它差异。然而，节点可共同耦合以共享所定义地址空间内的数据和计算资源。

在实例中，近存储器计算系统或系统内的节点可经用户配置以用于自定义操作。用户可使用高级编程语言(例如C/C++)来提供指令，所述高级编程语言可编译且直接映射到系统的或CNM系统中的一或多个节点的数据流架构中。也就是说，系统中的节点可包含硬件块(例如，存储器控制器、原子单元、其它客户加速器等)，所述硬件块可配置成直接实施或支持用户指令以由此增强系统性能且减小时延。

在实例中，近存储器计算系统可尤其适合于实施指令和嵌套循环的层次结构(例如，两个、三个或更多个循环深度，或多维循环)。标准编译程序可用于接受高级语言指令，且进而直接编译到节点中的一或多个的数据流架构中。举例来说，系统中的节点可包含混合线程网状架构加速器。混合线程网状架构加速器可在CNM系统的用户空间中执行，且可发起其自身的线程或子线程，所述线程或子线程可并行地操作。每一线程可映射到不同循环迭代，由此支持多维循环。利用发起这类嵌套循环的能力以及其它能力，CNM系统可实现对计算密集操作的明显时间节省和时延改进。

近存储器计算系统或近存储器计算系统的节点或组件可包含或使用各种存储器装置、控制器和互连件等等。在实例中，系统可包括各种互连节点，且节点或节点群组可使用小芯片来实施。小芯片是用于集成各种处理功能性的新兴技术。通常，小芯片系统由集成在中介层上且封装在一起的离散芯片(例如，不同衬底或裸片上的集成电路(IC))构成。这种布置不同于单个芯片(例如，IC)，所述单个芯片含有在一个衬底(例如，单个裸片)上的不同装置块(例如，知识产权(IP)块)，例如芯片上系统(SoC)，或集成在板上的离散封装装置。一般来说，小芯片提供相较于单个裸片芯片的生产效益，包含更高的良率或减少的开发成本。下文所论述的图8A和图8B通常说明例如可包括近存储器计算系统的小芯片系统的实例。

可构成本文所描述的近存储器计算系统的多种组件是被配置成执行与近存储器计算系统的其它组件交互的线程的处理器。举例来说，HTP上的线程执行可在存储器控制器上(在同一节点或不同节点上)执行原子操作以修改受存储器控制器管理的存储器中的值。通常，这类交互涉及线程做出对装置(例如，存储器控制器)的调用并且在等待来自装置的响应时阻挡所述调用。通常，一旦接收到所述响应，将所述响应写入到处理器的目标寄存器中且线程重新开始执行。因此，在装置正在处理所述调用时，线程并没有做有用的工作。

在外部装置调用期间暂停线程活动的传统做法在例如线程的后续指令取决于所述调用返回的数据时通常是必需的。因此，如果需要从存储器检索值以通过线程执行后续计算，那么所述线程在执行后续指令之前必须等待返回所述值以便进行正确地操作。然而，在某些情形下，后续线程操作不取决于对装置的调用的结果。举例来说，如果维持处理的传感器样本的数目的流动总和，那么处理传感器样本的每个线程可在存储器控制器处调用原子操作以使流动总和增加一。此处，一旦发送了调用，线程的后续操作与流动计数的实际值无关。在例如这些的情境中，在调用之后即刻阻挡线程只会减慢线程的执行，没有任何好处。为了解决这些情形的问题，线程可指示是否使用从外部装置调用的返回。如果线程指示将使用返回值，那么可在等待返回时使用处理器中止、暂停或阻挡线程的传统做法。然而，如果线程指示将不使用返回(例如，无返回、无阻挡等请求、调用或指令)，那么处理器可使得线程能够在远程装置调用(例如，请求)之后继续执行(例如，立即重新调度线程)无需等待返回。换句话说，线程可在不考虑返回值下执行。在具有许多运行线程的系统中，例如可能处于本文所描述的接存储器计算系统中，使得线程能够在无阻挡调用之后继续执行的做法可使线程空闲时间显著减小，增加硬件上的处理输贯量。

即使当调用线程不需要返回值时，在线程之间确保对外部装置的调用完成的操作可为重要的。也就是说，当无阻挡调用仍在运行时允许线程退出，因此好像已完成其所有的工作，这可引起不正确的软件行为。

为了解决这个问题，处理器可维持待决无返回计数器，其指示有多少个无返回存储器存取有待提供响应。因此，线程可在做出任何无返回调用之后立即执行下一指令，但阻止在处理器接收到无返回存取响应之前退出线程(例如，执行线程返回指令(ETR))。因此，避免对外部装置的响应(例如，存储器存取)指令上的传统依赖性(所述依赖性可引起显著的性能降级)，而是维持与线程外部的行动者的数据一致性。

在下文描述的额外细节和实例中，使用HTP(例如，图4中所说明的HTP加速器400)作为实施待决无返回计数器的实例处理器。然而，影响线程执行和对外部装置的线程调用的任何处理电路系统(例如，关于图1-3、7-8B或12描述的那些处理电路系统)均可实施用于本文所描述的无返回调用或待决无返回计数器的装置和技术。

图1通常说明近存储器计算系统或CNM系统102的第一实例。CNM系统102的实例包含多个不同存储器计算节点，例如可各自包含各种近存储器计算装置。系统中的每一节点可在其自身的操作系统(OS)域(例如，尤其是Linux)中操作。在实例中，节点可共同地存在于CNM系统102的共同OS域中。

图1的实例包含CNM系统102的第一存储器计算节点104的实例。CNM系统102可具有多个节点，例如包含使用缩放网状架构106耦合的第一存储器计算节点104的不同例子。在实例中，CNM系统102的架构可支持使用缩放网状架构106的具有多达n个不同存储器计算节点(例如，n＝4096)的规模。如下文进一步论述，CNM系统102中的每一节点可以是多个装置的组合件。

CNM系统102可包含用于系统中的各种节点的全局控制器，或系统中的特定存储器计算节点可任选地充当同一系统中的一或多个其它存储器计算节点的主机或控制器。CNM系统102中的各种节点可因此类似地或不同地配置。

在实例中，CNM系统102中的每一节点可包括使用指定操作系统的主机系统。操作系统可在CNM系统102中的各种节点当中为共同或不同的。在图1的实例中，第一存储器计算节点104包括主机系统108、第一交换机110和第一存储器计算装置112。主机系统108可包括处理器，例如可包含X86、ARM、RISC-V或其它类型的处理器。第一交换机110可配置成例如使用专用或另一通信协议(在本文中通常称为芯片到芯片协议接口(CTCPI))促进第一存储器计算节点104的装置或CNM系统102的装置之间或当中的通信。也就是说，CTCPI可包含对于CNM系统102为唯一的专用接口，或可包含或使用其它接口，例如高速计算链路(CXL)接口、高速外围组件互连(PCIe)接口或小芯片协议接口(CPI)等等。第一交换机110可包含配置成使用CTCPI的交换机。举例来说，第一交换机110可包含CXL交换机、PCIe交换机、CPI交换机或其它类型的交换机。在实例中，第一交换机110可配置成耦合不同地配置的端点。举例来说，第一交换机110可配置成在例如PCIe与CPI格式等之间转换分组格式。

CNM系统102在本文中以各种实例配置(例如包括节点的系统)进行描述，且每一节点可包括各种芯片(例如，处理器、交换机、存储器装置等)。在实例中，CNM系统102中的第一存储器计算节点104可包含使用小芯片实施的各种芯片。在下文论述的CNM系统102的基于小芯片的配置中，小芯片间通信以及系统内的额外通信可使用CPI网络。本文中所描述的CPI网络为CTCPI的实例，也就是说，作为CTCPI的小芯片特定实施方案。因此，CPI的下文所描述的结构、操作和功能性可同等地适用于如可另外使用非基于小芯片的CTCPI实施方案来实施的结构、操作和功能。除非另外明确地指示，否则本文中CPI的任何论述同等地适用于CTCPI。

CPI接口包含分组网络，其支持虚拟信道以实现小芯片之间的灵活且高速交互，例如可包括第一存储器计算节点104或CNM系统102的部分。CPI可实现从小芯片内网络到较宽小芯片网络的桥接。举例来说，高级可扩展接口(AXI)是用于芯片内通信的规范。然而，AXI规范涵盖大量的物理设计选项，如物理信道的数目、信号定时、功率等。在单芯片内，通常选择这些选项以满足设计目标，例如功率消耗、速度等。然而，为实现基于小芯片的存储器计算系统的灵活性，例如使用CPI的适配器可在可实施于各种小芯片中的各种AXI设计选项之间介接。通过利用分组化协议启用物理信道到虚拟信道映射且包封基于时间的信令，CPI可用于跨较宽小芯片网络(例如跨第一存储器计算节点104或跨CNM系统102)桥接(例如特定存储器计算节点内的)小芯片内网络。

CNM系统102可缩放以包含多节点配置。也就是说，可使用缩放网状架构106耦合第一存储器计算节点104的或其它不同地配置的存储器计算节点的多个不同例子，以提供经缩放系统。存储器计算节点中的每一个可运行其自身的操作系统，且可配置成联合地协调系统宽资源使用。

在图1的实例中，第一存储器计算节点104的第一交换机110耦合到缩放网状架构106。缩放网状架构106可提供可促进不同存储器计算节点当中及之间的通信的交换机(例如，CTCPI交换机、PCIe交换机、CPI交换机或其它交换机)。在实例中，缩放网状架构106可有助于分区全局地址空间(PGAS)中的各种节点通信。

在实例中，来自第一存储器计算节点104的第一交换机110耦合到一或多个不同存储器计算装置，例如包含第一存储器计算装置112。第一存储器计算装置112可包括基于小芯片的架构，其在本文中称为近存储器计算(CNM)小芯片。第一存储器计算装置112的封装版本可包含例如一或多个CNM小芯片。小芯片可使用CTCPI以通信方式耦合以用于高带宽和低时延。

在图1的实例中，第一存储器计算装置112可包含芯片上网络(NOC)或第一NOC118。通常，NOC是装置内的互连网络，其连接特定端点集合。在图1中，第一NOC 118可提供第一存储器计算装置112的各种存储器、计算资源和端口之间的通信和连接。

在实例中，第一NOC 118可包括折叠式克洛斯(Clos)拓扑，例如在存储器计算装置的每一例子内，或作为在节点中耦合多个存储器计算装置的网格。克洛斯拓扑供应各种益处，所述克洛斯拓扑例如可使用多个较小基数交叉开关以提供与较高基数交叉开关拓扑相关联的功能性。举例来说，克洛斯拓扑可跨NOC呈现一致时延和对分带宽。

第一NOC 118可包含各种不同交换机类型，包含集线交换机、边缘交换机和端点交换机。交换机中的每一个可构造为在输入与输出节点之间提供基本上均一的时延和带宽的交叉开关。在实例中，端点交换机和边缘交换机可包含两个单独交叉开关，一个交叉开关的流量去往集线交换机，且另一交叉开关的流量远离集线交换机。集线交换机可构造为将所有输入切换到所有输出的单个交叉开关。

在实例中，集线交换机可例如取决于特定集线交换机是否参与芯片间通信而各自具有多个端口(例如，各自四个或六个端口)。参与芯片间通信的集线交换机的数目可由芯片间带宽要求设置。

第一NOC 118可支持计算元件与存储器之间的各种有效负荷(例如，8到64字节有效负荷；可类似地使用其它有效负荷大小)。在实例中，可针对相对较小有效负荷(例如，8到16字节)优化第一NOC 118，以有效地处置对稀疏数据结构的存取。

在实例中，第一NOC 118可经由第一物理层接口114、PCIe从属模块116或端点以及PCIe主模块126或根端口而耦合到外部主机。也就是说，第一物理层接口114可包含用以允许外部主机处理器耦合到第一存储器计算装置112的接口。外部主机处理器可例如使用PCIe交换机或其它本机协议交换机任选地耦合到一或多个不同存储器计算装置。通过基于PCIe的交换机与外部主机处理器的通信可将装置到装置通信限制于由交换机支持的装置到装置通信。相比之下，例如使用CTCPI的通过存储器计算装置本机协议交换机的通信可允许不同存储器计算装置之间或当中的更完全通信，包含对分区全局地址空间的支持，例如用于产生工作线程和发送事件。

在实例中，CTCPI协议可由第一存储器计算装置112中的第一NOC 118使用，且第一交换机110可包含CTCPI交换机。CTCPI交换机可允许CTCPI分组例如在不转换成另一分组格式的情况下从例如第一存储器计算装置112的源存储器计算装置传送到(例如，同一或另一节点上的)不同目的地存储器计算装置。

在实例中，第一存储器计算装置112可包含内部主机处理器122。内部主机处理器122可配置成例如使用内部PCIe主模块126来与第一NOC 118或第一存储器计算装置112的其它组件或模块通信，这可有助于消除将消耗时间和能量的物理层。在实例中，内部主机处理器122可基于RISC-V ISA处理器，且可使用第一物理层接口114来在第一存储器计算装置112外部传达，以便传达到第一存储器计算装置112的其它存储、联网或其它外围装置。内部主机处理器122可控制第一存储器计算装置112，且可充当用于操作系统相关功能性的代理。内部主机处理器122可包含相对较少数目的处理核心(例如，2到4个核心)和主机存储器装置124(例如，包括DRAM模块)。

在实例中，内部主机处理器122可包含PCI根端口。在内部主机处理器122处于使用中时，其根端口中的一个可连接到PCIe从属模块116。内部主机处理器122的根端口中的另一个可连接到第一物理层接口114，以便提供与外部PCI外围装置的通信。在内部主机处理器122停用时，PCIe从属模块116可耦合到第一物理层接口114以允许外部主机处理器与第一NOC 118通信。在具有多个存储器计算装置的系统的实例中，第一存储器计算装置112可配置成充当系统主机或控制器。在这一实例中，内部主机处理器122可处于使用中，且相应其它存储器计算装置中的内部主机处理器的其它例子可停用。

内部主机处理器122可配置在第一存储器计算装置112的加电处，以便允许主机初始化。在实例中，内部主机处理器122和其相关联数据路径(例如，包含第一物理层接口114、PCIe从属模块116等)可从输入引脚配置到第一存储器计算装置112。引脚中的一或多个可用于启用或停用内部主机处理器122且相应地配置PCI(或其它)数据路径。

在实例中，第一NOC 118可经由缩放网状架构接口模块136和第二物理层接口138耦合到缩放网状架构106。缩放网状架构接口模块136或SIF可促进第一存储器计算装置112与例如分区全局地址空间(PGAS)的装置空间之间的通信。PGAS可配置成使得例如第一存储器计算装置112的特定存储器计算装置可例如使用加载/存储范例存取不同存储器计算装置上的(例如，同一或不同节点上的)存储器或其它资源。可使用各种可缩放网状架构技术，包含CTCPI、CPI、Gen-Z、PCI或经由CXL桥接的以太网。缩放网状架构106可配置成支持各种分组格式。在实例中，缩放网状架构106支持无序分组通信，或支持有序分组，例如可使用路径识别符以跨多个等效路径扩展带宽。缩放网状架构106通常可支持远程操作，例如远程存储器读取、写入和其它内置原子、远程存储器原子、远程存储器计算装置发送事件以及远程存储器计算装置调用和返回操作。

在实例中，第一NOC 118可耦合到一或多个不同存储器模块，例如包含第一存储器装置128。第一存储器装置128可包含各种类型的存储器装置，例如LPDDR5或GDDR6等等。在图1的实例中，第一NOC 118可经由可专用于特定存储器模块的存储器控制器130协调与第一存储器装置128的通信。在实例中，存储器控制器130可包含存储器模块高速缓存和原子操作模块。原子操作模块可配置成提供相对较高处理量的原子操作符，例如包含整数和浮点操作符。原子操作模块可配置成将其操作符应用于存储器模块高速缓存(例如，包括SRAM存储器侧高速缓存)内的数据，由此允许使用同一存储器位置的背对背原子操作，其具有最小处理量降级。

存储器模块高速缓存可提供用于频繁存取的存储器位置的存储，例如不必重新存取第一存储器装置128。在实例中，存储器模块高速缓存可配置成仅针对存储器控制器130的特定例子高速缓存数据。在实例中，存储器控制器130包含DRAM控制器，其配置成与例如包含DRAM装置的第一存储器装置128介接。存储器控制器130可提供存取调度和位错误管理，以及其它功能。

在实例中，第一NOC 118可耦合到混合线程处理器(HTP 140)、混合线程网状架构(HTF 142)以及主机接口和分派模块(HIF 120)。HIF 120可配置成促进对基于主机的命令请求队列和响应队列的存取。在实例中，HIF 120可在HTP 140或HTF 142的处理器或计算元件上分派新执行线程。在实例中，HIF 120可配置成跨HTP 140模块和HTF 142模块维持工作负荷平衡。

混合线程处理器或HTP 140可包含加速器，例如可基于RISC-V指令集。HTP 140可包含高度线程化的事件驱动处理器，其中线程可在单个指令轮换中执行，以便维持高指令处理量。HTP 140包括相对较少的自定义指令以支持低开销线程化能力、事件发送/接收和共享存储器原子操作符。

混合线程网状架构或HTF 142可包含加速器，例如可包含非冯诺伊曼粗粒度可配置处理器。HTF 142可针对高级语言操作和数据类型(例如，整数或浮点)而优化。在实例中，HTF 142可支持数据流计算。HTF 142可配置成例如在执行存储器界定计算内核时使用第一存储器计算装置112上可用的基本上所有存储器带宽。

CNM系统102的HTP和HTF加速器可使用各种高级结构化编程语言来编程。举例来说，HTP和HTF加速器可使用C/C++(例如使用LLVM编译程序框架)来编程。HTP加速器可例如通过各种附加自定义指令集来利用开放源编译程序环境，所述各种附加自定义指令集配置成改进存储器存取效率、提供消息传递机构以及管理事件等等。在实例中，HTF加速器可设计成使用高级编程语言实现HTF 142的编程，且编译程序可产生在HTF 142硬件上运行的模拟器配置文件或二进制文件。HTF 142可提供中级语言以用于精确且简明地表达算法，同时隐藏HTF加速器自身的配置细节。在实例中，HTF加速器工具链可使用LLVM前端编译程序和LLVM中间表示(IR)来与HTF加速器后端介接。

图2通常说明根据实施例的存储器计算装置的存储器子系统200的实例。存储器子系统200的实例包含控制器202、可编程原子单元208和第二NOC 206。控制器202可包含或使用可编程原子单元208来使用存储器装置204中的信息实行操作。在实例中，存储器子系统200包括来自图1的实例的第一存储器计算装置112的一部分，例如包含第一NOC 118的或存储器控制器130的部分。

在图2的实例中，第二NOC 206耦合到控制器202，且控制器202可包含存储器控制模块210、本地高速缓存模块212和内置原子模块214。在实例中，内置原子模块214可配置成处置相对简单的单循环整数原子。内置原子模块214可在与例如正常存储器读取或写入操作相同的处理量下执行原子。在实例中，原子存储器操作可包含以下的组合：将数据存储到存储器，执行原子存储器操作，以及接着以从存储器加载数据来作出响应。

可提供例如可包含SRAM高速缓存的本地高速缓存模块212以有助于减小用于反复存取的存储器位置的时延。在实例中，本地高速缓存模块212可提供用于子存储器线存取的读取缓冲器。本地高速缓存模块212可尤其有利于具有相对较小或无数据高速缓存的计算元件。

例如可包含DRAM控制器的存储器控制模块210可提供低级请求缓冲和调度，以便提供对存储器装置204(例如可包含DRAM装置)的有效存取。在实例中，存储器装置204可包含或使用GDDR6 DRAM装置，例如具有16Gb密度和64Gb/秒峰值带宽。可类似地使用其它装置。

在实例中，可编程原子单元208可包括单循环或多循环操作符，例如可配置成执行整数加法或更复杂的多指令操作，例如布隆滤波器(bloom filter)插入。在实例中，可编程原子单元208可配置成执行加载和存储到存储器操作。可编程原子单元208可配置成通过专用指令集利用RISC-V ISA，以促进与控制器202的交互来以原子方式执行用户定义的操作。

可经由第二NOC 206和控制器202来将例如从节点上或节点外主机接收到的可编程原子请求路由到可编程原子单元208。在实例中，自定义原子操作(例如，由可编程原子单元208实行)可与内置原子操作(例如，由内置原子模块214实行)相同，不同之处在于可编程原子操作可由用户而非系统架构师定义或编程。在实例中，可编程原子请求分组可通过第二NOC 206发送到控制器202，且控制器202可将请求识别为自定义原子。控制器202可接着将所识别请求转发到可编程原子单元208。

图3通常说明根据实施例的供与存储器控制器一起使用的可编程原子单元302的实例。在实例中，可编程原子单元302可包括或对应于来自图2的实例的可编程原子单元208。也就是说，图3说明可编程原子单元(PAU)302的实例中的组件，例如上文相对于图2(例如，可编程原子单元208中的)或相对于图1(例如，存储器控制器130的原子操作模块中的)提及的组件。如图3中所说明，可编程原子单元302包含PAU处理器或PAU核心306、PAU线程控制304、指令SRAM 308、数据高速缓存器310和存储器接口312以与存储器控制器314介接。在实例中，存储器控制器314包括来自图2的实例的控制器202的实例。

在实例中，PAU核心306为流水线处理器，使得不同指令的多个阶段在每时钟周期一起执行。PAU核心306可包含桶形多线程处理器，其中线程控制304电路系统在每一时钟周期后在不同寄存器堆(例如，含有当前处理状态的寄存器集)之间切换。这实现了当前执行线程之间的高效上下文切换。在实例中，PAU核心306支持八个线程，从而产生八个寄存器堆。在实例中，寄存器堆中的一些或全部不集成到PAU核心306中，而是实际上驻留在本地数据高速缓存器310或指令SRAM 308中。这通过消除用于这类存储器中的寄存器的传统触发器来减小PAU核心306的电路复杂性。

本地PAU存储器可包含指令SRAM 308，例如可包含用于各种原子的指令。指令包括用以支持各种应用加载的原子操作符的指令集。在例如由应用小芯片请求原子操作符时，对应于原子操作符的指令集由PAU核心306执行。在实例中，可将指令SRAM 308分区以建立指令集。在此实例中，由请求过程请求的特定可编程原子操作符可通过分区号识别可编程原子操作符。在利用可编程原子单元302登记(例如，加载到其上)可编程原子操作符时，可建立分区号。用于可编程指令的其它元数据可存储在可编程原子单元302本地的存储器中的存储器(例如，在分区表中)中。

在实例中，原子操作符操纵数据高速缓存器310，在用于原子操作符的线程完成时，所述数据高速缓存器310通常被同步(例如，刷新)。因此，除从例如存储器控制器314的外部存储器初始加载以外，在可编程原子操作符线程的执行期间，对于大多数存储器操作，时延可减小。

如果潜在的危险条件将阻止存储器请求，那么在执行线程尝试发出这类请求时，流水线处理器(例如PAU核心306)可经历问题。此处，存储器请求是从存储器控制器314检索数据，无论其是来自存储器控制器314上的高速缓存还是裸片外存储器。为解决这一问题，PAU核心306配置成拒绝对线程的存储器请求。通常，PAU核心306或线程控制304可包含用以启用流水线中的一或多个线程重新调度点的电路系统。此处，拒绝发生在流水线中这些线程重新调度点之外(例如，之后)的点处。在实例中，危险发生在重新调度点之外。此处，在存储器请求指令通过可做出存储器请求的流水线阶段之前的最后一个线程重调度点之后，线程中的前一指令创建了危险。

在实例中，为拒绝存储器请求，PAU核心306配置成确定(例如，检测)存储器请求中指示的存储器上存在危险。此处，危险表示允许(例如，执行)存储器请求将引起线程的不一致状态的任何条件。在实例中，危险是进行中的存储器请求。此处，无论数据高速缓存器310是否包含所请求的存储器地址的数据，进行中的存储器请求的存在使得不确定数据高速缓存器310中所述地址处的数据应是什么。因此，线程必须等待进行中的存储器请求完成以对当前数据操作。在存储器请求完成时，清除危险。

在实例中，危险是数据高速缓存器310中用于所请求的存储器地址的脏高速缓存行。虽然脏高速缓存行通常指示高速缓存中的数据为当前的且这类数据的存储器控制器版本不为当前的，但在并不从高速缓存操作的线程指令上可出现问题。这种指令的实例使用存储器控制器314的内置原子操作符或其它单独硬件块。在存储器控制器的上下文中，内置原子操作符可与可编程原子单元302分离，且并不对PAU内部的数据高速缓存器310或指令SRAM 308进行存取。如果高速缓存行为脏的，那么内置原子操作符将不对最新数据进行操作，直到数据高速缓存器310刷新以使高速缓存与另一或裸片外存储器同步为止。这种相同情形可利用存储器控制器的其它硬件块(例如加密块、编码器等)发生。

图4说明混合线程处理器(HTP)加速器或HTP加速器400的实例。HTP加速器400可包括根据实施例的存储器计算装置的一部分。在实例中，HTP加速器400可包含或包括来自图1的实例的HTP 140。HTP加速器400包含例如HTP核心402、指令高速缓存器404、数据高速缓存器406、转译块408、存储器接口410和线程控制器412。HTP加速器400可另外包含例如用于与NOC介接的分派接口414和NOC接口416，所述NOC例如来自图1的实例的第一NOC 118、来自图2的实例的第二NOC 206或其它NOC。

在实例中，HTP加速器400包含基于RISC-V指令集的模块，且可包含相对较少数目的其它或额外自定义指令以支持低开销的具有线程化功能的混合线程(HT)语言。HTP加速器400可包含高度线程化处理器核心，HTP核心402，在所述HTP核心402中或利用所述HTP核心402，线程可在单个指令轮换中执行，以便维持高指令处理量。在实例中，线程可在其等待其它待决事件完成时暂停。这可允许计算资源有效地用于相关工作，而不是轮询。在实例中，多线程障碍同步可使用有效HTP到HTP和HTP到/从主机消息传送，例如可允许数千线程在例如数十个时钟周期中初始化或唤醒。

在实例中，分派接口414可包括用于处置基于硬件的线程管理的HTP加速器400的功能块。也就是说，分派接口414可管理对HTP核心402或其它加速器的工作的分派。然而，非HTP加速器通常不能够分派工作。在实例中，从主机分派的工作可使用驻留在例如主机主存储器(例如，基于DRAM的存储器)中的分派队列。另一方面，从HTP加速器400分派的工作可使用驻留于SRAM中的分派队列，例如在用于特定节点内的目标HTP加速器400的分派内。

在实例中，HTP核心402可包括代表线程执行指令的一或多个核心。也就是说，HTP核心402可包含指令处理块。HTP核心402可另外包含或可耦合到线程控制器412。线程控制器412可针对HTP核心402内的每一活动线程提供线程控制和状态。数据高速缓存器406可包含用于主机处理器(例如，用于本地和远程存储器计算装置，包含用于HTP核心402)的高速缓存，且指令高速缓存器404可包含供HTP核心402使用的高速缓存。在实例中，数据高速缓存器406可配置成用于读取和写入操作，且指令高速缓存器404可配置成用于仅读取操作。

在实例中，数据高速缓存器406为每硬件线程提供的小高速缓存。数据高速缓存器406可临时存储供拥有线程使用的数据。数据高速缓存器406可由HTP加速器400中的硬件或软件管理。举例来说，硬件可配置成在加载和存储操作由HTP核心402执行时视需要自动地分配或逐出线。例如使用RISC-V指令的软件可确定应高速缓存哪一存储器存取，以及线应失效或写回到其它存储器位置的时间。

在HTP加速器400上高速缓存的数据具有各种益处，包含使存储器控制器的存取更有效，从而允许执行线程避免停滞。然而，在使用高速缓存时存在导致低效率的情形。实例包含其中仅存取数据一次的存取，且导致高速缓存行的颠簸(thrashing)。为有助于解决这一问题，HTP加速器400可使用自定义加载指令集来促使加载指令检查高速缓存命中，且在高速缓存未命中时发出对所请求操作数的存储器请求且不将所获得数据放置在数据高速缓存器406中。因此，HTP加速器400包含各种不同类型的加载指令，包含非高速缓存和高速缓存行加载。如果脏数据存在于高速缓存中，那么非高速缓存的加载指令使用高速缓存的数据。非高速缓存的加载指令忽略高速缓存中的干净数据，且并不将所存取数据写入到数据高速缓存。对于高速缓存行加载指令，可将完整数据高速缓存行(例如，包括64字节)从存储器加载到数据高速缓存器406中，且可将所寻址存储器加载到指定寄存器中。如果干净或脏数据处于数据高速缓存器406中，那么这些加载可使用高速缓存的数据。如果所参考存储器位置不处于数据高速缓存器406中，那么可从存储器存取整个高速缓存行。在参考循序存储器位置(例如存储器复制操作)时，高速缓存行加载指令的使用可减少高速缓存未命中，但如果不使用所参考存储器数据，那么还可浪费NOC接口416处的存储器和带宽。

在实例中，HTP加速器400包含非高速缓存的自定义存储指令。非高速缓存的存储指令可有助于利用并未循序地写入到存储器的写入数据来避免使数据高速缓存器406颠簸。

在实例中，HTP加速器400另外包含转译块408。转译块408可包含用于存储器计算装置的本地存储器的虚拟到物理转译块。举例来说，例如HTP核心402中的主机处理器可执行加载或存储指令，且指令可产生虚拟地址。可例如使用来自转译块408的转译表来将虚拟地址转译为主机处理器的物理地址。举例来说，存储器接口410可包含HTP核心402与NOC接口416之间的接口。

HTP加速器400可处理数个线程以完成CNM节点上的存储器计算装置内的多个计算任务。因此，在HTP加速器400上实施无阻挡外部装置调用可提供上文所描述的增加线程处理输贯量的益处。也就是，当线程指示特定调用是无返回请求，且硬件支持这类请求时，相同硬件资源可在给定时间单位内执行更多线程指令。在可能跨若干节点分散的数个存储器计算装置的上下文中，这类效率可对总体系统效率提供显著的正面影响。

HTP加速器400可被配置成实施无阻挡外部装置调用。无阻挡外部装置调用启用HTP加速器400上的线程执行以将对存储器的调用指定为例如无阻挡(例如，无等待)。因此，HTP核心402或线程控制器412可被配置成在做出所述请求之后重新调度线程而无需等待对所述请求的响应。通常，外部装置调用是外部装置处的处理请求。因此，当做出对存储器的调用时，通常，相较于读取(例如，其中需要返回)或写入(例如，其中通常不返回数据)，所述调用将针对原子操作。外部装置调用还可包含对另一HTPO加速器的调用以开始线程、另一节点的远程程序请求等。

具体地，HTP核心402被配置成从指向装置的线程接收指令。此装置具有时延以使得HTP加速器将需要暂停线程以等待普通情形下的指令完成。通常，这类请求是在HTP加速器400外部，例如在存储器、另一HTP加速器、HTF或通过NOC接口416存取的其它装置外部。然而，可有可能HTP核心402外部的HTP加速器400的一些未说明的组件可援引这类时延情境。在任何情况下，线程的指令或调用通常涉及使线程进入睡眠(例如，不重新调度线程的另外指令)直到接收到对指令的响应。然而，如果指令具有无返回指示，那么一旦指令被执行(例如，一旦HTP核心402停止发到存储器接口410、NOC接口416等的请求)，HTP核心402或线程控制器412便使得线程能够继续执行。在实例中，所述指示是状态变量或指令外部的其它锁存或触发。在实例中，无返回指示包含在指令中。此实例涉及特定指令(例如，EXTERN_REQ_NO_RETURN对EXTERN_REQ)、字段、旗标，或用信号表示此为无返回指令的其它位。在实例中，无返回指示包含在指令的字段中。在实例中，无返回指示是单个位。在实例中，单个位是指令的操作代码字段中的数个位中的一个位。

如上所述，指令指向的装置可为存储器控制器，例如存储器控制器200。在实例中，指令是原子操作。在实例中，原子操作是可编程原子操作。这类指令是涉及时延超出线程指令的常见时延并且传统上涉及暂停调用线程的所有实例。

当HTP加速器400，例如HTP核心402检测到无返回指示时，基于无返回指示增加对应于线程的计数器。计数器可以是HTP核心402、线程控制器412、存储器接口410或HTP加速器的另一组件的部分。对于以下实例，计数器是线程控制器412的部分。如上所述，计数器特定于线程并且递增一以维持未完成的无返回请求的计数。虽然以下实例以零开始计数器并且在执行每个无返回指令时递增一，在接收到对指令的每个返回时递减一，但可使用其它编号系统。然而，调整计数器以计及将以相同方式操作的未处理的指令(例如，已经产生但尚未完成的那些请求)。

归因于指令中存在无返回指示，线程控制器412(或在一些情况下，HTP核心402)被配置成继续线程的执行而无需等待从装置返回。通常，使得线程能够继续执行涉及将线程放回到HTP核心402的调度表中。因此，线程不阻挡(例如，暂停、进入睡眠等)对请求结果的等待。在实例中，继续线程执行包含将线程的识别符放置到HTP核心402的准备好运行队列或其它线程指令调度装置中。不管实施方案如何，线程可继续执行就好像指令发到装置与指令已发到HTP核心402的抽取逻辑单元(ALU)的情况一样。

HTP核心402被配置成基于接收到对指令的返回值而使计数器递减(例如，减小)。所述返回可为关于指令是否成功地执行的指示。所述返回值还可包含数据。因此，举例来说，返回值可为原子操作的结果，例如来自存储器的读取数据原子操作并且增加一。在实例中，返回值在不包含原子操作的结果的情况下指示原子操作是否成功地完成。在任一情况下，返回值用信号通知HTP加速器400指令完成，且计数器递减。

在实例中，接收返回值(例如，通过处理电路系统)并将其丢弃。丢弃返回值可减少HTP加速器400的不必要操作。举例来说，在典型(例如，不存在无返回指示)指令序列中，将结果置于寄存器中以供线程使用。然而，由于线程已指示返回并非有用的，因此存储返回值涉及不成功的处理，这是因为线程将不使用所述值。通常，在接收管线中越早可丢弃返回值越好。因此，当不返回非所需数据时，丢弃返回值可释放通信资源(例如，总线或网络上的带宽)。在此情况下，仅省略返回值的数据，不省略请求的结果(例如，退出代码)。这使得计数器能够在所述请求完成时递减。

在实例中，计数器是用于线程的发到处理电路系统外部的装置的每个无返回指令的唯一计数器。因此，HTP加速器400仅维持一个用于每个(当前)线程的计数器。因此，如果线程针对第一存储器控制器执行存储器请求并且针对第二存储器控制器执行可编程原子操作，那么单个计数器递增两次。在实例中，可维持用于每一装置的单独计数器。因此，在以上实例中，两个计数器将各自递增一次。通常，每线程的计数器数目是固定的。因此，在每装置计数器布置中，如果支持三个装置，那么每个线程将具有三个计数器。然而，在大CNM系统中，可能是不可能预先知道线程可做出对多少个装置的请求，或维持用于这些装置中的每一个的计数器可为不切实际的。为了解决此问题，每装置类型(和线程)还可使用单独计数器。通常，单个计数器足以确认线程是否处于与退出一致的状态中。额外计数器使复杂性增加，这在一些情况下可提供更大灵活性，例如使得线程能够在某些情况下，即使存在未处理的(例如，未完成的)请求仍能退出。举例来说，在关机程序期间，可阻止当存在对存储器或存储的未处理的请求时退出线程，但可在存在对传感器系统的未处理的请求的情况下退出线程，这是因为传感器系统不维持状态并且作为关机的部分，将丢失状态。可通过多种分类来定义装置类型。举例来说，可使用如存储、致动器、传感器等的分类。装置类型还可更具体，例如易失性存储器、非易失性存储器等。

在计数器回到其初始(例如，空的)状态(例如，零处)之前，HTP加速器400(例如，HTP核心402或线程控制器412)阻止线程完成。举例来说，在一些架构中，，线程可执行最后一个指令(例如，ETR)以指示线程完成。在此实例中，在计数器回到零处之前将不调度最后一个指令。还可使用其它技术，例如在线程的最终指令之后暂停线程直到计数器回到其初始状态为止。在任何情况下，在仍存在未处理的对线程发出的指令的返回值时阻止线程完成。一旦计数器到达其初始状态，线程的数据或动作的一致性相当于线程从未发出无阻挡请求，且线程可在无任何其它必须考虑线程使用无阻挡请求的事实的实体下退出。

下文是在关于图1-4描述的架构的上下文中包含无返回指示的指令的实例。举例来说，浮点存储器原子指令。浮点原子存储器操作可发送到具有内置式原子的存储器控制器。执行的浮点操作可为针对32位数据类型和64位数据类型两者的MIN、MAX和ADD。

以下是指令格式的实例：

HTP浮点原子指令可指定用于操作的数个参数。下表列举参数的实例：

假设nr指令位未经设置，结果值写入到F寄存器rd。

以下是用于线程的实例汇编指令，包含返回指示和无返回指示两者：

在实例中，原子指令具有以下可能的陷阱：

另一类型的指令是可编程原子存储器(PMA)指令。HTP加速器400可将可编程原子存储器操作发到位于存储器控制器内的PAU。通常，如上所述，当应用程序指向PMA例程时，通过操作系统加载所述PMA例程。PMA例程加载到PAU指令RAM中。PAU指令RAM分割成固定大小的片段。PMA例程加载到由例程的大小决定的一或多个分区中。操作系统确定例程加载的分区并且初始化每个HTP加速器内的映射表。当HTP加速器400执行PMA指令时引用映射表以确定PAU上的分区进而开始执行可编程原子例程。引用未初始化的可编程原子映射表条目的HTP PMA指令的执行产生陷阱。所描述的机制将PAU系统范围的资源虚拟化。

下图说明PMA指令格式的实例：

在实例中，PMA指令可包含用于可编程原子操作的数个参数。下表列举这些参数中的一些：

在实例中，从PAM例程返回的结果值的数目可以在0-2的范围内。返回值的数目可由PAM例程的初始化指令指定。在实例中，当nr指令位未经设置时，结果值写入到寄存器a0-a1。

执行PAM指令的实例汇编：

EAC.C0 rs1#零调用变量参数，等待结果，松弛的一致性

EAC.C4.NR.AQRL rs1#四个调用变量参数，不等待，强一致性

cc字段用于指定变量参数的数目(0、1、2或4)。下表示出编码。

可编程原子指令调用变量参数计数后缀：

可编程原子指令无返回后缀：

可编程原子指令可具有以下陷阱：

在这些实例中，保存指示存储器存取指令的响应值不被需要的经解码旗标，并且当HTP加速器400接收到响应时将所述经解码旗标用以禁止响应值写入到通用寄存器。再次，维持未处理的无返回存储器响应的数目的计数并将其用以禁止线程完成以确保父级线程将恰当地看见存储器中的正确结果。

这些无阻挡外部装置技术提供借以在维持线程之间的数据一致性的同时减少多种架构中的不必要线程暂停的最佳机制。图5和6说明有关无阻挡外部装置调用的一些额外实例细节。

图5说明根据实施例的在处理器中在对外部装置的无阻挡调用下的线程执行的实例。图5从上文关于HTP加速器400所描述的那些组件中减少组件，以便说明无阻挡调用技术可应用于多种处理器架构。此处，处理器502包含执行设备508(例如一或多个ALU、执行单元(EU)、寄存器、指针、计数器、累加器、处理管线组件等)、一或多个装置(例如，存储器、存储器控制器、传感器等)的外部接口510。处理器说明为具有调度线程的准备好运行队列518，不过可使用其它线程调度设备。

当实施对装置516的非计时调用时，在处理器502上执行线程504，线程504遵循通过执行设备508以对装置516做出(例如，执行、请求等)无阻挡调用的概念路径506。调用(例如，指令)进入外部接口510，其中举例来说，指令在到达装置516的传送(例如，CPI包、总线传输等)中经转换。响应于所述传送，装置516提供返回值(例如，调用是否成功、数据等)以形成交换514。时间段518表示完成交换514的时间。

当所述调用是无阻挡(例如，无返回)调用时，处理器502在调用执行时立即将线程504放置到准备好运行队列518中。相比之下，在传统的方案中或如果线程504不指示调用无阻挡，那么处理器502将暂停线程504达时间段518以完成装置516的交换514。

为了维持线程504和处理器502的其它行动者之间的数据一致性，处理器502维持计数器512跟踪多少个交换514针对线程504已开始但尚未完成。因此，当线程504做出无阻挡调用时。处理器502使计数器512递增。当接收到完成交换514的返回值时，处理器502使计数器512递减。如果计数器512初始化为零，针对穿过外部接口510的线程504的调用而递增一，并且针对在外部接口510处接收到的每个返回值而递减一，那么当计数器高于零时，处理器502阻止线程完成(例如，退出)。

虽然无阻挡调用并非始终是适当的，例如当线程504将未来指令应用于从装置516检索的数据时，启用无阻挡调用会使这些调用中的每一个的线程执行时延减少达s时间段518。在具有许多线程的环境中，这类节约可为显著的。

图6说明根据实施例的对外部装置的有阻挡调用的操作序列与对外部装置的无阻挡调用的操作序列的对比的实例。开始为在线程处做出对存储器的标准(例如，有阻挡或返回)请求(1.)并且接着暂停(2.)。处理器执行存储器请求(3.)。存储器接收请求(4.)并且从请求完成返回结果(5.)。如上所述，此结果大体上包含请求状态(例如，成功完成、失败、错误码等)并且还可包含数据(例如，在请求中指定的存储器地址处的位)。一旦处理器接收到结果(6.)，线程便重新开始(7.)并且继续进行额外指令。

如所说明，线程的下一指令是无返回存储器请求(8.)，例如在存储器处执行原子操作。如同标准请求一样，由处理器执行无返回请求(10.)。然而，线程立即继续下一指令(9.)且处理器使未处理的无返回请求计数器增加(11.)。

再次，存储器接收到请求(12.)并且返回结果(14.)。在实例中，所述请求指示其为对存储器的无返回请求。在此实例中，存储器可忽略结果中原本可能被包含的数据。这可消除对不供线程使用的数据的不必要传送。如所说明，在存储器返回结果(14.)之前，线程尝试终止(13.)。处理器由于计数指示未处理请求而阻止成功终止。然而，一旦处理器接收到结果，处理器便使计数递减(15.)到零并且使得线程能够成功地终止(16.)。

图7说明根据实施例的存储器计算装置的混合线程网状架构(HTF)或HTF 700的表示的实例。在实例中，HTF 700可包含或包括来自图1的实例的HTF 142。HTF 700为粗粒度可配置计算网状架构，其可针对高级语言操作数类型和操作符(例如，使用C/C++或其它高级语言)而优化。在实例中，HTF 700可包含互连硬化SIMD算术单元的可配置n位宽(例如，512位宽)数据路径。

在实例中，HTF 700包括HTF集群702，其包含多个HTF拼片，包含实例拼片704或拼片(Tile)N。每一HTF拼片可包含具有本地存储器和算术功能的一或多个计算元件。举例来说，每一拼片可包含具有对整数和浮点操作的支持的计算流水线。在实例中，数据路径、计算元件和其它基础结构可实施为硬化IP以提供最大性能，同时使功率消耗和重新配置时间最小化。

在图7的实例中，包括HTF集群702的拼片线性地布置，且集群中的每一拼片可耦合到HTF集群702中的一或多个其它拼片。在图7的实例中，实例拼片704或拼片N耦合到四个其它拼片，包含经由标记为SF IN N-2的端口耦合到基础拼片710(例如，拼片N-2)，经由标记为SF IN N-1的端口耦合到相邻拼片712(例如，拼片N-1)以及经由标记为SF IN N+1的端口耦合到拼片N+1，以及经由标记为SF IN N+2的端口耦合到拼片N+2。实例拼片704可经由相应输出端口(例如标记为SF OUT N-1、SF OUT N-2、SF OUT N+1和SF OUT N+2的端口)耦合到相同或其它拼片。在这一实例中，各种拼片的有序名称列表是拼片的定位的概念指示。在其它实例中，包括HTF集群702的拼片可布置在栅格或其它配置中，其中每一拼片类似地耦合到其在栅格中的最接近相邻者中的一个或几个。设置在集群的边缘处的拼片可任选地具有较少与相邻拼片的连接。举例来说，拼片N-2或图7的实例中的基础拼片710可仅耦合到相邻拼片712(拼片N-1)且耦合到实例拼片704(拼片N)。可类似地使用较少或额外拼片间连接。

HTF集群702可另外包含存储器接口模块，其包含第一存储器接口模块706。存储器接口模块可将HTF集群702耦合到NOC，例如第一NOC 118。在实例中，存储器接口模块可允许集群内的拼片对存储器计算系统中(例如系统中的相同或不同节点中)的其它位置作出请求。也就是说，HTF 700的表示可包括可跨多个节点分布的更大网状架构的一部分，例如在节点中的每一个处具有一或多个HTF拼片或HTF集群。可在更大网状架构的上下文内的拼片或节点之间作出请求。

在图7的实例中，使用同步网状架构(SF)耦合HTF集群702中的拼片。同步网状架构可提供HTF集群702中的特定拼片与其相邻拼片之间的通信，如上文所描述。每一HTF集群702可另外包含异步网状架构(AF)，所述异步网状架构可提供例如集群中的拼片、集群中的存储器接口以及集群中的分派接口708当中的通信。

在实例中，同步网状架构可交换包含数据和控制信息的消息。控制信息除其它事项之外还可包含指令RAM地址信息或线程识别符。控制信息可用于设置数据路径，且可选择数据消息字段作为路径的源。通常，可较早地提供或接收控制字段，使得其可用于配置数据路径。举例来说，为有助于最小化通过拼片中的同步域流水线的任何延迟，控制信息可在数据字段之前若干时钟周期到达拼片。可提供各种寄存器以有助于协调流水线中的数据流定时。

在实例中，HTF集群702中的每一拼片可包含多个存储器。每一存储器可具有与数据路径相同的宽度(例如，512位)，且可具有例如介于512到1024个要素范围内的指定深度。拼片存储器可用于存储支持数据路径操作的数据。举例来说，所存储的数据可包含作为内核的集群配置的部分加载的常量，或可包含计算为数据流的部分的变量。在实例中，拼片存储器可作为来自另一同步域的数据传送而从异步网状架构写入，或可包含例如由另一同步域发起的加载操作的结果。可经由同步域中的同步数据路径指令执行读取拼片存储器。

在实例中，HTF集群702中的每一拼片可具有专用指令RAM(INST RAM)。在具有十六个拼片的HTF集群702和具有六十四个条目的指令RAM例子的实例中，集群可允许映射具有多达1024个相乘-移位和/或ALU操作的算法。各种拼片可例如使用同步网状架构任选地一起流水线化，以允许利用最小存储器存取的数据流计算，因此使时延最小化且减小功率消耗。在实例中，异步网状架构可允许存储器参考与计算并行地继续进行，由此提供更有效的流式传输内核。在实例中，各种拼片可包含对基于循环的构造的内置支持，且可支持嵌套循环内核。

同步网状架构可允许多个拼片流水线化，例如不需要数据队列。参与同步域的拼片可例如充当单个流水线化数据路径。同步域的第一或基础拼片(例如，拼片N-2，在图7的实例中)可通过流水线化拼片发起工作线程。基础拼片可负责在本文中称为辐条计数(Spoke Count)的预定义节拍(cadence)上开始工作。举例来说，如果辐条计数为3，那么基础拼片可每隔两个时钟周期发起工作。

在实例中，同步域包括HTF集群702中的已连接拼片集合。线程的执行可在域的基础拼片处开始，且可经由同步网状架构从基础拼片前进到同一域中的其它拼片。基础拼片可提供待针对第一拼片执行的指令。第一拼片可默认地提供用于待执行的另一已连接拼片的相同指令。然而，在一些实例中，基础拼片或后续拼片可条件性地指定或使用替代指令。替代指令可通过使拼片的数据路径产生布尔(Boolean)条件值来选择，且接着可使用布尔值来在当前拼片的指令集与交替指令之间进行选择。

异步网状架构可用于执行相对于同步域异步地发生的操作。HTF集群702中的每一拼片可包含到异步网状架构的接口。入接口可包含例如FIFO缓冲器或队列(例如，AF INQUEUE)，以针对无法立即处理的消息提供存储。类似地，异步网状架构的出接口可包含FIFO缓冲器或队列(例如，AF OUT QUEUE)，以针对无法立即发出的消息提供存储。

在实例中，异步网状架构中的消息可分类为数据消息或控制消息。数据消息可包含写入到拼片存储器0(MEM_0)或存储器1(MEM_1)的SIMD宽度数据值。控制消息可配置成控制线程创建、释放资源或发出外部存储器参考。

HTF集群702中的拼片可执行用于HTF的各种计算操作。可通过配置拼片内的数据路径来执行计算操作。在实例中，拼片包含执行用于拼片的计算操作的两个功能块：乘法和移位操作块(MS OP)以及算术、逻辑和位操作块(ALB OP)。两个块可配置成执行流水线操作，例如乘法和相加，或移位和相加等等。

在实例中，系统中的存储器计算装置的每一例子可具有用于其操作符块(例如，MSOP和ALB OP)的完整支持指令集。在这种情况下，可跨系统中的所有装置实现二进制兼容性。然而，在一些实例中，可有助于维持基础功能性集合和任选指令集类别，以便满足各种设计折衷，例如裸片大小。方法可与RISC-V指令集具有基础集合和多个任选指令子集的方式类似。

在实例中，实例拼片704可包含辐条RAM。辐条RAM可用于指定哪一输入(例如，来自四个SF拼片输入和基础拼片输入当中)为用于每一时钟周期的主输入。辐条RAM读取地址输入可起源于从零计数到辐条计数减去一的计数器。在实例中，不同辐条计数可用于例如同一HTF集群702内的不同拼片，以允许由内循环使用的数个图块或独特拼片例子确定特定应用程序或指令集的性能。在实例中，辐条RAM可指定同步输入将写入到拼片存储器的时间，例如使用用于特定拼片指令的多个输入以及输入中的一个在其它输入之前到达的时间。较早到达输入可写入到拼片存储器，且可稍后在所有输入可用时读取。在这一实例中，拼片存储器可存取为FIFO存储器，且FIFO读取和写入指针可存储在拼片存储器中的基于寄存器的存储器区或结构中。

图8A和图8B大体说明可用于实施CNM系统102的一或多个方面的小芯片系统的实例。如上文类似地提及，CNM系统102中的节点或CNM系统102中的节点内的装置可包含基于小芯片的架构或近存储器计算(CNM)小芯片。封装的存储器计算装置可包含例如一个、两个或四个CNM小芯片。小芯片可使用高带宽、低时延互连件(例如使用CPI接口)互连。通常，小芯片系统由离散模块(各自被称为“小芯片”)构成，所述离散模块集成在中介层上，并且在许多实例中视需要通过一或多个已建立网络互连，以向系统提供所要功能性。中介层和所包含的小芯片可封装在一起，以便于与较大系统的其它组件互连。每一小芯片可包含一或多个个别集成电路(IC)或“芯片”，其可能与离散电路组件组合，且可耦合到相应衬底以便于附接到中介层。系统中的大多数或所有小芯片可个别地配置成用于通过已建立的网络进行通信。

小芯片作为系统的个别模块的配置不同于在单芯片上实施的此系统，所述芯片在一个衬底(例如单个裸片)上含有不同装置块(例如，知识产权(IP)块)，例如芯片上系统(SoC)，或集成在印刷电路板(PCB)上的多个离散封装装置。一般来说，小芯片提供比离散封装装置更好的性能(例如，更低的功率消耗、减少的时延等)，并且小芯片提供比单裸片芯片更大的生产效益。这些生产效益可包含更高的良率或减少的开发成本和时间。

小芯片系统可包含例如一或多个应用(或处理器)小芯片和一或多个支持小芯片。此处，应用小芯片与支持小芯片之间的区别只是对小芯片系统可能的设计情境的参考。因此，举例来说，合成视觉小芯片系统可包含(仅借助于实例)用以产生合成视觉输出的应用小芯片，以及例如存储器控制器小芯片、传感器接口小芯片或通信小芯片等支持小芯片。在典型的用例中，合成视觉设计者可设计应用程序小芯片并且从其它方获取支持小芯片。因此，由于避免设计和生产支持小芯片中所体现的功能性，因此减少了设计支出(例如，在时间或复杂性方面)。

小芯片还支持原本可能很困难的IP块紧密集成，例如使用不同处理技术或使用不同特征大小(或利用不同的接触技术或间距)制造的IP块。因此，可以模块化方式组装具有不同物理、电气或通信特性的多个IC或IC组合件，以提供具有各种所要功能的组合件。小芯片系统还可促进调适以适应将并入有小芯片系统的不同较大系统的需要。在实例中，IC或其它组合件可针对特定功能的功率、速度或发热进行优化，如同传感器可能发生的情况一样，相比于在单个裸片上尝试与其它装置集成，所述IC或其它组件可更容易地与其它装置集成。另外，通过减小裸片的整体大小，小芯片的良率往往高于更复杂的单裸片装置的良率。

图8A和图8B大体说明根据实施例的小芯片系统的实例。图8A是安装在外围板804上的小芯片系统802的表示，所述外围板804可例如通过高速外围组件互连(PCIe)连接到更广泛的计算机系统。小芯片系统802包含封装衬底806、中介层808和四个小芯片，应用程序小芯片810、主机接口小芯片812、存储器控制器小芯片814和存储器装置小芯片816。其它系统可包含许多额外小芯片以提供额外功能，如将从以下论述中显而易见。小芯片系统802的封装以封盖或盖板818说明，但可使用用于小芯片系统的其它封装技术和结构。图8B是出于清楚起见标记小芯片系统中的组件的框图。

应用小芯片810说明为包含用以支持用于小芯片间通信的小芯片网络822的小芯片系统NOC 820。在实例实施例中，小芯片系统NOC 820可包含于应用小芯片810上。在实例中，可响应于选定的支持小芯片(例如，主机接口小芯片812、存储器控制器小芯片814和存储器装置小芯片816)而定义来自图1的实例的第一NOC 118，因此使得设计者选择用于小芯片系统NOC 820的适当数目或小芯片网络连接或交换机。在实例中，小芯片系统NOC 820可位于单独小芯片上或中介层808内。在如本文中所论述的实例中，小芯片系统NOC 820实施小芯片协议接口(CPI)网络。

在实例中，小芯片系统802可包含或包括第一存储器计算节点104或第一存储器计算装置112的一部分。也就是说，第一存储器计算装置112的各种块或组件可包含可安装于外围板804、封装衬底806和中介层808上的小芯片。第一存储器计算装置112的接口组件通常可包括主机接口小芯片812，第一存储器计算装置112的存储器和存储器控制相关组件通常可包括存储器控制器小芯片814，第一存储器计算装置112的各种加速器和处理器组件通常可包括应用小芯片810或其例子等。

例如可用于系统中的小芯片之间或当中的通信的CPI接口为分组网络，其支持虚拟信道以实现小芯片之间的灵活且高速交互。CPI实现了从小芯片内网络到小芯片网络822的桥接。举例来说，高级可扩展接口(AXI)为设计芯片内通信的广泛使用的规范。然而，AXI规范涵盖大量的物理设计选项，如物理信道的数目、信号定时、功率等。在单芯片内，通常选择这些选项以满足设计目标，例如功率消耗、速度等。然而，为了实现小芯片系统的灵活性，使用如CPI等适配器在可实施于各种小芯片中的各种AXI设计选项之间介接。通过实现物理信道到虚拟信道的映射且利用包化协议包封基于时间的信令，CPI跨小芯片网络822桥接小芯片内网络。

CPI可利用多种不同的物理层来发射包。物理层可包含简单的导电连接，或可包含驱动器以增大电压，或以其它方式促进在较长距离内发射信号。这类物理层的实例可包含高级接口总线(AIB)，其在各种实例中可在中介层808中实施。AIB使用具有转发时钟的源同步数据传送来发射和接收数据。以单数据速率(SDR)或双倍数据速率(DDR)相对于所发射的时钟跨AIB传送包。AIB支持各种信道宽度。信道可配置成具有对称数目的发射(TX)和接收(RX)输入/输出(I/O)，或者具有非对称数目的发射器和接收器(例如，所有发射器或所有接收器)。信道可取决于哪一个小芯片提供主时钟而充当AIB主体或从属。AIB I/O单元支持三个计时模式：异步(即，非计时)、SDR和DDR。在各种实例中，非计时模式用于时钟和一些控制信号。SDR模式可使用专用的仅SDR I/O单元，或双重用途SDR/DDR I/O单元。

在实例中，CPI包协议(例如，点到点或可路由)可在AIB信道内使用对称的接收和发射I/O单元。CPI串流协议允许更灵活地利用AIB I/O单元。在实例中，流模式的AIB信道可将I/O单元配置为全部为TX、全部为RX或一半为TX且一半为RX。CPI包协议可在SDR或DDR操作模式下使用AIB信道。在实例中，AIB信道针对SDR模式以80个I/O单元(即，40个TX和40个RX)的增量配置，并且针对DDR模式以40个I/O单元的增量配置。CPI串流协议可在SDR或DDR操作模式下使用AIB信道。此处，在实例中，AIB信道针对SDR和DDR模式两者以40个I/O单元为增量。在实例中，向每一AIB信道分配唯一的接口识别符。所述识别符在CPI复位和初始化期间用于确定跨邻近小芯片的成对AIB信道。在实例中，接口识别符为包括七位小芯片识别符、七位列识别符和六位链路识别符的20位值。AIB物理层使用AIB带外移位寄存器来发射接口识别符。使用移位寄存器的位32到51跨越AIB接口在两个方向上传送20位接口识别符。

AIB将堆叠的一组AIB信道定义为AIB信道列。AIB信道列具有一定数目个AIB信道，外加辅助信道。辅助信道含有用于AIB初始化的信号。列内的所有AIB信道(辅助信道除外)具有相同配置(例如，全部为TX、全部为RX，或者一半为TX且一半为RX，以及具有相同数目的数据I/O信号)。在实例中，以邻近于AUX信道的AIB信道开始，以连续递增次序对AIB信道编号。与AUX相邻的AIB信道被定义为AIB信道零。

通常，个别小芯片上的CPI接口可包含串行化-反串行化(SERDES)硬件。SERDES互连非常适用于需要高速信令和低信号计数的情境。然而，对于复用和解复用、错误检测或校正(例如，使用块级循环冗余检查(CRC))、链路级重试或前向错误校正，SERDE可能会引起额外的功耗和更长的等待时间。然而，当低时延或能耗为超短距离小芯片到小芯片互连的主要关注点时，可利用时钟速率允许以最少时延进行数据传送的并行接口。CPI包含用于使这些超短距离小芯片互连的时延和能耗两者最小化的元件。

对于流控制，CPI采用基于信用的技术。例如应用程序小芯片810的接收方向例如存储器控制器小芯片814的发送方提供表示可用缓冲器的信用。在实例中，CPI接收方包含用于给定发射时间单位的每一虚拟信道的缓冲器。因此，如果CPI接收方在时间上支持五个消息和单个虚拟信道，则接收方具有布置成五行的五个缓冲器(例如，每一单位时间一行)。如果支持四个虚拟信道，那么接收方具有布置成五行的二十个缓冲器。每一缓冲器保持一个CPI包的有效负载。

当发送方向接收方进行传输时，发送方基于传输而使可用信用递减。一旦接收方的所有信用已消耗，发送方就停止向接收方发送包。这确保接收方始终具有可用缓冲器以存储发射。

当接收方处理接收到的包并释放缓冲器时，接收方将可用缓冲空间传送回到发送方。接着，发送方可使用此信用返回以允许传输额外信息。

图8A的实例包含在不需要小芯片系统NOC 820的情况下使用直接小芯片到小芯片技术的小芯片网状网络824。小芯片网状网络824可在CPI或另一小芯片到小芯片协议中实施。小芯片网状网络824通常实现小芯片流水线，其中一个小芯片充当到流水线的接口，而流水线接口中的其它小芯片仅与自身介接。

另外，还可使用专用装置接口来将装置连接到小芯片，所述专用装置接口例如一或多个行业标准存储器接口(例如，同步存储器接口，例如DDR5、DDR6)。小芯片系统或个别小芯片到外部装置的连接(例如，较大系统可通过所要接口(例如，PCIe接口))。在实例中，可通过主机接口小芯片812实施这种外部接口，在所描绘的实例中，所述主机接口小芯片提供小芯片系统外部的PCIe接口。当行业中的惯例或标准已经汇聚在这类专用小芯片接口826上时，通常采用这类接口。将存储器控制器小芯片814连接到动态随机存取存储器(DRAM)存储器装置小芯片816的双倍数据速率(DDR)接口的所说明实例就是这种行业惯例。

在多种可能的支持小芯片中，存储器控制器小芯片814很可能存在于小芯片系统中，这是因为几乎无所不在地使用存储设备来进行计算机处理以及存储器装置的复杂的当前技术发展水平。因此，使用由其它设计者产生的存储器装置小芯片816和存储器控制器小芯片814使小芯片系统设计者能够获得由成熟生产商生产的稳健的产品。通常，存储器控制器小芯片814提供用以读取、写入或擦除数据的存储器装置特定的接口。通常，存储器控制器小芯片814可提供额外功能，例如错误检测、错误校正、维护操作或原子操作符执行。对于一些类型的存储器，维护操作往往特定于存储器装置小芯片816，例如NAND快闪或存储类存储器中的垃圾收集、NAND快闪存储器中的温度调整(例如，交叉温度管理)。在实例中，维护操作可包含逻辑到物理(L2P)映射或管理，以在数据的物理与逻辑表示之间提供间接层级。在例如DRAM的其它类型的存储器中，例如刷新的一些存储器操作可在某些时间由主机处理器或存储器控制器控制，且在其它时间由DRAM存储器装置或与一或多个DRAM装置相关联的逻辑控制，所述逻辑例如接口芯片(在实例中，缓冲器)。

原子操作符是例如可由存储器控制器小芯片814执行的数据操纵。在其它小芯片系统中，可由其它小芯片执行原子操作符。举例来说，可由应用程序小芯片810在命令中指定“增量”的原子操作符，所述命令包含存储器地址且可能包含增量值。在接收到命令后，存储器控制器小芯片814从指定存储器地址检索数字，使所述数字递增命令中所指定的量，并且存储结果。在成功完成后，存储器控制器小芯片814向应用小芯片810提供命令成功的指示。原子操作符避免了跨小芯片网状网络824传输数据，从而减少执行这类命令的时延。

原子操作符可被分类为内置原子或可编程(例如，自定义)原子。内置原子是在硬件中不变地实施的一组有限的操作。可编程原子是可在存储器控制器小芯片814的可编程原子单元(PAU)(例如，自定义原子单元(CAU))上执行的小程序。

存储器装置小芯片816可为或包含易失性存储器装置或非易失性存储器的任何组合。易失性存储器装置的实例包含但不限于随机存取存储器(RAM)，例如DRAM、同步DRAM(SDRAM)、图形双倍数据速率类型6SDRAM(GDDR6 SDRAM)等等。非易失性存储器装置的实例包含但不限于“与非”(NAND)型快闪存储器、存储类存储器(例如，相变存储器或基于忆阻器的技术)、铁电RAM(FeRAM)等等。所说明实例包含作为小芯片的存储器装置小芯片816，然而，装置可驻留在其它地方，例如在外围板804上的不同封装中。对于许多应用程序，可提供多个存储器装置小芯片。在实例中，这些存储器装置小芯片可各自实施一或多个存储技术，且可包含集成计算主机。在实例中，存储器小芯片可包含不同技术的多个堆叠存储器裸片，例如一或多个静态随机存取存储器(SRAM)装置与一或多个动态随机存取存储器(DRAM)装置堆叠或以其它方式通信。在实例中，存储器控制器小芯片814可用于协调小芯片系统802中的多个存储器小芯片之间的操作，例如，在一或多个层级的高速缓存存储区中使用一或多个存储器小芯片，且使用一或多个额外存储器小芯片作为主存储器。小芯片系统802还可包含多个存储器控制器814，其可用于提供用于单独主机、处理器、传感器、网络等的存储器控制功能性。例如所说明的系统中的小芯片架构提供如下优点：允许通过更新后的小芯片配置适应不同存储器存储技术和不同存储器接口，例如无需重新设计系统结构的其余部分。

图9大体说明根据实施例的用于存储器计算装置的基于小芯片的实施方案的实例。实例包含具有四个近存储器计算或CNM、小芯片的实施方案，且CNM小芯片中的每一个可包含或包括来自图1的实例的第一存储器计算装置112或第一存储器计算节点104的部分。各种部分自身可包含或包括相应小芯片。基于小芯片的实施方案可包含或使用基于CPI的系统内通信，如上文在来自图8A和图8B的实例小芯片系统802中类似地论述。

图9的实例包含第一CNM封装900，其包括多个小芯片。第一CNM封装900包含耦合到CNM NOC集线器910的第一小芯片902、第二小芯片904、第三小芯片906和第四小芯片908。第一到第四小芯片中的每一个可包括相同或基本上相同的组件或模块的例子。举例来说，小芯片可各自包含用于存取内部或外部存储器的HTP加速器、HTF加速器和存储器控制器的相应例子。

在图9的实例中，第一小芯片902包含耦合到CNM NOC集线器910的第一NOC集线器边缘914。第一CNM封装900中的其它小芯片类似地包含NOC集线器边缘或端点。NOC集线器边缘中的交换机促进经由CNM NOC集线器910的小芯片内或小芯片内系统通信。

第一小芯片902可另外包含一或多个存储器控制器916。存储器控制器916可对应于与第一NOC集线器边缘914介接的相应不同NOC端点交换机。在实例中，存储器控制器916包括存储器控制器小芯片814或包括存储器控制器130，或包括存储器子系统200或其它存储器计算实施方案。存储器控制器916可耦合到相应不同存储器装置，例如包含第一外部存储器模块912a或第二外部存储器模块912b。外部存储器模块可包含例如可选择性地由系统中的相应不同小芯片存取的GDDR6存储器。

第一小芯片902可另外包含例如经由相应不同NOC端点交换机耦合到第一NOC集线器边缘914的第一HTP小芯片918和第二HTP小芯片920。HTP小芯片可对应于HTP加速器，例如来自图1的实例的HTP 140或来自图4的实例的HTP加速器400。HTP小芯片可与HTF小芯片922通信。HTF小芯片922可对应于HTF加速器，例如来自图1的实例的HTF 142或来自图7的实例的HTF 700。

CNM NOC集线器910可借助于各种接口和交换机耦合到其它小芯片或其它CNM封装中的NOC集线器例子。举例来说，CNM NOC集线器910可借助于第一CNM封装900上的多个不同NOC端点耦合到CPI接口。多个不同NOC端点中的每一个可耦合到例如第一CNM封装900外部的不同节点。在实例中，CNM NOC集线器910可使用CTCPI或其它非CPI协议耦合到其它外围装置、节点或装置。举例来说，第一CNM封装900可包含配置成使第一CNM封装900与其它装置介接的PCIe缩放网状架构接口(PCIE/SFI)或CXL接口(CXL)。在实例中，使用各种CPI、PCIe、CXL或其它网状架构将第一CNM封装900耦合到的装置可构成共同全局地址空间。

在图9的实例中，第一CNM封装900包含主机接口924(HIF)和主机处理器(R5)。主机接口924可对应于例如来自图1的实例的HIF 120。主机处理器或R5可对应于来自图1的实例的内部主机处理器122。主机接口924可包含用于将第一CNM封装900耦合到其它外部装置或系统的PCI接口。在实例中，工作可通过主机接口924在第一CNM封装900或第一CNM封装900内的拼片集群上发起。举例来说，主机接口924可配置成命令个别HTF拼片集群(例如在第一CNM封装900中的各种小芯片当中)进入和退出功率/时钟门模式。

图10说明根据实施例的存储器计算装置的实例平铺。在图10中，平铺的小芯片实例1000包含小芯片的四个不同近存储器计算集群的例子，其中集群耦合在一起。近存储器计算小芯片的每一例子自身可包含一或多个构成小芯片(例如，主机处理器小芯片、存储器装置小芯片、接口小芯片等)。

平铺的小芯片实例1000包含来自图9的实例的第一CNM封装900的例子作为其近存储器计算(CNM)集群的中一或多个。举例来说，平铺的小芯片实例1000可包含第一CNM集群1002，其包含第一小芯片1010(例如，对应于第一小芯片902)、第二小芯片1012(例如，对应于第二小芯片904)、第三小芯片1014(例如，对应于第三小芯片906)和第四小芯片1016(例如，对应于第四小芯片908)。第一CNM集群1002中的小芯片可耦合到共同NOC集线器，其进而可耦合到一或多个相邻集群中的(例如，第二CNM集群1004或第四CNM集群1008中的)NOC集线器。

在图10的实例中，平铺的小芯片实例1000包含第一CNM集群1002、第二CNM集群1004、第三CNM集群1006和第四CNM集群1008。各种不同CNM小芯片可配置于共同地址空间中，使得小芯片可跨不同拼片分配及共享资源。在实例中，集群中的小芯片可彼此通信。举例来说，第一CNM集群1002可经由小芯片间CPI接口1018通信地耦合到第二CNM集群1004，且第一CNM集群1002可经由另一或同一CPI接口通信地耦合到第四CNM集群1008。第二CNM集群1004可经由同一或另一CPI接口通信地耦合到第三CNM集群1006，等等。

在实例中，平铺的小芯片实例1000中的近存储器计算小芯片中的一个可包含主机接口(例如，对应于来自图9的实例的主机接口924)，其负责跨平铺的小芯片实例1000的工作负载平衡。主机接口可促进例如从平铺的小芯片实例1000外部对基于主机的命令请求队列和响应队列的存取。主机接口可在平铺的小芯片实例1000中的近存储器计算小芯片中的一或多个中使用混合线程处理器和混合线程网状架构来分派新执行线程。

图11是根据实施例的用于无阻挡外部装置调用的方法1100的实例的流程图。方法1100的操作由例如关于图1-7、8A-10和12描述的计算机硬件执行，例如存储器计算装置112、存储器控制器200、PAU 208或PAU 302、HTP 400或HTF 700，或其各种组合的组件。执行方法1100的操作的计算机硬件包含被配置成(例如，硬接线、通过包含固件的软件或这两个的组合)实施操作的处理电路系统。在实例中，处理电路系统是处理器(例如，HTP 400或PAU302)的包含外部接口(例如，通向存储器)、执行管线和线程管理电路系统(例如线程准备好运行队列)的部分。

在操作1102处，通过处理电路系统接收到来自线程的指令；所述指令指向装置，例如外部存储器或通过外部接口存取的其它硬件。此处，指令对应于无返回指示。在实例中，无返回指示包含在指令中。在实例中，无返回指示包含在指令的字段中。在实例中，无返回指示是单个位。在实例中，单个位是指令的操作代码字段中的数个位中的一个位。

在实例中，装置是存储器控制器。在实例中，指令是原子操作。在实例中，原子操作是可编程原子操作。

在操作1104处，基于无返回指示使对应于线程的计数器增加。举例来说，在处理电路系统处置指令时，使维持用于线程的计数器递增一以维持未处理的无返回请求的计数。

在操作1106处，继续线程执行而无需等待来自装置的返回值。在实例中，返回值是原子操作的结果。因此，线程不阻挡(例如，暂停、睡眠等)等待请求结果。在实例中，继续线程执行包含将线程的识别符放置到处理电路系统的执行堆栈(例如，线程准备好运行队列或其它线程指令调度装置)中。

在操作1108处，基于接收到对请求的返回值而使计数器递减(例如，减小)。在实例中，计数器是用于线程的发到处理电路系统外部的装置的每个无返回指令的唯一计数器。在实例中，接收返回值(例如，通过处理电路系统)并将其丢弃。在实例中，返回值在不包含原子操作的结果的情况下指示原子操作是否成功地完成。

在操作1110处，阻止线程完成直到计数器为零。在实例中，阻止线程完成包含当计数器大于零时从执行中去除线程返回指令。

图12示出实例机器1200的框图，可利用所述机器、在所述机器中或通过所述机器实施本文中所论述的任何一或多种技术(例如，方法)。如本文中所描述，实例可包含机器1200中的逻辑或数个组件或机构，或可由其操作。电路系统(例如，处理电路系统)是在机器1200的有形实体中实施的电路集合，其包含硬件(例如，简单电路、门、逻辑等)。电路系统成员资格可随时间推移为灵活的。电路系统包含在操作时可单独或组合地执行特定任务的成员。在实例中，可以不可改变的方式设计电路系统的硬件以进行特定操作(例如，硬连线)。在实例中，电路系统的硬件可以包含可变地连接的物理组件(例如，执行单元、晶体管、简单电路等)，所述物理组件包含以物理方式经修改(例如，不变集中式粒子的磁性、电气可移动放置等)以对特定操作的指令进行编码的机器可读媒体。在连接物理组件时，改变硬件组成部分的根本电性质，例如从绝缘体变为导体，或反之亦然。指令使得嵌入式硬件(例如，执行单元或加载机构)能够经由可变连接以硬件创建电路系统的构件以在处于操作中时实行特定操作的部分。因此，在实例中，机器可读媒体元件是电路系统的一部分或在装置操作时以通信方式耦合到电路系统的其它组件。在实例中，物理组件中的任一个可以用于多于一个电路系统中的多于一个组件中。举例来说，在操作下，执行单元可在一个时间点用于第一电路系统中的第一电路，且由第一电路系统中的第二电路重新使用，或在不同时间由第二电路系统中的第三电路重新使用。下文是关于机器1200的这些组件的额外实例。

在替代性实施例中，机器1200可操作为独立装置或可连接(例如，联网)到其它机器。在联网部署中，机器1200可在服务器-客户端网络环境中以服务器机器、客户端机器或这两者的能力操作。在实例中，机器1200可以充当对等(P2P)(或其它分布式)网络环境中的对等机器。机器1200可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络器具、网络路由器、交换机或桥接器，或能够执行(循序或以其它方式)指定待由所述机器采取的动作的指令的任何机器。此外，虽然仅示出单个机器，但术语“机器”还应被视为包括单独或联合执行一组(或多组)指令以执行本文论述的方法论中的任何一种或多种的任何机器集合，如云计算、软件即服务(software as a service，SaaS)、其它计算机集群配置。

机器1200(例如，计算机系统)可包含硬件处理器1202(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器1204、静态存储器1206(例如，固件、微码的存储器或存储设备、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等)，以及大容量存储装置1208(例如，硬盘驱动器、磁带机、快闪存储设备或其它块装置)，其中的一些或全部可经由互联件1230(例如，总线)彼此通信。机器1200可另外包含显示装置1210、字母数字输入装置1212(例如，键盘)和用户接口(UI)导航装置1214(例如，鼠标)。在实例中，显示装置1210、输入装置1212和UI导航装置1214可为触摸屏显示器。机器1200可另外包含大容量存储装置1208(例如，驱动单元)、信号产生装置1218(例如，扬声器)、网络接口装置1220，以及一或多个传感器1216，例如全球定位系统(GPS)传感器、指南针、加速度计或其它传感器。机器1200可以包含输出控制器1228，例如串行(例如，通用串行总线(USB)、并行或其它有线或无线(例如，红外(IR)、近场通信(NFC)等)连接，以与一或多个外围装置(例如，打印机、读卡器等)通信或控制所述一或多个外围装置。

硬件处理器1202、主存储器1204、静态存储器1206或大容量存储装置1208的寄存器可为或包含机器可读媒体1222，所述机器可读媒体1222上存储体现或由本文中所描述的技术或功能中的任何一或多个使用的数据结构或指令1224(例如，软件)的一或多个集合。指令1224还可在其由机器1200执行期间完全或至少部分地停留在硬件处理器1202、主存储器1204、静态存储器1206或大容量存储装置1208的寄存器中的任一个内。在实例中，硬件处理器1202、主存储器1204、静态存储器1206或大容量存储装置1208中的一个或任何组合可构成机器可读媒体1222。虽然机器可读媒体1222说明为单个媒体，但术语“机器可读媒体”可包含被配置成存储一或多个指令1224的单个媒体或多个媒体(例如，集中式或分布式数据库，或相关联的高速缓冲存储器和服务器)。

术语“机器可读媒体”可包含能够存储、编码或承载供机器1200执行且使机器1200执行本公开的技术中的任何一或多者的指令的任何媒体，或能够存储、编码或承载由此类指令使用或与此类指令相关联的数据结构的任何媒体。非限制性机器可读媒体实例可包含固态存储器、光学媒体、磁性媒体和信号(例如，射频信号、其它基于光子的信号、声音信号等)。在实例中，非暂时性机器可读媒体包括具有多个粒子的机器可读媒体，所述粒子具有不变(例如，静止)质量，且因此为物质组成。因此，非暂时性机器可读媒体是不包含暂时性传播信号的机器可读媒体。非暂时性机器可读媒体的具体实例可以包含：非易失性存储器，例如半导体存储器装置(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和快闪存储器装置；磁盘，例如内部硬盘和可拆卸磁盘；磁光盘；和CD-ROM和DVD-ROM盘。

在实例中，存储或以其它方式提供在机器可读媒体1222上的信息可表示指令1224，例如指令1224本身或可从其导出指令1224的格式。可从其导出指令1224的此格式可包含源码、已编码指令(例如，呈压缩或加密形式)、已封装指令(例如，拆分成多个封装)等。表示机器可读媒体1222中的指令1224的信息可由处理电路系统处理到指令中以实施本文中所论述的操作中的任一个。举例来说，从信息(例如，由处理电路系统处理)导出指令1224可包含：编译(例如，从源代码、目标代码等)、解译、加载、组织(例如，动态地或静态地链接)、编码、解码、加密、解密、封装、解封装或以其它方式将信息操纵到指令1224中。

在实例中，指令1224的导出可包含对信息的汇编、编译或解译(例如，通过处理电路系统)以从由机器可读媒体1222提供的一些中间或预处理格式产生指令1224。当在多个部分中提供信息时，可组合、解封装和修改所述信息以创建指令1224。举例来说，信息可在一个或数个远程服务器上的多个压缩源代码封装(或目标代码，或二进制可执行代码等)中。源代码封装可在经由网络传输时被加密，且在必要时被解密、解压缩、汇编(例如，链接)，且在本地机器处被编译或解译(例如，到可独立执行的库中等)，且由本地机器执行。

指令1224可以进一步利用多个传送协议中的任一个(例如，帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传送协议(HTTP)等)经由网络接口装置1220使用传输媒体在通信网络1226上发射或接收。实例通信网络可包含局域网(LAN)、广域网(WAN)、分组数据网络(例如，因特网)、移动电话网络(例如，蜂窝式网络)、普通老式电话(POTS)网络和无线数据网络(例如，被称为

为了更好地说明本文中所描述的方法和设备，一组非限制性实例实施例在下文阐述为带编号的实例。

实例1为一种系统，其包括：第一存储器计算节点，其包含：被配置成接受远程调用的装置；和第二存储器计算节点，其包含：混合线程处理器(HTP)，其包含被配置成进行以下操作的处理电路系统：接收来自用于所述装置的线程的指令，所述指令对应于无返回指示；基于所述无返回指示增加对应于所述线程的计数器；继续所述线程的执行而无需等待来自所述装置的返回值；基于接收到所述返回值使所述计数器递减；和阻止所述线程完成直到所述计数器为零。

在实例2中，根据实例1所述的标的物包含，其中为了继续所述线程的执行，所述处理电路系统被配置成将所述线程的识别符放置到所述处理器的准备好运行队列中。

在实例3中，根据实例1到2所述的标的物包含，其中为了阻止所述线程完成，所述处理电路系统被配置成当所述计数器大于零时从执行中去除线程返回指令。

在实例4中，根据实例1到3所述的标的物包含，其中所述处理电路系统被进一步配置成：接收所述返回值；和丢弃所述返回值。

在实例5中，根据实例1到4所述的标的物包含，其中所述装置是存储器控制器。

在实例6中，根据实例5所述的标的物包含，其中所述指令是原子操作。

在实例7中，根据实例6所述的标的物包含，其中所述返回值是所述原子操作的结果。

在实例8中，根据实例6到7所述的标的物包含，其中所述返回值在不包含所述原子操作的结果的情况下指示所述原子操作是否成功地完成。

在实例9中，根据实例6到8所述的标的物包含，其中所述原子操作是可编程原子操作。

在实例10中，根据实例1到9所述的标的物包含，其中所述第一存储器计算节点是所述第二存储器计算节点。

在实例11中，根据实例1到10所述的标的物包含，其中所述计数器是用于所述线程的发到所述HTP外部的装置的每个无返回指令的唯一计数器。

在实例12中，根据实例1到11所述的标的物包含，其中所述无返回指示包含在所述指令中。

在实例13中，根据实例12所述的标的物包含，其中所述无返回指示是所述指令的字段。

在实例14中，根据实例12到13所述的标的物包含，其中所述无返回指示是单个位。

在实例15中，根据实例14所述的标的物包含，其中所述单个位是所述指令的操作代码字段中的数个位中的一个位。

实例16是一种设备，其包括：通向装置的接口；和处理电路系统，其被配置成：接收来自用于所述装置的线程的指令，所述指令对应于无返回指示；响应于接收到所述指令而跨所述接口做出对所述装置的调用；基于所述无返回指示增加对应于所述线程的计数器；继续所述线程的执行而无需等待来自所述装置的返回值；基于接收到所述返回值使所述计数器递减；和阻止所述线程完成直到所述计数器为零。

在实例17中，根据实例16所述的标的物包含，其中为了继续所述线程的执行，所述处理电路系统被配置成将所述线程的识别符放置到所述处理器的准备好运行队列中。

在实例18中，根据实例16到17所述的标的物包含，其中为了阻止所述线程完成，所述处理电路系统被配置成当所述计数器大于零时从执行中去除线程返回指令。

在实例19中，根据实例16到18所述的标的物包含其中所述处理电路系统被进一步配置成：接收所述返回值；和丢弃所述返回值。

在实例20中，根据实例16到19所述的标的物包含，其中所述装置是存储器控制器。

在实例21中，根据实例20所述的标的物包含，其中所述指令是原子操作。

在实例22中，根据实例21所述的标的物包含，其中所述返回值是所述原子操作的结果。

在实例23中，根据实例21到22所述的标的物包含，其中所述返回值在不包含所述原子操作的结果的情况下指示所述原子操作是否成功地完成。

在实例24中，根据实例21到23所述的标的物包含，其中所述原子操作是可编程原子操作。

在实例25中，根据实例16到24所述的标的物包含，其中所述设备是混合线程处理器。

在实例26中，根据实例16到25所述的标的物包含，其中所述计数器是用于所述线程的发到所述设备外部的装置的每个无返回指令的唯一计数器。

在实例27中，根据实例16到26所述的标的物包含，其中所述无返回指示包含在所述指令中。

在实例28中，根据实例27所述的标的物包含，其中所述无返回指示是所述指令的字段。

在实例29中，根据实例27到28所述的标的物包含，其中所述无返回指示是单个位。

在实例30中，根据实例29所述的标的物包含，其中所述单个位是所述指令的操作代码字段中的数个位中的一个位。

实例31是一种方法，其包括：通过处理器接收来自用于装置的线程的指令，所述指令对应于无返回指示；通过处理器基于所述无返回指示使对应于线程的计数器增加；通过处理器继续线程的执行而无需等待来自装置的返回值；通过处理器基于接收到返回值使计数器递减；和通过处理器防止线程完成直到计数器为零。

在实例32中，根据实例31所述的标的物包含，其中继续线程的执行包含将线程的识别符放置到所述处理器的准备好运行队列中。

在实例33中，根据实例31到32所述的标的物包含，其中防止线程完成包含当计数器大于零时从执行中去除线程返回指令。

在实例34中，根据实例31到33所述的标的物包含，接收所述返回值；和丢弃所述返回值。

在实例35中，根据实例31到34所述的标的物包含，其中所述装置是存储器控制器。

在实例36中，根据实例35所述的标的物包含，其中所述指令是原子操作。

在实例37中，根据实例36所述的标的物包含，其中所述返回值是所述原子操作的结果。

在实例38中，根据实例36到37所述的标的物包含，其中所述返回值在不包含所述原子操作的结果的情况下指示所述原子操作是否成功地完成。

在实例39中，根据实例36到38所述的标的物包含，其中所述原子操作是可编程原子操作。

在实例40中，根据实例31到39所述的标的物包含，其中所述处理器是混合线程处理器。

在实例41中，根据实例31到40所述的标的物包含，其中计数器是用于线程的发到处理器外部的装置的每个无返回指令的唯一计数器。

在实例42中，根据实例31到41所述的标的物包含，其中所述无返回指示包含在所述指令中。

在实例43中，根据实例42所述的标的物包含，其中所述无返回指示是所述指令的字段。

在实例44中，根据实例42到43所述的标的物包含，其中所述无返回指示是单个位。

在实例45中，根据实例44所述的标的物包含，其中所述单个位是所述指令的操作代码字段中的数个位中的一个位。

实例46是包含指令的机器可读媒体，所述指令在由处理电路系统执行时致使所述处理电路系统执行包括以下操作的操作：接收来自用于装置的线程的指令，所述指令对应于无返回指示；基于所述无返回指示使对应于线程的计数器增加；继续线程的执行而无需等待来自装置的返回值；基于接收到返回值使计数器递减；和防止线程完成直到计数器为零。

在实例47中，根据实例46所述的标的物包含，其中继续线程的执行包含将线程的识别符放置到所述处理器的准备好运行队列中。

在实例48中，根据实例46到47所述的标的物包含，其中防止线程完成包含当计数器大于零时从执行中去除线程返回指令。

在实例49中，根据实例46到48所述的标的物包含，其中所述操作另外包括：接收所述返回值；和丢弃所述返回值。

在实例50中，根据实例46到49所述的标的物包含，其中所述装置是存储器控制器。

在实例51中，根据实例50所述的标的物包含，其中所述指令是原子操作。

在实例52中，根据实例51所述的标的物包含，其中所述返回值是所述原子操作的结果。

在实例53中，根据实例51到52所述的标的物包含，其中所述返回值在不包含所述原子操作的结果的情况下指示所述原子操作是否成功地完成。

在实例54中，根据实例51到53所述的标的物包含，其中所述原子操作是可编程原子操作。

在实例55中，根据实例46到54所述的标的物包含，其中所述处理器是混合线程处理器。

在实例56中，根据实例46到55所述的标的物包含，其中计数器是用于线程的发到处理器外部的装置的每个无返回指令的唯一计数器。

在实例57中，根据实例46到56所述的标的物包含，其中所述无返回指示包含在所述指令中。

在实例58中，根据实例57所述的标的物包含，其中所述无返回指示是所述指令的字段。

在实例59中，根据实例57到58所述的标的物包含，其中所述无返回指示是单个位。

在实例60中，根据实例59所述的标的物包含，其中所述单个位是所述指令的操作代码字段中的数个位中的一个位。

实例61是一种系统，其包括：用于通过处理器接收来自用于装置的线程的指令的装置，所述指令对应于无返回指示；用于通过处理器基于所述无返回指示使对应于线程的计数器增加的装置；用于通过处理器继续线程的执行而无需等待来自装置的返回值的装置；用于通过处理器基于接收到返回值使计数器递减的装置；和用于通过处理器防止线程完成直到计数器为零的装置。

在实例62中，根据实例61所述的标的物包含，其中所述用于继续线程的执行的装置包含用于将线程的识别符放置到所述处理器的准备好运行队列中的装置。

在实例63中，根据实例61到62所述的标的物包含，其中所述用于防止线程完成的装置包含用于当计数器大于零时从执行中去除线程返回指令的装置。

在实例64中，根据实例61到63所述的标的物包含，用于接收所述返回值的装置；和用于丢弃所述返回值的装置。

在实例65中，根据实例61到64所述的标的物包含，其中所述装置是存储器控制器。

在实例66中，根据实例65所述的标的物包含，其中所述指令是原子操作。

在实例67中，根据实例66所述的标的物包含，其中所述返回值是所述原子操作的结果。

在实例68中，根据实例66到67所述的标的物包含，其中所述返回值在不包含所述原子操作的结果的情况下指示所述原子操作是否成功地完成。

在实例69中，根据实例66到68所述的标的物包含，其中所述原子操作是可编程原子操作。

在实例70中，根据实例61到69所述的标的物包含，其中所述处理器是混合线程处理器。

在实例71中，根据实例61到70所述的标的物包含，其中计数器是用于线程的发到处理器外部的装置的每个无返回指令的唯一计数器。

在实例72中，根据实例61到71所述的标的物包含，其中所述无返回指示包含在所述指令中。

在实例73中，根据实例72所述的标的物包含，其中所述无返回指示是所述指令的字段。

在实例74中，根据实例72到73所述的标的物包含，其中所述无返回指示是单个位。

在实例75中，根据实例74所述的标的物包含，其中所述单个位是所述指令的操作代码字段中的数个位中的一个位。

实例76是包含指令的至少一个机器可读媒体，所述指令当由处理电路系统执行时致使所述处理电路系统执行操作以实施实例1-75中的任一个。

实例77是一种设备，其包括用以实施实例1-75中的任一实例的装置。

实例78是一种实施实例1-75中的任一实例的系统。

实例79是一种用以实施实例1-75中的任一实例的方法。

以上详细描述包含对附图的参考，所述附图形成所述详细描述的一部分。图式借助于说明展示可实践本发明的特定实施例。这些实施例在本文中也称为“实例”。此类实例可包含除了所示出或所描述的那些元件之外的元件。然而，本发明人还预期其中仅提供所示或所描述的那些元件的实例。此外，本发明人还预期使用相对于特定实例(或其一个或更多个方面)或相对于本文展示或描述的其它实例(或其一个或更多个方面)而展示或描述的那些元件的任何组合或排列的实例(或其一个或更多个方面)。

在本文件中，如专利文件中常见，使用术语“一”以包含一个或多于一个，这与“至少一个”或“一个或更多个”的任何其它例子或用途无关。在此文档中，除非另外指示，否则术语“或”用于指代非排他性的或，使得“A或B”可以包含“A而非B”、“B而非A”，以及“A和B”。在所附权利要求书中，术语“包含”和“在其中(in which)”用作相应术语“包括”和“其中(wherein)”的通俗等效术语。此外，在所附权利要求书中，术语“包含”和“包括”为开放式的，也就是说，包含除权利要求书中在此术语之后列出的那些元件之外的元件的系统、装置、物品或过程仍被视为在权利要求书的范围内。此外，在以下权利要求书中，术语“第一”、“第二”和“第三”等仅用作标签，并且并不旨在对其对象施加数字要求。

以上描述意在是说明性的，而非限制性的。举例来说，上文所描述的实例(或其一或多个方面)可以彼此组合使用。如所属领域的一般技术人员在查阅以上描述后可使用其它实施例。所述摘要在遵守以下理解的情况下提交：其将不会用于解释或限制权利要求的范围或含义。同样，在以上详细描述中，可以将各种特性分组在一起以简化本公开。此情况不应解释为期望未要求的揭示特征对任何权利要求来说是必需的。实际上，本发明主题可在于比特定公开的实施例的所有特征要少。因此，特此将所附权利要求书并入到具体实施方式中，其中每一权利要求作为一单独实施例而独立存在，且经考虑此些实施例可以各种组合或排列彼此组合。本发明的范围应通过参考所附的权利要求书以及所述权利要求书所授予的等效物的完整范围来确定。

完整全部详细技术资料下载