掌桥专利:专业的专利平台
掌桥专利
首页

一种三维堆叠存储器及其数据处理方法

文献发布时间:2023-06-19 19:00:17


一种三维堆叠存储器及其数据处理方法

技术领域

本发明属于集成电路技术领域,尤其涉及一种三维堆叠存储器及其数据处理方法。

背景技术

三维(3D)堆叠技术是将多个存储芯片在竖直方向上进行堆叠,并通过硅通孔(TSV)垂直互连技术将每层芯片的信号端口连接到一起,实现更高的带宽和集成度。

硅通孔(TSV)由上至下进行互连,因此所需的TSV个数等于信号端口的个数随着信号端口的增加,TSV的数量也需增加。然而,TSV的工艺难度高且成本管控要求高。一方面随着所需TSV个数的增加,芯片的面积也将增加,受限于芯片面积利用率的要求,TSV的个数不能无限增加;另一方面随着TSV个数的增加,TSV失效概率也大大增加,芯片不能正常工作的风险居高不下。

因此,亟需设计一种三维堆叠存储器及相应的数据处理方法,优化三维堆叠存储器的结构,以减少TSV通孔个数,进一步提高三维堆叠存储器的信号传输的可靠性。

发明内容

本发明是为解决上述现有技术的全部或部分问题,本发明一方面提供了一种三维堆叠存储器的结构,以提高集成度和信号传输的可靠性;本发明另一方面提供了一种三维堆叠存储器的数据处理方法。

本发明提供的一种三维堆叠存储器,包括:第一芯片;第二芯片,所述第二芯片沿竖直方向全部或部分堆叠在所述第一芯片上;信号输入端口,位于所述第二芯片远离所述第一芯片的一面;第一硅通孔,所述第一硅通孔贯穿所述第二芯片,所述信号输入端口和所述第一芯片通过所述第一硅通孔通信;其中,多个所述信号输入端口通过共接节点与所述第一硅通孔连接,所述第一硅通孔的数量小于所述信号输入端口的数量。如此,第一芯片和第二芯片通过较少的硅通孔实现通信,可以减少硅通孔的失效率,减少芯片的面积,提高信号传输可靠性。

所述存储器还包括:多个触发器,所述触发器位于所述第一芯片内,所述触发器的数据输入端与所述第一硅通孔连接,多个所述触发器通过共接节点与所述第一硅通孔连接,所述触发器的数量等于所述信号输入端口的数量。如此,使得从信号输入端口并行输入的第一数据信号最终通过相等数量的触发器并行输出。

所述存储器还包括:振荡器(oscillator,OSC),所述振荡器用于生成第一时钟信号和第二时钟信号,所述第一时钟信号和所述第二时钟信号的相位差为+270度或-90度;第一计数器,所述第一时钟信号通过所述第一计数器与每一所述信号输入端口连接;第二计数器,所述第二时钟信号通过所述第二计数器与每一所述触发器的时钟输入端连接。如此,通过振荡器振荡一步产生具有相位差的两个时钟信号,分别用于抓取输入的第一数据信号和选通触发器,提高了数据处理的效率。

所述振荡器包括:与门,所述与门的输出端连接至第一节点,所述第一节点与所述第一计数器的输入端连接;非门,所述非门的输入端与所述第一节点连接,所述非门的输出端连接至第二节点,所述第二节点与所述第二计数器的输入端连接;所述与门的第一输入端与所述第二节点连接,所述与门的第二输入端与使能信号连接。所述与门的第一输入端通过同相器与所述第二节点连接。这里,同相器具有整形、滤波的作用。在一些实施例中,同相器还具有调控第一时钟信号CLKA和第二时钟信号CLKB的相位差的作用。在实际操作中,与门、同相器和第一计数器可以位于第二芯片内,非门和第二计数器可以位于第一芯片内。如此,合理分配各器件的布局可以提高芯片面积的利用率。

所述与门设置于所述第二芯片内;所述非门设置于所述第一芯片内;所述第一节点通过第二硅通孔与所述非门的输入端连接;所述第二节点通过第二硅通孔与所述与门的第一输入端连接。如此,第二硅通孔可以减少互连长度,降低功耗,同时利用信号经过第二硅通孔产生的延时,实现第一时钟信号CLKA和所述第二时钟信号CLKB相位差+270度或-90度的目的。

所述第一硅通孔的数量为1个。如此,可以最大限度的减少第一硅通孔的占用面积,提高芯片的空间利用率。

所述存储器还包括:冗余硅通孔,所述冗余硅通孔与所述第一硅通孔和/或所述第二硅通孔对应。在实际操作中,对于每一硅通孔均可以设置专门的备用硅通孔,以提高信号传输的可靠性。

所述存储器还包括:延时单元,所述信号输入端口通过所述延时单元与所述硅通孔连接;和/或,所述硅通孔通过所述延时单元与所述触发器的数据输入端连接。如此,对第一数据信号进行延时以获得更多的数据采样建立时间,且提高了采集效率,加快了数据传输。

本发明还提供了一种三维堆叠存储器的数据处理方法,包括:第一数据信号经由多个信号输入端口并行输入;生成第一时钟信号和第二时钟信号,所述第一时钟信号和所述第二时钟信号的相位差为+270度或-90度;所述第一时钟信号通过所述第一计数器产生第一采样信号,所述第二时钟信号通过所述第二计数器产生第二采样信号;所述第一采样信号并行输入至信号输入端口,所述第一采样信号使得并行的所述第一数据信号转换为串行的第二数据信号,所述第二数据信号经由第一硅通孔并行输入至每一触发器的数据输入端,所述信号输入端口的数量大于所述第一硅通孔的数量,所述触发器的数量等于所述信号输入端口的数量;所述第二采样信号并行输入至每一触发器的时钟输入端,所述第二采样信号使得串行的所述第二数据信号转换为并行的输出数据信号。如此,可应用较少个数的硅通孔,提高信号传输的可靠性。

所述第一采样信号并行输入至信号输入端口,所述第一采样信号使得并行的所述第一数据信号转换为串行的第二数据信号,所述第二数据信号经由第一硅通孔转换为第三数据信号,第三数据信号并行输入至每一触发器的数据输入端,包括:第一采样信号在第一时钟信号的上升沿和下降沿对第一数据信号进行采样,使得并行的所述第一数据信号转换为串行的第二数据信号,所述第二数据信号还经由第一硅通孔和延时单元转换为第四数据信号。

所述第二采样信号并行输入至每一触发器的时钟输入端,所述第二采样信号使得所述串行的第二数据信号转换为并行的输出数据信号,包括:第二采样信号在第二时钟信号的上升沿和下降沿对所述第四数据信号进行采样。如此可以进一步提高数据采集效率和信号传输速度。

与现有技术相比,本发明的主要有益效果:

1.本发明提供的一种三维堆叠存储器,所述第一硅通孔的数量小于所述信号输入端口的数量。第一芯片和第二芯片通过较少的硅通孔实现通信,可以减少硅通孔的失效率,减少芯片的面积,提高信号传输可靠性。

2.本发明提供的三维堆叠存储器的数据处理方法,采用上述三维堆叠存储器执行,因而具有相应优势。

附图说明

图1为相关技术的三维堆叠存储器的剖面示意图;

图2为相关技术的三维堆叠存储器的电路结构图;

图3为相关技术的三维堆叠存储器的电路时序图;

图4为本发明实施例提供的三维堆叠存储器的剖面示意图;

图5为本发明实施例提供的三维堆叠存储器的电路结构图;

图6为本发明实施例提供的振荡器的原理示意图;

图7为本发明实施例提供的三维堆叠存储器的电路时序图;

图8为本发明实施例提供的三维堆叠存储器的电路结构图;

图9为本发明实施例提供的三维堆叠存储器的电路时序图;

图10为本发明提供的三维堆叠存储器的数据处理方法的流程框图。

实施方式

下面将对本发明具体实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见附图1对相关技术进行示例性说明,以便于更好地理解本发明但不以任何形式限制本发明。图1示例的是相关技术的三维堆叠存储器的剖面示意图。为了将每一个核心芯片(Core Die)和基底芯片(Base Die)的同一数据端口连接在一起,TSV由上至下进行互连,因此所需的TSV个数等于信号端口的个数,同时由于芯片在制造及封装过程中产生的良率问题,一些信号的TSV会失效,为了保证芯片的正常工作,还需设计冗余的TSV作为备用通孔代替已经失效的通孔,但是冗余的TSV个数有限,若有超过冗余TSV个数的常规通孔失效,那么芯片将不能正常工作。由此可知,随着所需TSV个数的增加,芯片的面积也将大大增加。图1中的D0至D7分别对应为信号输入端口。

图2和图3为相关技术的三维堆叠存储器处理数据的电路原理图及时序图。为了保证读写数据的正确性,第一数据信号DIN<7:0>和抓取数据的选通时钟信号(STROBE CLK)会一起经过各自对应的TSV到达Base Die(基底芯片),并行的第一数据信号DIN<7:0>会被STROBE CLK抓取得到输出数据信号DATA<7:0>,有效的DATA与STROBE CLK经过如图2所示的电路的处理后才能开始工作。

在相关技术中,由于TSV个数等于信号端口的个数,任一TSV失效,均会导致存储器功能的失效。而较多的TSV需要较多的冗余TSV,较多的冗余TSV则需要占用更多的芯片面积。同时,TSV的工艺难度及成本较大,随着所需TSV个数的增加,芯片的面积也将增加,TSV失效的概率也大大增加。

基于此,参见附图4,本实施例中提供的一种三维堆叠存储器,包括:基底芯片41;第二芯片42,第二芯片42沿竖直方向全部或部分堆叠在第一芯片41上;信号输入端口43,位于第二芯片42远离第一芯片41的一侧;第一硅通孔44,第一硅通孔44贯穿第二芯片42,信号输入端口43和第一芯片41通过第一硅通孔44通信;其中,多个所述信号输入端口通过共接节点47(参见附图5)与所述第一硅通孔44连接,第一硅通孔44的数量小于信号输入端口43的数量。如此,第一芯片和第二芯片通过较少的硅通孔实现通信,可以减少硅通孔的失效率,减少芯片的面积,提高信号传输可靠性。

第一芯片41和第二芯片42之间可以通过键合件45互连。键合件45例如可以为铜柱凸块。在实际操作中,可以有多个第二芯片沿竖直方向堆叠在第一芯片41上,例如4、8、16、32或64个第二芯片。

第一芯片例如可以为逻辑芯片,第二芯片例如可以为核心芯片;逻辑芯片可以是被配置为与多个核心芯片通信以便从核心芯片访问数据并且将数据存储在多个核心芯片中的一个或多个处理器。逻辑芯片包括但不限于图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、中央处理单元(CPU)或用作处理器的其它已知电子电路。核心芯片包括动态随机存取存储器(DRAM)存储器芯片。

这里,参见附图5,每一信号输入端口43连接至第一硅通孔44,例如可以通过将所有信号输入端口短接的方式。尽管图4和图5仅示出8个信号输入端口43,在其他实施例中可以包括任何其它数目的信号输入端口43,例如16、32、64或更多个信号输入端口43。

参见附图5,存储器还包括:多个触发器51,触发器51位于第一芯片41内,触发器51的数据输入端511与第一硅通孔44连接,多个所述触发器51通过共接节点47与所述第一硅通孔44连接,触发器51的数量等于信号输入端口43的数量。结合附图4,第一硅通孔44与多个键合件45连接,每一键合件45可以分别与触发器51的数据输入端511连接。如此,使得从信号输入端口并行输入的第一数据信号最终通过相等数量的触发器并行输出。

继续参见附图5,存储器还包括:振荡器(OSC)52,振荡器52用于生成第一时钟信号CLKA和第二时钟信号CLKB,第一时钟信号CLKA和第二时钟信号CLKB的相位差为+270度或-90度;第一计数器(CNTA)531,第一时钟信号CLKA通过第一计数器(CNTA)531与每一信号输入端口43连接;第二计数器(CNTB)532,第二时钟信号CLKB通过第二计数器(CNTB)532与每一触发器51的时钟输入端512连接。第一时钟信号CLKA和第二时钟信号CLKB的幅度和周期TCK相同,第二时钟信号CLKB滞后第一时钟信号CLKA的相位为3/4个TCK,或,第二时钟信号CLKB超前第一时钟信号CLKA的相位为1/4个TCK。在实际操作中,第一时钟信号CLKA经过第一计数器531产生第一采样信号SELA<7:0>,第二时钟信号CLKB经过第二计数器532产生第二采样信号SELB<7:0>。第一采样信号SELA<7:0>信号能够在每个第一时钟信号CLKA周期的上升沿选择性的放出DIN<7:0>中一个数据,第一采样信号SELA<7:0>使得并行的第一数据信号转换为串行的第二数据信号DAT。第二数据信号DAT经由第一硅通孔延时后转换为第三数据信号DATD。这里,第三数据信号DATD相对于第二数据信号DAT的延时可以等于1/4个TCK。如此,通过振荡器振荡一步产生具有相位差的两个时钟信号,分别用于抓取输入的第一数据信号和选通触发器,提高了数据处理的效率。

振荡器52包括:与门521,与门的输出端连接至第一节点522,第一节点522与第一计数器531的输入端连接;非门523,非门523的输入端与第一节点522连接,非门523的输出端连接至第二节点524,第二节点524与第二计数器532的输入端连接;与门521的第一输入端与第二节点524连接,与门523的第二输入端与使能信号ENSTROBE连接。

在一些实施例中,参见附图5,与门521的第一输入端通过同相器525与第二节点524连接。这里,同相器具有整形、滤波的作用。在一些实施例中,同相器还具有调控第一时钟信号CLKA和第二时钟信号CLKB的相位差的作用。在实际操作中,与门、同相器和第一计数器可以位于第二芯片内,非门和第二计数器可以位于第一芯片内。如此,合理分配各器件的布局可以提高芯片面积的利用率。

与门521位于第二芯片42内;非门523位于第一芯片41内;第一节点522通过第二硅通孔53与非门523的输入端连接;第二节点524通过第二硅通孔53与与门521的第一输入端连接。如此,第二硅通孔可以减少互连长度,降低功耗,同时利用信号经过第二硅通孔产生的延时,实现第一时钟信号CLKA和第二时钟信号CLKB相位差+270度或-90度的目的。

参见附图6,与门523的第二输入端的使能信号ENSTROBE为高电平时,与门的输出端开始生成高电平信号。高电平信号连接至第一计数器,即CLKA此时为高电平。同时高电平信号通过1个TSV和一个非门转换至低电平信号,低电平信号通过一个TSV后输入至与门的第一输入端,与门的输出端的高电平信号转换为低电平信号,在忽略其他互连线的延迟下,高电平信号经过2个TSV的延迟后转换为低电平信号。即CLKA的周期TCK为信号经过4个TSV的延时。同时,与门的输出端开始生成的高电平信号经过一个TSV和一个非门到达第二计数器,即第二时钟信号CLKB与第一时钟信号CLKB相差3/4个TCK。

参见附图7,附图7为图5提供的电路结构图对应的工作波形图。第一数据信号Din<7:0>经由多个信号输入端口43并行输入;当使能信号ENSTROBE为高时,振荡器52产生第一时钟信号CLKA以及第二时钟信号CLKB,第一时钟信号CLKA经过第一计数器531产生第一采样信号SELA<7:0>,第二时钟信号CLKB经过第二计数器532产生第二采样信号SELB<7:0>。SELA<7:0>信号能够在每个第一时钟信号CLKA周期的上升沿选择性的放出DIN<7:0>中一个数据,生成的第二数据信号DAT包含了DIN<7:0>由并行变成串行的数据,第二数据信号DAT经过第一硅通孔44延时为第三数据信号DATD;第二采样信号SELB<7:0>同样能够在第二时钟信号CLKB的每个CLK周期的上升沿选择性的抓取一个数据,最后将串行数据再次变成并行数据,即将第三数据信号DATD转换为输出数据信号DATA<7:0>。

在一些实施例中,参见附图4和附图5,第一硅通孔44的数量为1个。如此,可以最大限度的减少第一硅通孔的占用面积,提高芯片的空间利用率。在一些实施例中,第一硅通孔位于第二芯片的对称中心。如此可以减少芯片的翘曲,提高存储器的可靠性。应当理解的,当第一硅通孔44的数量为1个时,多个信号输入端口43通过一个共接节点47与第一硅通孔44连接,多个所述触发器51通过一个共接节点47与所述第一硅通孔44连接。在其他实施例中,共接节点的数量与所述第一硅通孔的数量相同。

参见附图5,存储器还包括:冗余硅通孔(TSV RED)46,冗余硅通孔46与第一硅通孔44和/或第二硅通孔53对应。在实际操作中,对于每一硅通孔均可以设置专门的备用硅通孔,以提高信号传输的可靠性。出于成本和可靠性综合的考虑,第一硅通孔44和第二硅通孔分别设置一个对应的冗余硅通孔46。

结合附图2,相对于相关技术中一个core die采用9个硅通孔(其中8个硅通孔用于数据传输,1个硅通孔用于传输选通时钟信号)的方案,本发明中的第二芯片中硅通孔的数量为6个,其中振荡器中第二硅通孔53的数量为2个,第一硅通孔44的数量为1个,以及3个冗余硅通孔46,大大减少了硅通孔的数量。应当理解的是,这是以8个信号输入端口为例,在实际操作中,信号输入端口的数量可以为更多,从而节省的硅通孔数量更多。

参见附图7,存储器还包括:延时单元(DLY)71,信号输入端口通过延时单元71与硅通孔44连接;和/或,硅通孔44通过延时单元71与触发器51的数据输入端511连接。如此,对第一数据信号DAT进行延时以获得更多的数据采样建立时间。

参见附图8,延时单元包括:PMOS晶体管711、NMOS晶体管712、第一电容713、第二电容714、第一电阻715和第二电阻716;其中,延时单元的输入端连接第三节点717,第三节点717分别连接至PMOS晶体管711和NMOS晶体管712的栅极;PMOS晶体管711的源极连接工作电压VDD,NMOS晶体管712的源极连接至地线GND;PMOS晶体管711和NMOS晶体管712的漏极分别通过第一电阻715和第二电阻716连接至第四节点718;PMOS晶体管711的源极和NMOS晶体管712的源极分别通过第一电容713和第二电容714连接至第五节点719;第四节点718和第五节点719连接至延时单元的输出端。

参见附图9,增加了一个延时单元71后,第一计数器和第二计数器能够实现在CLKA/CLKB的上升沿和下降沿都对数据进行采样以此实现了更快的传输速度。相对于不加延时单元的方案,第二数据信号DAT经过一个第一TSV延时为第三数据信号DATD。而第二时钟信号CLKB同样滞后第一时钟信号CLKA一个TSV的延时,每一个DATD<7:0>的数据的端点对应于第二时钟信号CLKB的上升沿/下降沿,此时直接采用上升沿/下降沿采集数据易报错。此时,再经过延时单元71后,第三数据信号DATD转换为第四数据信号DATDD,使得第二时钟信号CLKB的下降沿与每一个DATDD<7:0>的数据端点错开。如此,使得采集效率约提升了一倍。

本实施例中还提供了一种三维堆叠存储器的数据处理方法,参见附图10,示例的过程包括:

步骤1001:第一数据信号经由多个信号输入端口并行输入;

步骤1002:生成第一时钟信号和第二时钟信号,第一时钟信号和第二时钟信号的相位差为+270度或-90度;

步骤1003:第一时钟信号通过第一计数器产生第一采样信号,第二时钟信号通过第二计数器产生第二采样信号;

步骤1004:第一采样信号并行输入至信号输入端口,第一采样信号使得并行的第一数据信号转换为串行的第二数据信号,第二数据信号经由第一硅通孔转换为第三数据信号,第三数据信号并行输入至每一触发器的数据输入端,信号输入端口的数量大于第一硅通孔的数量,触发器的数量等于信号输入端口的数量;

步骤1005:第二采样信号并行输入至每一触发器的时钟输入端,第二采样信号使得串行的第二数据信号转换为并行的输出数据信号。

本实施例中提供的三维堆叠存储器的数据处理方法,可应用较少个数的硅通孔,提高信号传输的可靠性。以下对本实施例中提供的三维堆叠存储器的数据处理方法进行展开示例。

首先,执行步骤1001,第一数据信号经DIN<7:0>由多个信号输入端口并行输入。

接着,执行步骤1002,生成第一时钟信号CLKA和第二时钟信号CLKB,第一时钟信号CLKA和第二时钟信号CLKB的相位差为+270度或-90度。

第一时钟信号CLKA和第二时钟信号CLKB的幅度和周期TCK相同,第二时钟信号CLKB滞后第一时钟信号CLKA的相位为3/4个TCK,或,第二时钟信号CLKB超前第一时钟信号CLKA的相位为1/4个TCK。

接下来,执行步骤1003,第一时钟信号CLKA经过第一计数器531产生第一采样信号SELA<7:0>,第二时钟信号CLKB经过第二计数器532产生第二采样信号SELB<7:0>。

接着,执行步骤1004,第一采样信号SELA<7:0>并行输入至信号输入端口,第一采样信号SELA<7:0>使得并行的第一数据信号DIN<7:0>转换为串行的第二数据信号DAT,第二数据信号DAT经由第一硅通孔转换为第三数据信号DATD,第三数据信号DATD并行输入至每一触发器的数据输入端,信号输入端口的数量大于第一硅通孔的数量,触发器的数量等于信号输入端口的数量。

最后,执行步骤1005,第二采样信号SELB<7:0>并行输入至每一触发器的时钟输入端,第二采样信号SELB<7:0>使得串行的第二数据信号DAT转换为并行的输出数据信号DATA<7:0>。

这里,第一采样信号和第二采样信号可以在每个第一时钟信号CLKA、第二时钟信号CLKB的上升沿对数据进行采样。

在一些实施例中,第一采样信号在第一时钟信号的上升沿和下降沿对第一数据信号进行采样,使得并行的第一数据信号转换为串行的第二数据信号,第二数据信号DAT还经由第一硅通孔和延时单元转换为第四数据信号。

第二数据信号DAT还经过第一硅通孔和延时单元转换为第四数据DATDD,延时单元用于对第二数据信号DAT进行延时以获得更多的数据采样建立时间。第二采样信号可以在每个第二时钟信号CLKB的上升沿和下降沿对数据进行采样。

综上可知,本实施例提供的一种三维堆叠存储器,第一芯片和第二芯片通过较少的硅通孔实现通信,可以减少硅通孔的失效率,减少芯片的面积,提高信号传输可靠性。

本发明为了便于叙述清楚而采用的一些常用的英文名词或字母只是用于示例性指代而非限定性解释或特定用法,不应以其可能的中文翻译或具体字母来限定本发明的保护范围。

还需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

相关技术
  • 一种集装箱堆叠状态的数据预处理方法及系统
  • 一种实时采集光场真三维数据的处理方法
  • 一种基于北斗卫星与GPS融合的矿区三维形变监测及数据处理方法
  • 一种三维存储器堆栈结构及其堆叠方法及三维存储器
  • 一种三维存储器堆栈结构及其堆叠方法及三维存储器
技术分类

06120115759664