Semidynamics发布完全可定制的四路Atrevido 423 RISC-V内核,用于大数据应用
西班牙巴塞罗那-2023年7月20日-唯一完全可定制的RISC-V处理器IP的提供商Semidynamics推出了Atrevido系列64位内核的下一个成员。Atrevido 423具有更宽的4路管道,允许解码和退役的指令最高是最近推出的2路223内核的两倍。它还与更多功能单元结合,大幅增加了IPC(每周期指令数)。
Semidynamics首席执行官Roger Espasa表示:“Atrevido 423特别适合需要大量数据的应用。当所需的数据无法适应更接近内核的内存层次结构级别(例如L1、L2甚至L3)时,它会大有作为,由于我们的Gazzillion™错过技术,它可以容忍非常大的延迟,而且不影响吞吐量。这可以处理多达128个同时数据请求,并以返回的任何顺序将它们跟踪回正确的位置。Gazzillion™支持内核访问远离内核的存储器层次结构级别,而不会影响带宽或吞吐量。实际上,Gazzillion™ 技术消除了采用CXL技术时可能出现的延迟问题,使远程内存能够以其设计的超高速度访问。因此,Atrevido能够很好地处理AI和HPC工作负载,这些工作负载通常需要快速访问主存中的大量数据。
Atrevido可以配置为具有CHI NoC的相干内核,也可以配置为通过AXI接口连接的更简单的非相干内核。此外,该内核改进了TLB和MMU,而且支持SV39/48/57,非常适合使用Linux运行、占用大量内存的应用程序。无序内核设有可以添加的RISC-V扩展的大菜单。最值得注意的是,它可以配置内部矢量单元,其完全支持最新的RISC-V矢量规范。其他重要扩展包括位操作、加密、单精度FP、双精度FP和半精度FP以及bfloat16。如果目标市场需要,客户还可以选择通过ECC保护数据缓存以及通过奇偶校验保护指令缓存。此外,Atrevido内核完全符合最新的RVA22 RISC-V配置文件。这些内核与工艺无关,已经提供低至5纳米的版本。
Roger Espasa补充道:“Semidynamics拥有市场上最快的内核,即使数据不适合缓存,也能以高频率以每时钟一条缓存线移动大量数据。在右侧节点上,这可以在高达2.4 GHz频率下完成。市场的其余部分平均每很多个周期就有一条缓存线,这与Semidynamics的每个周期都有一条相去甚远。”
支持加密
实现的标量加密扩展遵循最新规范(Zks和Zk),并为SHA2-256、SHA2-512、ShangMi 3、ShangMi 4、AES-128、AES-192和AES-256等算法提供高性能加密。Atrevido 423恒定时间实现提供了抵御侧信道攻击的安全性,同时仍然提供了高性能的加密解决方案。
Open Core Surgery,完全定制
Espasa解释道:“这些最先进内核的客户希望拥有独特的解决方案,并构建自己的特殊秘密酱汁。”。“在提供Open Core Surgery™方面我们做到了独一无二,因为我们开放了内核,可以在其中插入定制指令。这是独一无二的,因为其他公司的内核只能从一组预先确定的选项进行配置。这完全保护了客户的ASIC不被复制,并保护了其在新ASIC中的数百万美元投资。这也意味着它针对功率、性能和面积进行了优化,没有不必要的开销或妥协。”
Semidynamics可以在几周内将客户的“秘密酱汁”功能实现到RTL中,这是其他人无法提供的。Semidynamics还使客户能够快速将其定制内核推向市场,因为第一滴可以在FPGA上运行。这使客户能够检查功能并在其上运行软件,而Semidynamics则进行内核验证。通过并行执行这些操作,可以更快地将产品推向市场,并降低风险。
矢量单元
其中的关键是Semidynamics的矢量单元,它是RISC-V市场上最大的、完全可定制的矢量单元。每个周期可提供高达2048b的计算量,用于前所未有的数据处理。矢量单元由几个“矢量内核”组成,大致相当于一个GPU内核,并行执行多个计算。每个矢量内核都有能够执行加法、减法、融合乘加、除法、平方根和逻辑运算等算术单元。Semidynamics的矢量内核可以定制以支持不同数据类型:FP64、FP32、FP16、BF16、INT64、INT32、INT16或INT8,具体取决于客户的目标应用程序域。以位为单位的最大数据类型大小定义了矢量内核宽度或ELEN。然后,客户选择要在矢量单元内实现的矢量内核的数量,4、8、16或32个内核,以满足非常广泛的功率性能区域权衡选项。一旦做出这些选择,总的矢量单元数据路径宽度或DLEN是ELEN x 矢量内核的数量。Semidynamics支持128b至2048b的DLEN配置。
独特的是,Semidynamics在矢量单元中提供了第二个关键选择:每个矢量寄存器(称为VLEN)的位数也可以根据客户的需求进行定制。虽然大多数其他供应商认为VLEN等于DLEN(即1X比率),但Semidynamics提供2X、4X和8X比率。当VLEN大于DLEN时,矢量运算使用多个周期来执行。例如,当VLEN=2048和DLEN=512时,每个矢量算术运算将需要4个时钟执行。这对于容忍较大内存延迟和降低功耗来说是一个很好的功能。这释放了矢量单元处理Gazzilion不断提供的前所未有的数据位的能力。