引言:
随着集成电路设计复杂度的不断提升,硬件仿真系统在现代芯片设计流程中扮演着越来越重要的角色。基于FPGA(现场可编程门阵列)的商用硬件仿真系统因其灵活性、全自动化、高性能和可重构性,成为验证大规模集成电路设计的重要工具。然而,随着设计规模的扩大和复杂度的增加,硬件仿真系统的编译过程面临着诸多挑战。本文旨在探讨基于FPGA的硬件仿真系统在编译过程中所遇到的关键问题,并提出相应的优化策略。
硬件仿真的编译流程涉及多个步骤,从硬件描述语言(HDL)的编译到最终生成FPGA比特流,每个步骤都对最终仿真的性能和编译时间有着重要影响。本文将详细分析这些步骤中的优化挑战,并提出一些可能的解决方案,以帮助设计者在保证仿真性能的同时,最大限度地减少编译时间。
1、硬件仿真的编译流程
硬件仿真的编译流程是一个复杂的过程,包括多个步骤:预处理、综合、分割、布局布线、引脚分配、技术映射、FPGA布局和布线,直到最终为每个FPGA生成比特流。它起始于由Verilog、SystemVerilog或VHDL等硬件描述语言编写的设计代码。这些代码虽然描述了电路的功能和行为,但并不能直接用于FPGA仿真,因此需要经过一系列步骤的转换和优化。
在编译过程中,EDA工具需要进行逻辑重构,将设计中不可合成的部分转换为可合成的电路。例如,SystemVerilog中的断言(assertions)和时序检查(timing checks)等高级语言特性需要被转换为等效的硬件电路。此外,硬件描述语言与外部环境的交互(如DPI(Direct Programming Interface)功能、系统任务或系统功能)也需要通过定义良好的仿真器接口(如SCE-MI(Standard Co-Emulation Modeling Interface))转换为特殊的电路模块。
编译过程其实就是将硬件描述语言转换为具有层级网络拓扑的多FPGA硬件仿真系统中的实现。在整个编译流程中,最大化运行性能和最小化编译时间是关键挑战。EDA供应商提供的硬件仿真系统通常提供多种优化选项和技术,以帮助设计师在编译过程中平衡这两个方面。例如,通过优化逻辑重构、全局布局和布线等步骤,可以减少编译时间并提高仿真性能。同时,合理的引脚分配和技术映射也可以确保设计在目标FPGA上的正确实现和高效运行。接下来我们将重点一一分析。
2、综合挑战(Synthesis)
在基于FPGA的硬件仿真领域,综合(Synthesis)是将高级硬件描述语言(HDL)精确转换为底层逻辑网表的关键步骤。此过程不仅要求将设计准确映射到FPGA的逻辑资源上,还需应对ASIC设计与FPGA架构间存在的本质差异。以下将详细探讨综合过程中面临的主要挑战,并提出相应的优化策略。
2.1逻辑优化与资源分配
面对大型设计(如200亿门级别),逻辑优化对于提升性能至关重要。优化策略包括:
- 持续传播与无负载消除:通过传播信号值并消除未使用的逻辑元素,以减少冗余,提升设计效率。
- 因式分解:将复杂的逻辑表达式分解为更简单的部分,便于FPGA资源的高效利用。
- 重新定时:调整逻辑操作的执行时序,以优化整体性能和资源占用。
在资源分配方面,需平衡多种资源类型,如内存(DDR、BRAM、LUTRAM、FF)和算术运算单元(DSP、进位链、LUT)。由于FPGA资源有限,且不同资源在性能、功耗和面积方面存在差异,因此需根据设计需求进行精心选择。这通常涉及对设计需求的深入理解及对FPGA架构的熟悉。
2.2时钟域处理
ASIC设计与FPGA设计在时钟域处理上存在显著差异。ASIC具有实现复杂时钟结构的灵活性,而FPGA则依赖专用时钟布线资源来保证低时钟偏差。因此,在处理FPGA上的ASIC设计时,需特别注意时钟管理:
- 派生时钟的优化:识别并优化组合门控时钟和顺序生成时钟,以减少对FPGA时钟资源的占用。这通常涉及对时钟信号的重新分配和门控逻辑的优化。
- 低功耗设计的考虑:在低功耗设计中,许多时钟由使能控制电路进一步门控。因此,需考虑断电电路对时钟的影响,并采取相应的优化措施。
2.3控制集缩减
FPGA中的LUT和FF通常按固定分组(如Xilinx的SLICE或Altera的LAB)组织。这些分组共享相同的控制信号(时钟、同步启用、设置/重置)。若技术映射后的网表包含过多具有唯一控制信号的触发器,将导致控制集问题,增加资源占用和布局布线难度。
为解决这一问题,可采取以下策略:
- 控制信号共享:在可能的情况下,将具有相同控制信号的触发器组合在一起,以减少唯一控制集的数量。这有助于降低资源占用并简化布局布线过程。
- 优化技术映射:在映射过程中考虑FPGA架构特点,优化逻辑分配以减少控制集冲突。例如,可尝试将逻辑更紧密地组织在一起,以减少跨不同控制集的逻辑连接。
通过实施上述优化策略,可显著提升FPGA硬件仿真的性能和效率。这将有助于缩短设计周期、降低开发成本并提升产品质量。
3、分割挑战(Partitioning)
分割问题是将DUT划分为数百个部分,以便每个部分都可以在FPGA内实现,而不会超过预先指定的逻辑利用率。传统上,分割的目标是最小化切割尺寸,学术界和工业界都认为hMetis有效地解决了这个问题。因此,我们将列出基于FPGA的硬件仿真中特定的分割问题的挑战如下。
- 对于具有数十亿个门的DUT,在构建用于分割的超图时,必须尽可能多地利用设计层次。一个大小合理、接口信号数量最少的设计实例通常被选择为一个不可分割的块,并在超图中表示为一个节点进行划分。对于强调性能优化的硬件仿真,必须扩展此块选择标准以考虑性能方面。然而,在不形成分割的情况下识别时序关键块需要与最终时序良好相关的有效时序估计。
- 对于强调高性能的硬件仿真,切割大小并不是仿真性能的准确指标。与切割中的每个信号相关的延迟取决于两个因素。第一个因素是该切割信号布线经过的FPGA间跳数。FPGA间越多的跳数通常意味着越大的延迟。延迟的第二个因素是该切割信号布线中每个FPGA间的TDM比。不幸的是,在布线完成之前,这两个因素的确切值都是不可用的。需要发明一个足够准确的延迟估计,以便分割器朝着性能目标进行优化。此外,这个延迟估计的计算应该足够快,这样它就不会显著减慢分割时间。
- FPGA P&R的成功需要合理的利用逻辑约束来进行分割。然而,这往往不足以保证FPGA P&R的成功。因此,我们希望找到一个区域分布尽可能均匀的分割,但代价是分割质量的下降,例如切割尺寸的增加。这种FPGA-P&R友好的分割应该在不增加太多分割时间的情况下获得。
- 逻辑复制已被证明在提高性能方面是有效的。基于给定的分割结果,我们可以进行时序分析,提取关键路径信息,并根据FPGA P&R的逻辑利用率约束决定复制的逻辑以获得更好的性能。这里可以应用性能驱动的逻辑复制技术。此外,如果分割者能够预见逻辑复制对性能优化的潜力,并考虑到逻辑复制在分割过程中对性能的影响,那么进一步的改进是可能的。
……
全文阅读/下载可至:思尔芯官网-热门资源-技术文档