客户成果丨华南师范大学《Nature Communications》:超越人类视网膜的微秒级精准感知的自适应机器视觉
华南师范大学半导体科学与技术学院霍能杰课题组在低维仿生器件领域/研究中取得最新进展,该研究成果以“Adaptative machine vision with microsecond-level accurate perception beyond human retina”为题发表在《Nature Communications》上。
视觉自适应器件可简化机器视觉系统中的电路和算法,以适应和感知不同亮度水平的图像,但这受到自适应过程缓慢的限制。本文提出在仿生二维(2D)晶体管中采用雪崩调谐作为前馈抑制,以实现快速、高频的视觉适应行为,达到微秒级的精确感知,其适应速度比人类视网膜和已报道的仿生传感器快 104 倍以上。当光照强度发生变化时,仿生晶体管会自发地在雪崩效应和光电导效应之间切换,其响应度的大小和符号都会发生变化(从 7.6×104 到 -1×103 A/W),从而实现了分别为 108 和 268 μs 的超快散焦和光变适应过程。通过进一步将卷积神经网络与雪崩调谐仿生晶体管相结合,实现了适应性机器视觉,具有显著的微秒级快速适应能力,并能在昏暗和明亮条件下实现精度超过 98% 的稳健图像识别。
图 1|基于 MoS2/WSe2 vdW 异质结构的仿生视觉器件的表征。a、器件示意图。b、组成层的横截面高分辨率透射电子显微镜图像。c、制造器件的扫描透射电子显微镜(STEM)图像和相应的能量色散 X 射线光谱元素(EDS)映射图像。d、MoS2/WSe2 界面的原位表面电位差(SPD)图像。e、处于平衡状态的 MoS2/WSe2 能带图。EF、EC 和 EV 分别代表费米级、导带和价带。f、MoS2/WSe2 vdW 异质结构的 I-V 特性。
器件方案和表征。图 1a 是器件结构和电气连接的示意图和光学显微镜图像。这种结锉效应晶体管(JFET)由超薄的 MoS2 传输沟道和顶部WSe2 栅极组成,MoS2/WSe2 界面的耗尽区和垂直电场可通过顶部栅极电压进行调制,从而控制开关行为和雪崩效应。详细的器件制造过程见 "方法"。图 1b 为横截面高分辨率透射电子显微镜图像,显示了清晰的晶格边缘和超薄的 MoS2(3.93 nm)和 WSe2(3.04 nm)厚度,确保了光滑洁净的范德华(vdW)界面。为了进一步确定堆叠层的组成,图 1c 显示了与组装的 WSe2 和 MoS2 相对应的能量色散 X 射线光谱(EDX)元素图谱和分析图。电场调制在器件运行机制中至关重要,因此必须确保在界面上形成耗尽区和内置电场。通过开尔文探针力显微镜(KPFM)测量,WSe2 和 MoS2 的功函数分别为 4.81 和 4.68 eV,两者之间的表面电位差(SPD)为 135 mV,如图 1d 所示。KPFM 测量的计算方法见方法。由于 MoS2 的功函数较低,电子在接触后会从 MoS2 转移到 WSe2,直至达到平衡状态,从而形成一个方向从 MoS2 指向 MoS2 的内置电场,根据上述分析和之前的报告,WSe2/MoS2 异质结呈现出典型的 II 型能带排列,如图 1e 所示。IGS-VGS 曲线显示出二极管特性,电流整流比高达 104(图 1f),理想系数接近 1,进一步证明了在高质量异质结中形成了耗尽区。
图 2|与光强相关的雪崩和运行机制。a、器件在不同光功率(VGS = -3 V)下的输出特性,Y 轴为对数刻度。b、从输出特性中提取的光电流和雪崩增益与 VDS = 7.5 V 时光功率的函数关系。c、VDS = VEB 时的响应率和 VDS = 7.5 V 时的雪崩响应率与光功率的函数关系。d、我们的器件与之前报道的雪崩光电探测器的雪崩增益和响应率的比较。e、不同光功率下雪崩倍增时 1 - 1/M 与 VDS 的对数图。插图为电离指数与光功率的函数关系。f、不同偏置和功率下的电离率映射。g、TCAD 模拟不同光照条件下的通道电场(上图)和电离率(下图)。红圈代表电路图案。
如图 2a 所示,输出电流和雪崩效应也可以通过入射光刺激进行大范围调节。随着光照强度的增加,光电流在线性和饱和区域内表现为正光电导(PPC),然而,在电离区域,PPC逐渐过渡为负光电导(NPC)。图 2b 显示了在电离区域(VDS = 7.5 V)光强度作为函数的光电流和雪崩增益。光电流先增加到5.1 μA,然后随着光功率的增加减少到-2.2 μA,这类似于自发视觉适应,防止过度刺激信息的输出。随着光强度的增加,雪崩增益从1.5×104下降到-8,表明主要的光感应机制从雪崩效应转移到光电导效应。图 2c 展示了传感器在电离和饱和区域内光强度作为函数的响应度。显著的是,电离区域的响应度在大小和符号上均经历了巨大的变化,范围从7.6×104到-1×103 A/W,而饱和区域的变化则略微,从158到5 A/W。电离区域的灵敏度演变与视网膜相似,证明了设备模型的可靠性。值得注意的是,漏电流比泄漏电流高出超过103,验证了雪崩效应的有效性和设备的高可靠性。
对于人类视网膜,通过将环境从暗变亮,光感受器包括高灵敏度的杆细胞和低灵敏度的锥细胞会交替主导感知功能。我们的设备中雪崩效应和光电导效应之间的转换类似于视网膜中杆细胞和锥细胞之间的切换。通过这种方式,随着光照条件的变化,雪崩调节赋予了JFET视觉行为。视网膜的灵敏度随着时间的推移逐渐变化,这是一种长期的视觉适应过程,因为光感受器细胞的切换受反馈抑制和视色素的再生/漂白控制。相比之下,我们设备在雪崩电离区的灵敏度演变是光适应性和实时的,确保了对环境变化的即时感知,避免了视网膜长期暗视和明视觉适应过程可能造成的潜在危害。值得注意的是,光感应机制的转换伴随着符号反转和幅度变化,雪崩增益和光响应度在强弱光刺激下的灵敏度变化超过5个数量级,这有助于图像对比度增强,优于视网膜和已有的仿生设备的视觉适应。
通过比较图 2d 中的灵敏度和雪崩增益,我们的设备展示了优越的雪崩光探测特性,雪崩增益达到1.5×104,光响应度高达7.6×104 A/W,显示出在弱光检测和暗环境清晰可视化中的巨大潜力,充当仿生视觉传感器。图 2e 显示了电离指数随光强度变化的趋势,首先增加然后减少,其趋势与图 2b 中观察到的光电流演变一致,表明光对漏极侧电离率的有效调制。图 2f 展示了电离率映射,再次验证了操作机制从雪崩效应转变为光电导效应。
为了进一步解释光调节雪崩效应,图 2g 展示了不同光照条件下TCAD模拟的电场和电离率。内建电场与光功率成反比,在强光下几乎消失,这是由于MoS2/WSe2结处的反向光生电压抵消了内建电场。进一步分析,随着光的增加,电离区面积先增加后减少,这取决于光生电压对MoS2通道中雪崩增益的抑制程度。在弱光条件下,电场略受影响,光生载流子的雪崩增益占主导。在强光照下,电场显著减弱,并伴随着耗尽区逐渐消失,这随后会抑制雪崩效应并降低光响应灵敏度。TCAD对电场和电离率的模拟结果与实验结果高度匹配,表明光调节雪崩效应可以模拟视觉适应功能。
与之前的2D仿生设备不同,我们的设备通过引入高效的仿生神经网络优化了视适应,如图 2h 所示。在该网络中,雪崩效应和光电导效应可以分别模拟杆细胞和锥细胞的功能,因为雪崩效应的光敏感度比光电导效应高4个数量级。光生电压在MoS2/WSe2结处的方向与内建电场相反,可以看作是调节雪崩效应的抑制细胞。光(刺激)、“光生电压”(抑制细胞)和“雪崩”(杆细胞)可以形成一个前馈抑制回路,其中“雪崩”接收刺激和抑制信息,避免在明视觉适应条件下输出过电流。在强光照条件下,雪崩效应被抑制,光感应机制转变为“光电导”(锥细胞)。相反,通过将光刺激变为弱条件,机制从“光电导”转变为“雪崩”,对应于暗视觉适应过程。对于明视觉和暗视觉适应,“光电导”和“雪崩”之间的转换比视网膜中通过化学反应的锥细胞和杆细胞之间的转换快得多。值得注意的是,由“输出电流”、“雪崩”和“光电导”形成的前馈激发回路表现出多重调制特性,有效提高了信噪比。因此,通过引入前馈电路作为快速切换机制,我们的设备在视适应方面相比于人类视网膜和已有的仿生传感器具有显著优势。
图 3|自适应机器视觉。a、基于卷积神经网络的机器视觉图像识别示意图。b、图像识别率与亮度条件的函数关系。减号和加号分别代表亮度条件与标准亮度相比的下降和上升。c、d 在(c)标准亮度条件和(d)+20%亮度条件下 10,000 次测试结果的混淆矩阵。e、f 自适应机器视觉的识别率与(e)散光适应和(f)光适应的时间函数关系。插图显示了 MNIST 图像 "7 "的视觉适应模拟结果。
深度学习中的卷积神经网络 (CNN) 在机器视觉的图像识别功能中起着至关重要的作用,但图像亮度对其准确性有显著影响。图 3a 显示,为评估典型三层CNN在不同亮度条件下的图像识别性能,我们使用了60,000张具有不同亮度级别的MNIST数据集图像作为训练集,并进行了30次训练。值得注意的是,在训练过程中,我们将图像亮度作为一个明确的附加参数输入到网络中。CNN深度学习的详细过程见方法部分。图 3b 显示,网络在亮度逐渐降低过程中表现出卓越的鲁棒性,保持了98.3%的准确率。然而,随着亮度增加,准确率显著下降,这归因于神经网络难以准确捕捉过曝图像的关键特征。为了量化亮度增加对图像识别的影响,图 3c 和 3d 中的混淆矩阵展示了在标准和亮度增加20%条件下进行的10,000次图像识别试验结果。令人担忧的是,在亮度增加20%的条件下,准确率仅为83%,表明即使CNN在固定数据集上获得了亮度参数,也无法提高分类特征的准确性。
为了扩大图像感知的亮度范围并提高在亮度条件下的识别准确率,我们采用了一种将卷积神经网络与仿生MoS2/WSe2晶体管相结合的策略,构建了一种自适应机器视觉系统。该系统基于CNN具备精确的图像识别能力,并通过仿生晶体管实现了超快速的视觉适应。在图 3e 和 3f 中,我们选择数字“7”作为测试图像特征,通过激光提供照明,并将亮度数据通过电流映射导入CNN进行处理。在暗视适应下,准确率在短短9.5 μs内飙升至98.3%,而在明视适应过程中,仅需174 μs即可快速攀升至98.2%。这验证了自适应机器视觉在不同亮度环境下具备快速适应和精确图像识别能力。插图展示了MNIST图像在适应过程中的对比变化,强调了自适应机器视觉系统高效捕捉和分析图像特征所需的图像对比度。简而言之,自适应机器视觉凭借其微秒级的适应时间,在不同亮度和环境条件下显著提高了图像识别的准确性和速度。它在面部识别和自动驾驶等关键应用场景中具有巨大的潜力,能够快速调整到所需的亮度和大气条件,从而提高实时图像处理的效率。此外,扩大图像感知的亮度范围,简化硬件和算法的复杂性,增强传感终端的图像处理能力,推动机器视觉技术的进一步发展。
该工作中通过使用TuoTuo Technology的无掩膜光刻机完成了仿生视觉器件的制备工作。
华南师范大学李翎博士为第一作者,霍能杰教授为论文的通讯作者。
论文链接:
https://doi.org/10.1038/s41467-024-50488-6