深度学习中的关键词消融:技术解析与应用探索
文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性
随着数字化转型的深入,处理电子文档成为关键任务。电子文档数量增长,人工处理耗时且成本高。文档智能技术应运而生,利用计算机自动识别、理解和分析电子文档,显著提升生产力。微软亚洲研究院推出通用文档理解预训练模型LayoutLM系列,不断优化文档文本、布局和视觉信息预训练性能。LayoutLMv3最新版本在文本和图像任务上表现出色,迈出了跨模态对齐的一大步。
电子文档包含丰富图像和文本信息,其自动识别、理解和分析对个人和企业至关重要。文档智能技术自动处理合同、票据、报告等信息,提高生产效率。然而,特定任务设计的深度学习方法依赖有限标注数据,获取详细标注昂贵且耗时。为解决这一问题,微软亚洲研究院转向无标注数据,利用自监督预训练技术。近年来,预训练在深度学习领域广泛应用,文档智能领域也取得显著进展。
LayoutLMv3通过统一文本和图像掩码建模目标预训练多模态模型,学习重建遮盖词ID与遮盖图像块ID,解决了文本与图像预训练目标差异,促进了多模态表征学习。模型架构简单,直接利用文档图像的图像块,节省参数,避免复杂预处理。实验结果显示,LayoutLMv3在多个数据集上以更少参数达到更优性能。
LayoutLMv3通过三个预训练目标以自监督方式学习多模态表示,微调应用于多种多模态与视觉任务,性能超越SOTA结果。消融实验证明图像表示与预训练目标的有效性,强调跨模态表示学习的重要性。中文模型也表现出色,验证了通用性和优越性。
未来,微软亚洲研究院将继续探索模型规模扩大与少样本学习能力扩展,推动文档智能在更多业务场景中的应用。LayoutLMv3论文与代码已开源,为学术研究与工业应用提供支持。
DeepVQE:用于联合声学回声消除、噪声抑制和去混响的真实的深度语音质量增强(论文翻译及代码实现)
DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation
Evgenii Indenbom, Nicolae-Catalin Ristea, Ando Saabas, Tanel Pärnamaa, Jegor Guzvin, Ross Cutler (2023)
url:
本文提出了一种实时交叉注意深度模型DeepVQE,旨在解决现代全双工通信系统中声学回声消除(AEC)、噪声抑制(NS)和去混响(DR)的挑战。传统方法将这些任务分别处理,采用基于数字信号处理(DSP)的组件,形成复杂且难以在实际应用中部署的管道。DeepVQE基于残差卷积神经网络(CNN)和递归神经网络(RNN),以同时解决这三个问题。通过进行消融研究,分析模型不同部分的性能贡献,证明单个模型能够以出色的性能处理多个任务。实验证明,DeepVQE在ICASSP 2023的声学回声消除挑战赛和深度噪声抑制挑战赛中取得最先进性能,表明其在非个性化场景下的优越性。此外,模型实时运行,并在Microsoft Teams平台上成功测试。
关键词:回声消除,噪声抑制,去混响,语音增强,深度学习,实时处理
1. 介绍
随着远程工作和在线教育的兴起,电话会议系统的需求大幅增加,对通话质量提出更高要求。噪声、声学回声是影响通话质量的关键因素,直接影响语音清晰度和沟通效率。全双工通信中,解决回声、噪声和混响问题对实现无缝通信至关重要。现有研究多针对单任务优化,例如AEC、NS或DR,但实际通信环境复杂多变,这些方法难以全面满足需求。因此,开发能够协同处理这些任务的深度学习模型成为关键。
相关工作如MTFAA-Net等尝试简化通信流水线,同时提高AEC和NS性能。但这些方法仍依赖于传统DSP组件。本文提出了一种创新方法,通过联合深度学习模型同时消除回声、噪声和混响。我们分析了模型的组成部分,以理解其整体性能贡献。实验证明,DeepVQE在ICASSP 2023的挑战赛中表现突出,尤其是在非个性化场景下,其性能优于其他模型。
2. 方法
本文方法基于一种新的交叉注意机制,用于软对齐麦克风和远端信号特征。模型架构结合了多个组件,包括门控递归单元(GRU)瓶颈、残差块、复卷积掩模块(CCM)和子像素卷积块。这些设计旨在优化AEC、NS和DR性能。实验证明,DeepVQE在联合任务中展现出色性能,足以应对低端设备的实时处理需求,并在Microsoft Teams上成功应用。
3. 实验
本文通过在线合成数据集,确保模型泛化能力,并在ICASSP 2023的AEC和NS挑战赛中测试模型性能。实验结果表明,DeepVQE在回声移除、噪声抑制和去混响任务中表现出色,特别是在语音清晰度和用户体验方面。模型的实时性与性能的平衡使其适用于实际通信场景。
4. 结论
本文提出的DeepVQE模型提供了一种实时处理全双工通信中声学回声、噪声和混响问题的解决方案。通过联合优化多个任务,DeepVQE显著提高了通话质量,实现了无缝通信体验。未来研究将侧重于进一步提升模型性能和个性化适应能力。
参考文献
...
10 本机器学习精选书籍推荐!(文末有福利)
以下是精选的十本机器学习相关书籍推荐:
《深度学习》
本书是深度学习领域的奠基性经典图书,自2016年上市以来,始终位居亚马逊人工智能类图书第1位。三位全球知名专家Ian Goodfellow、Yoshua Bengio和Aaron Courville共同撰写。本书分为三部分,介绍基本数学工具与机器学习概念、成熟深度学习方法与技术,以及前瞻方向与研究重点。适合相关专业学生及工程师阅读。
了解更多:深度学习-图书 - 异步社区
《机器学习Web应用》
本书讲解如何用Python、Django框架开发Web应用,并利用sklearn、scipy、nltk等工具处理数据。适合数据科学家和对机器学习、Web数据挖掘感兴趣的读者。
了解更多:机器学习Web应用-图书 - 异步社区
《机器学习实践应用》
本书全面介绍了机器学习的理论与实践,涉及算法、工具、案例和知识图谱等内容。适合有数据基础和编程经验的读者,以及计算机专业学生和人工智能爱好者。
了解更多:机器学习实践应用-图书 - 异步社区
NLTK基础教程
NLTK库在自然语言处理领域广受欢迎。本书介绍了如何利用NLTK与Python库实现复杂NLP任务和机器学习应用。适合NLP、机器学习领域的爱好者、Python程序员和研究者。
了解更多:NLTK基础教程-图书 - 异步社区
《机器学习与数据科学》
本书指导读者掌握数据科学项目中的机器学习工具与技巧,涉及数据处理、探索性分析、监督学习、非监督学习和模型评估。适合数据科学家、分析师和科研人员。
了解更多:机器学习与数据科学-图书 - 异步社区
《实用机器学习》
本书围绕实际问题介绍机器学习算法,从数据探索、预处理到算法模型,适合解决实际问题的工程技术人员和相关专业学生。
了解更多:实用机器学习-图书 - 异步社区
《Python机器学习实践指南》
结合机器学习和Python语言,本书通过算法示例展示Python在数据分析的优势。适合Python程序员、数据分析人员和机器学习从业者。
了解更多:Python机器学习实践指南-图书 - 异步社区
《贝叶斯方法》
本书基于PyMC语言,讲解贝叶斯推断原理和实现方法,适合机器学习、贝叶斯推断和概率编程领域从业者和爱好者。
了解更多:贝叶斯方法-图书 - 异步社区
《TensorFlow技术解析与实战》
TensorFlow是深度学习主流框架,本书从基础到实战深入解析。适合对深度学习和TensorFlow感兴趣的读者。
了解更多:TensorFlow技术解析与实战-图书 - 异步社区
《概率编程实战》
本书引领读者进入概率编程领域,适合入门级读者和有一定基础的程序员,讲解如何使用概率模型解决实际问题。
了解更多:概率编程实战-图书 - 异步社区
福利彩蛋:在评论中回复你最想看的书籍名称,即日起至8月10日,将从评论中抽取10名幸运用户,免费赠送以上十本精选书籍一本。快来参与吧!
X光在医学上有哪些应用?
1,X射线在放射诊断中的应用
当X射线能够穿透人体的过程中,受到人体内的各部分不同程度的吸收,人体通过吸收X射线后的量的不同产生的结果也不一样,如我们人体的骨骼如果吸收的X射线后我们通过观察发现人体肌肉没有人体骨骼吸收X射线的量多,通过人体吸收的X射线后患者就携带了人体各部分密度分布的信息,我们经过显影技术、定影技术之后显示出不同密度的阴影,这时候医生通过影像结合相关的临床表现以及化验结果和病理检查结果可以有效的诊断出患者的某一特定部分是否正常,是否有病灶出现。一些部位如胃肠道仍主要使用X射线检查,骨骼系统和胸腹部也多选用X射线检查。其中胸部检查主要用于肺炎行实变、纤维化、钙化、肿块、肺不张、肺间质病变、肺气肿、空洞、支气管炎症及支气管扩张、胸腔积液、气胸、纵膈肿瘤等的诊断;腹部X线检查一般有腹部平片、消化道造影、胆囊造影,主要用于食管静脉曲张、食管裂孔疝、肿瘤(结直肠)、息肉、肠结核、肠梗阻、胆囊炎症、结石、胆道蛔虫病的诊断;骨、关节X线检查主要用于骨折、炎症性和退行性骨、关节病变、风湿病、化脓性骨髓炎、骨、关节肿瘤、结核以及脊柱形态改变的诊断;泌尿系统X线检查主要用于泌尿系统结石、肾癌、肾盂扩张、积水等的诊断。
2,X射线在放射治疗中的应用
X射线属于一种电磁辐射,可以使被照射的组织细胞受到抑制或者破坏,医学上根据X射线的这种生物效应来抑制或消除人体内的某些特定下包,从而达到治疗某些疾病的目的。自20世纪90年代以来,科学的发展和设备的不断更新肿瘤放射治疗学发展的非常快速,三维适形放射治疗、调强放射治疗、影像引导放射治疗、立体定向放射治疗等放疗技术已经被临床广泛应用,并取得了非常好的治疗效果,也非常受患者和医生的青睐。此外,X线在血管造影、血管支架植入、心律失常射频消融、放射引导脓肿穿刺、放射引导下小儿肠套叠治疗等都有很好的应用。总之,在我们现代医诊断和治疗中,放射诊断与放射治疗的被我们现代医学广泛的应用在患者的病灶观察中,并且在医学届有举足轻重的位置。随着现代医学的不断发展,放射技术在疾病的诊断与治疗中都显现出了非常重要的价值
TUM博士最新开源!很适合SLAM消融实验的结构化数据集!
最近,SLAM领域在进行深度学习相关的消融实验时,存在数据处理不透明和对比实验条件不一致的问题,这使得新设计的模块的有效性验证存在困难。为解决这一问题,TUM的李博士推出了一款名为Open-Structure的数据集,旨在为SLAM消融实验提供支持。该数据集的独特之处在于提供了一系列结构化数据,如2D/3D点线观测、匹配关系、结构化地图等,这使得研究者可以直接针对特定模块进行评估。
Open-Structure数据集由16个基于真实场景的序列和6个由开源baseline生成的仿真序列组成,所有序列都遵循一致的格式。数据集提供点和线测量值,通过位姿和特征观测维护局部地图,并利用地图到帧的匹配优化位姿。此外,数据集还量化了每帧的特征数量,以及基于占用网格的特征分布,为分析测量与姿态估计之间的关系提供依据。
在论文中,李博士详细介绍了数据集的生成和评估过程。真实世界序列直接从ICL-NUIM、TUM和Tartanair等数据集中获取,并使用ORB和FLD进行特征提取。模拟序列通过设计3D场景和轨迹生成,并随机分布路标以增强数据集的多样性。baseline架构用于初始化和优化过程,评估模块包括相机姿态跟踪、参数化和优化。
实验部分通过使用Open-Structure数据集评估了不同位姿估计策略和优化方法,包括Frame-to-Frame和Map-to-Frame策略,以及ORB-SLAM2和PL-SLAM的优化策略。结果显示,Map-to-Frame方法在精度上优于Frame-to-Frame方法,尤其是在具有挑战性的场景中。此外,实验还探讨了测量和姿态计算的鲁棒性,强调了在帧中检测足够匹配关系的重要性,以及2D线在优化轨迹精度中的作用。
总结来说,Open-Structure数据集为SLAM领域的研究者提供了一个评估模块有效性的强大工具。它不仅提供了丰富的结构化数据,还通过仿真序列增强了数据集的多样性和挑战性。未来,李博士计划探索新的参数化和优化策略,以实现更准确和鲁棒的姿态估计和重建性能。对于感兴趣的读者而言,这是一个值得尝试的数据集,它有望推动SLAM技术的进步。
PSPNet——金字塔池化模型
PSPNet是一种通过引入金字塔池化模块实现多尺度特征深度融合的深度学习模型。其主要特点和优势如下:
设计理念:
解决FCN不足:PSPNet旨在解决FCN在捕捉全局上下文线索方面的不足。全局与局部信息:通过金字塔池化模块,实现对全局和局部信息的精准把握。核心模块:
金字塔池化模块:不同尺度池化块:融合来自不同区域的特征,保持空间关系的完整性。丰富全局语境信息:获取丰富的全局语境信息,提升语义分割性能。技术细节:
特征融合机制:自适应池化、1x1卷积、上采样和通道拼接等步骤协同工作,形成强大的特征融合机制。基础特征提取:使用预训练的ResNet提取基础特征。池化与上采样:通过池化、上采样和通道级的融合,实现对全局场景的深度洞察。池化核大小:不同层级的池化核大小对特征提取至关重要,保证信息的全面性和网络结构的合理性。性能优化:
Dilated ResNet:融入Dilated ResNet,提升模型性能。辅助损失函数:使用辅助损失函数,与主分支分类损失协同优化。模型参数选择:通过消融实验,采用B11236池化方式和适当的AL权重,优化模型性能。实际应用:
场景解析任务:在ADE20K和Cityscapes等数据集上,PSPNet的解析效果明显优于基础模型。图像理解领域:展示出强大的实力,为场景解析任务带来革命性突破。Imagic: 基于文本的真实图像编辑与扩散模型
原文:Imagic: Text-Based Real Image Editing with Diffusion Models
一、简介
在文字条件下进行图像编辑近期引起了广泛兴趣。当前大多数方法受限于特定编辑类型(例如,对象叠加、风格迁移)或适用于合成图像,或需要多个输入图像以实现共同对象的编辑。Imagic方法首次展示了在单一真实图像上实现复杂(如非刚性)文本引导的语义编辑的能力。例如,能够改变图像中一个或多个目标的姿势和组成,同时保持原始特征。方法可以实现如让一只站立的狗坐下或跳起,让一只鸟张开翅膀等效果。每个目标都在用户提供的单张高分辨率自然图像中。与以往工作不同,Imagic仅需一张输入图像和目标文本(所需编辑),操作直接在真实图像上进行,无需额外输入(如图像mask或目标的其他视图)。Imagic利用预训练的文本到图像的扩散模型,产生与输入图像和目标文本一致的文本嵌入,同时对扩散模型进行微调以捕捉图像特定外观。在不同领域输入上展示了高质量和多功能性的图像编辑,实现了大量复杂语义图像的统一框架。
长期以来,对真实照片进行非微小语义编辑一直是一项有趣的图像处理任务。基于深度学习的系统近年来取得了显著进展,使得这一任务特别引人注目。当编辑由简单自然语言文本提示描述时,图像编辑尤为吸引人,与人类交流高度吻合。许多基于文本的图像编辑方法被开发出来,不断改进,显示了有希望的结果。然而,当前领先方法在一定程度上存在以下问题:(i)局限于一组特定编辑,如在图像上绘画、添加目标或迁移风格;(ii)只能操作特定领域图像或合成图像;或者(iii)除了输入图像外还需额外输入,如表示编辑位置的图像mask、同一主题的多个图像或描述原始图像的文本。
本文提出了一种语义图像编辑方法,旨在解决上述所有问题。Imagic仅需给定一张待编辑的输入图像和描述目标编辑的单一文本提示,就能在真实的高分辨率图像上进行复杂的非刚性编辑。生成的图像输出与目标文本高度匹配,同时保留原始图像的整体背景、结构和组成。例如,可以让两只鹦鹉接吻或让人竖起大拇指。Imagic提供了基于文本的语义编辑的第一个实例,将如此复杂操作应用于单个真实的高分辨率图像,包括对多个对象的编辑。除了复杂的变化,Imagic还能进行各种各样的编辑,包括风格变化、颜色变化和对象添加。
为了实现这一目标,我们利用了最近成功的文本到图像的扩散模型。扩散模型是强大的先进生成模型,能够进行高质量的图像合成。当以自然语言文本提示为条件时,它们能够生成与要求的文本相一致的图像。在本工作中,我们将它们用于编辑真实图像,而非生成新的图像。实现这一过程包括三个步骤:首先优化文本嵌入,使其产生与输入图像相似的图像。其次,对预训练的生成性扩散模型进行微调,以优化嵌入,更好地重建输入图像。最后,在目标文本嵌入和优化后的嵌入之间进行线性插值,从而获得结合输入图像和目标文本的表示。将此表示传递给生成扩散过程和微调后的模型,生成最终编辑过的图像。
为了验证Imagic的实力,我们进行了多个实验,将其应用于不同领域的众多图像。我们的方法在所有实验中都产生了出色的结果,输出的高质量图像与输入图像高度相似,并与所要求的目标文本保持一致。这些结果展示了Imagic的通用性、多功能性和质量。我们还进行了一项消融研究,强调了提出方法中每个元素的效果。与文献中提出的最近的和同时存在的方法相比,Imagic表现出明显更好的编辑质量和对原始图像的忠实度,尤其是在执行高度复杂的非刚性编辑任务时。主要贡献总结如下。
二、相关工作
随着图像合成质量的提高,许多工作利用预训练生成对抗网络(GANs)的潜在空间来进行各种图像处理。在真实图像上应用这样的操作需要一个与每个给定图像相对应的潜空间表示,以便将表示输入生成模型以产生与输入相似的图像。反转此过程通常分为基于优化的技术和基于编码器的技术。为了提高输入图像的保真度而不降低编辑质量,后来的工作修改了生成模型,为给定输入创建了专门的模型。除了基于GAN的方法,还有技术利用其他深度学习系统进行图像编辑。
最近,扩散模型被用于类似的图像处理任务,取得了显著结果。SDEdit限制于全局编辑,仅对图像添加可能由用户提供的笔触增加,并使用以所需编辑为条件的扩散过程进行降噪。DiffusionCLIP利用语视模型梯度、DDIM反演和模型微调,使用特定领域的扩散模型编辑图像。也有技术建议通过合成用户提供的mask中的数据来编辑图像,同时保持图像的其他部分不受影响。Liu等人使用一个文本和一个图像引导扩散过程,合成与给定图像相似,并与给定文本对齐。Hertz等人通过操纵交叉注意力层改变文本到图像的扩散过程,为生成的图像提供更精细的控制,并在DDIM反转提供有意义的注意力图的情况下编辑真实图像。文本反演和DreamBooth综合了给定主体的3-5张图像和目标文本的新观点(而不是编辑单一图像),其中DreamBooth需要额外的生成图像来微调模型。本文提供了一个基于文本的语义图像编辑工具,该工具在单一的真实图像上操作,保持高保真度,并根据单一的自由格式文本提示进行复杂的非刚性编辑。
三、Imagic: 基于扩散的真实图像编辑
扩散模型是一个生成模型系列,最近获得了牵引力,因为它们推进了图像生成的最先进技术,并被部署在各种下游应用中,如图像修复、对抗性净化、图像压缩、图像分类以及其他应用。这些模型的核心前提是用随机采样的噪声图像进行初始化,然后以一种可控的方式对其进行改进,直到它被合成为逼真的图像。每个中间样本都满足以下条件:扩散时间表的超参数、每个细化步骤包括在当前样本上应用神经网络,然后进行随机高斯噪声扰动,得到前一个样本。网络被训练为一个简单的降噪目标,目标是通过学习图像分布对目标分布的高保真度,使得生成性能非常好。
这种方法可以扩展到学习条件分布,通过增强降噪网络,网络及其结果扩散过程可以忠实地从以条件输入的数据分布中采样。条件输入可以是所需图像的低分辨率版本或一个类别标签。此外,条件输入也可以是描述所需图像的文本序列。通过纳入大型语言模型或混合视觉-语言模型的知识,这些文本到图像的扩散模型释放了用户使用仅用描述所需场景的文本提示生成现实的高分辨率图像的新能力。在所有这些方法中,首先使用生成性扩散过程合成低分辨率图像,然后使用辅助模型将其转化为高分辨率图像。
四、实验
为了测试Imagic,我们将其应用于来自不同领域的大量真实,使用简单的文字提示描述不同的编辑类别,如风格、外观、颜色、姿势和构图。从Unsplash和Pixabay收集高分辨率免费。经过优化,我们用5个随机种子生成每个编辑,并选择最佳结果。Imagic展示了令人印象深刻的结果,它能够在任何一般的输入图像和文本上应用各种编辑类别。我们在图1和图7中展示了示例结果。我们还通过在图2中对同一图像进行不同文字提示实验,展示了Imagic的多功能性。由于底层生成性扩散模型具有概率性,我们的方法为单一图像-文本对产生不同的结果。在图4中,展示了使用不同随机种子进行编辑的多个选项,对每个种子的值进行轻微调整。这种随机性允许用户在这些不同的选项中进行选择,因为自然语言文本提示通常模糊和不精确。
五、结论和未来工作
我们提出了一种新的图像编辑方法,Imagic,接受一张和描述所需编辑的简单文本提示,并旨在应用这种编辑,同时最大限度地保留的细节。为此,我们利用一个预训练的文本到图像的扩散模型,并利用它来寻找代表输入图像的文本嵌入。然后,对扩散模型进行微调以更好地适应图像,最后在代表图像的嵌入和目标文本嵌入之间进行线性插值,获得它们之间有语义的混合。这使得我们的方案能够使用插值嵌入提供编辑过的图像。与以往编辑方法不同,Imagic可以产生复杂的非刚性编辑,可以根据要求改变图像的姿势、几何形状和/或组成,以及更简单的编辑,如风格或颜色。它在这样做时,要求用户仅提供一张和一个简单的目标文本提示,而无需额外辅助输入,如图像mask。
未来工作可能集中在进一步提高方法对输入图像的保真度和识别性,以及对随机种子和插值参数的敏感性。一个有趣的探索方向是开发一种自动方法,为每个要求的编辑选择参数。参考文献包括对文本嵌入优化步骤数量的评估、不同种子的影响分析、在单一输入上的种子比较,以及对失败案例的分析。这些研究将有助于优化Imagic方法,并拓展其在图像编辑领域的应用。
ICLR 2022 | 香侬科技GNN-LM:基于全局信息的图神经网络语义理解模型获单项满分
在ICLR 2022的论文评选中,香侬科技的3篇研究论文被大会收录,研究方向涵盖通用自然语义理解、NLP神经网络模型的安全性、自动机器学习(AutoML)。其中,与浙江大学、新加坡南洋理工大学等合作提出的“基于图神经网络的语义理解模型GNN-LM”获得了单项评审满分(10分)。
论文标题为《GNN-LM:基于全局语境的语言模型》。
论文作者包括:Yuxian Meng, Shi Zong, Xiaoya Li, Xiaofei Sun, Tianwei Zhang, Fei Wu, Jiwei Li。
论文链接:arxiv.org/abs/2110.0874...
接收会议:ICLR 2022
代码链接:github.com/ShannonAI/GN...
如今的NLP模型通常采取闭卷考试策略,即基于记忆训练数据,测试时不允许查阅。这种模式存在局限性,难以处理长尾例子,且需要大量存储空间。
本文提出GNN-LM,将NLP的训练过程转变为开卷考试。模型在测试时可参考训练数据,通过图神经网络(GNN)在输入样本与相似训练样本间建立联系,提升预测准确度。
GNN-LM通过以下步骤实现这一目标:
利用基础语言模型编码输入上下文,得到表示。
运用自注意力增强的GNN在检索到的上下文和输入上下文间传递信息,更新表示。
结合语言模型概率和检索上下文提供的额外概率,估计预测结果。
该模型首先通过计算余弦相似度,找到与输入上下文最接近的上下文作为邻居,构建有向异质图。然后,使用GNN在图中聚合和过滤信息。
实验结果表明,GNN-LM在三个广泛使用的语言模型数据集上性能显著提升,达到SOTA水平。
在复杂度分析部分,训练GNN需要两倍的内存。为解决空间问题,提出了训练较小邻居数量的模型,再在更大数量上微调。对于依赖关系较长的数据集,将上下文截断为较短长度。
消融实验显示,邻居数量显著影响检索信息量。高质量的kNN检索能显著提升GNN-LM的性能。示例研究进一步证明,提取的上下文与输入有很强的语义联系,利于模型预测。
总结,GNN-LM结合图神经网络与语言模型,允许在整个训练数据集中引用相似上下文,扩展传统语言模型。实验结果证明了GNN-LM在标准数据集中的优越性,并通过与kNN-LM结合,在WikiText-103上取得最优效果。
自成立以来,香侬科技聚焦基础科学和技术创新,已在自然语言处理、深度学习等AI领域发表50多篇重要论文,科研实力处于世界顶级水平。未来,香侬科技将加大基础研究和前沿技术投入,加速科研成果转化,推动人工智能科研探索与应用落地。
相关文章
发表评论