你的位置:ky体育app最新版下载 > 新闻动态 > 开云kaiyun.com该历程通过整合实在图像与合成图像-ky体育app最新版下载

开云kaiyun.com该历程通过整合实在图像与合成图像-ky体育app最新版下载

时间:2026-05-04 09:09 点击:114 次

开云kaiyun.com该历程通过整合实在图像与合成图像-ky体育app最新版下载

幻觉(Hallucination)开云kaiyun.com,即生成事实失实或不一致的信息,已成为视觉 - 话语模子 ( VLMs)可靠性靠近的中枢挑战。跟着 VLMs 在自动驾驶、医疗会诊等症结领域的鄙俚应用,幻觉问题因其潜在的重要后果而备受温情。

但是,刻下针对幻觉问题的究诘靠近多重制约:图像数据集的有限性、穷乏针对种种化幻觉触发成分的空洞评估体系,以及在复杂视觉问答任务中进行怒放式评估的固有贫窭。

为冲突这些为止,来自哥伦比亚大学和 Google DeepMind 的究诘团队建议了一种创新的视觉问答数据集构建有蓄意。

该有蓄意通过整合实在图像与合成生成图像,运用基于指示的图像生成技能,克服了传统数据集(如 MS-COCO 和 Flickr)在图像种种性和荒谬性方面的局限。这又名为 HaloQuest 的数据集遴选"机器 - 东说念主工"协同的数据生成历程,重心网罗了三类针对刻下 VLM 模子固有瑕疵的挑战性样本,旨在系统性地触发典型幻觉场景:

a. 基于失实前提的引导性问题;

b. 穷乏充分高下文复古的费解性问题;

c. 其他具有高度复杂性的疑难问题;

此外,HaloQuest 创新性地引入了基于假话语模子(LLM)的自动评估系统(AutoEval),扫尾了怒放式、动态化的评估机制,并探索了合成图像在 VLM 评估中的立异性应用价值。传统评估活动时时局限于多项遴选题或有限词汇的闭塞式回答,这种评估花式不仅为止了模子展现复杂推理和轻飘抒发才调,也难以准确评估模子在现实场景中的试验推崇。

出奇是在处理生成式幻觉瞻望时,现存活动无法全面斟酌模子生成连贯性、细节丰富度及高下文一致性等方面的才调。HaloQuest 建议的 AutoEval 系统通过复古对模子反映的细粒度、怒放式评估,开垦了一个可随技能发展动态演进的评估框架,为 VLMs 的可靠性评估提供了新的范式。

HaloQuest 先容

图 2 展示了 HaloQuest 数据集的构建历程,该历程通过整合实在图像与合成图像,确保了数据集的丰富性和种种性。实在图像选自 Open Images 数据集的立时样本,而合成图像则开端于 Midjourney 和 Stable Diffusion 在线画廊。为确保图像质料,筛选过程优先接洽高浏览量和正面评价的图像,并联接尽心联想的主题词列表进行搜索查询。

在东说念主类标注阶段,图像需激动两个圭臬:既需具备预想性或私有性,又需易于理会。举例,展示荒废场景、包含止境规物体组合(如图 2 所示的"穿戴报纸的狗"),或具有视觉冲击力的图像被视为"预想"。同期,这些图像即使抵牾现什物理规章,也需保持视觉连贯性和了了度,确保东说念主类概况理会其内容。

这一两重圭臬的联想,旨在均衡生成具有挑战性的场景与确保模子反映的可解释性,从而概况准确归因于模子在推理或理会上的特定过错。

图像筛选完成后,东说念主类标注者与假话语模子统一,围绕图像联想问题和谜底,重心温情创造性、轻飘推理才调以及模子潜在偏见的检测。HaloQuest 包含三类旨在诱发幻觉的问题:

a. 失实前发问题(False Premise Questions):这些问题包含与图像内容径直矛盾的述说或假定,用于测试模子是否概况优先接洽视觉把柄而非误导性话语痕迹。

b. 视觉挑战性问题(Visually Challenging Questions):这些问题条目模子深化理会图像细节,举例物体计数、空间关系判断或被遮拦区域的推理,用于评估模子的复杂视觉分析才调。

c. 信息不及问题(Insufficient Context Questions):这些问题无法仅凭图像内容得出明确谜底,旨在探伤模子是否会依赖固有偏见或无根据的筹划,而非承认信息的局限性。

在问题创建过程中,东说念主类标注者为每张图像联想两个问题过甚谜底。最初,他们需建议一个对于图像中某个视觉元素的问题,但该问题无法仅通过图像内容回答。其次,标注者需建议一个对于图像中微妙细节的问题,该问题需有明确且客不雅的谜底,幸免主不雅偏见的打扰。

为提高成果,HaloQuest 还运用 LLMs(如 IdealGPT 框架,联接 GPT-4 和 BLIP2)自动生成图像姿色。这些姿色被拆分为多个原子述说(举例:"这是一只金毛猎犬的特写","狗的背上披着报纸")。东说念主类标注者评估每个述说的实在性(是 / 否),随后 LLMs 基于这些评估完了生成对应的问答对。

为进一步援救数据质料,HaloQuest 遴选筛选机制:最初,高性能 VQA 模子对驱动问题池进行预回答;随后,教会丰富的东说念主类标注者审查问题及模子回答,确保问题的挑战性和谜底的了了性。过于浅易的问题会被修改或丢弃,拖泥带水的谜底会被符号,以确保每个问题王人具有填塞的难度和明确的解答。

通过这一严谨的历程,HaloQuest 构建了一个高质料、高挑战性的数据集,为 VLM 的评估提供了更可靠的基准。下图展示了 HaloQuest 的部分数据样本,并与其他数据集进行了对比,突显了其在种种性和复杂性方面的上风。

自动评估

为了大规模复古解放姿色和怒放式视觉 - 话语模子(VLM)幻觉评估,HaloQuest 开垦了一种基于假话语模子(LLM)的自动评估活动。尽管原则上任何 LLM 只需基础指示即可引申此类评估,但 HaloQuest 建议了一种更为高效和精确的评估框架。

具体而言,HaloQuest 引入了 Langfun 结构,该活动通过结构化指示联想,匡助 Gemini 模子准确索求模子反映与参考谜底的中枢内容,并判断二者之间的一致性。图 7 展示了用于扫尾自动评估的 Gemini 指示词过甚结构,而图 8 则提供了 Auto-Eval 评估的具体示例。

如图所示,Gemini 模子需要根据输入的问题、模子回答和参考谜底,填充 PredictionEvaluation 类的关连属性。通过 Langfun 结构,HaloQuest 不仅惩办了 VLM 幻觉评估中的技能挑战,还为将来更鄙俚的 AI 模子评估提供了创新想路和实践教会。

实验与分析

究诘发现,现存视觉 - 话语模子(VLMs)在 HaloQuest 数据集上的推崇不尽如东说念主意,幻觉率较高。这一完了揭示了模子在理会和推理才调上的显赫不及,同期也突显了开垦更肃肃的幻觉缓解活动的进攻需求。

症结发现:

a. 模子规模与幻觉率的关系

究诘发现,更大的模子规模并不一定概况镌汰幻觉率。出乎不测的是,较小的 BEiT-3 模子在多个任务上推崇优于更大的模子。这一发现标明,单纯依赖模子延迟并弗成有用惩办幻觉问题,数据驱动的幻觉缓解战略可能更具后劲。

b. Auto-Eval 的可靠性

Auto-Eval 与东说念主工评估完了具有较高的关连性。这一完了标明,在东说念主工评估不可行或资本过高的情况下,Auto-Eval 不错行为一种可靠的替代有蓄意,为大规模模子评估提供复古。

c. 微调的有用性

在 HaloQuest 上进行微调显赫镌汰了 VLMs 的幻觉率,同期并未影响模子在其他基准测试上的推崇。这确认注解了 HaloQuest 在援救模子安全性方面的后劲,且不会松开其举座有用性。

d. 跨数据集的泛化才调

表 6 展示了各模子在 POPE 幻觉基准测试上的推崇。完了炫耀,经过 HaloQuest 锻真金不怕火的模子在新数据集上的推崇也有所援救,进一步考据了 HaloQuest 概况匡助模子在新环境中幸免幻觉。

合成图像与实在图像的对比

究诘还按照实在图像和合成图像分裂评估了模子的推崇。尽管大无数模子在实在图像上的幻觉率更高,但合成图像上的幻觉率仍然显赫。值得防卫的是,合成图像在数据集构建中具有私有上风

低资本与可延迟性:合成图像提供了一种经济高效的惩办有蓄意,有助于快速延迟数据集规模。

镌汰幻觉率:实验完了标明,锻真金不怕火数据加入合成图像有助于镌汰模子的幻觉率(见表 5 和表 7)。

技能跨越的后劲:尽管当今合成图像的难度略低于实在图像,但跟着图像生成技能的跨越,这一差距有望缩小。

试验应用的重要性:跟着图像生成技能的鄙俚应用,确保模子在合成图像上具备抗幻觉才调将变得愈发重要。

幻觉成因与模子推崇

究诘进一步分析了模子在 HaloQuest 三类问题上的推崇:

失实前发问题(False Premise Questions):开源模子在处理此类问题时推崇较差,但 GPT-4 展现出一定上风。

信息不及问题(Insufficient Context Questions):模子广大推崇欠安,标明其在处理费解信息时容易依赖偏见或无根据的筹划。

视觉挑战性问题(Visually Challenging Questions):模子推崇略有援救,但 GPT-4 在此类任务上的推崇不如其他模子。

这些发现为将来究诘提供了新的地点,包括:

数据集优化:通过改良数据集构建活动,进一步援救模子的抗幻觉才调。

受控图像生成:运用更先进的图像生成技能,创建更具挑战性的合成图像。

标注偏差缓解:减少数据标注过程中的偏差,提高数据集的种种性和平允性。

针对性优化:针对不同模子的特定瑕疵,开垦定制化的幻觉缓解战略。

论断

HaloQuest 是一个创新的视觉问答基准数据集,通过整合实在寰宇图像和合成图像,联接受控的图像生成技能和针对特定幻觉类型联想的问题,为分析 VLMs 的幻觉触发成分提供了更精确的器用。实验完了标明,刻下泉源进的模子在 HaloQuest 上的推崇广大欠安,表露了其才调与试验应用需求之间的显赫差距。

在 HaloQuest 上进行微调的 VLMs 显赫镌汰了幻觉率,同期保持了其在通例推理任务上的性能,这确认注解了该数据集在援救模子安全性和可靠性方面的后劲。此外,究诘建议了一种基于假话语模子(LLM)的 Auto-Eval 评估机制,概况对 VLMs 的回答进行怒放式、细粒度的评估。与传统活动比较,Auto-Eval 克服了为止模子抒发才调或难以评估复杂幻觉的局限性,扫尾了评估成果和准确性的显赫优化。

HaloQuest 不仅为 VLMs 的幻觉问题究诘提供了新的基准,还通过其创新的数据集构建活动和评估机制,为将来多模态 AI 的发展指明了地点。跟着图像生成技能和评估活动的握住跨越,HaloQuest 有望在推进更安全、更可靠的视觉 - 话语模子究诘中阐发重要作用。

一键三连「点赞」「转发」「小心心」

宽宥在驳斥区留住你的成见!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 相貌主页连气儿,以及辩论花式哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见开云kaiyun.com

开云kaiyun.com这个目标此前都只在大言语模子领域实行过-ky体育app最新版下载

Alternate Text

开云kaiyun.com这个目标此前都只在大言语模子领域实行过-ky体育app最新版下载

3D 生成版 DeepSeek 再上新高度! 国产、易用、性能强且开源—— 新模子一出面就刷新 SOTA,而况第一时辰加入开源全家桶。 顺时针转个圈圈给行家看,效果是这么: 加上"皮肤"是这么: 再来一个,效果是这么: 肉眼可见,此次妥妥升级造成了更细节的细节控~ 以上效果,都来自3D 大模子明星初创公司 VAST,其刚刚上新的两个基础模子,TripoSG 和 TripoSF,为团队的最新研发效力。该团队旧年 3 月开源了 TripoSR,在开源 3D 生成基础模子中爆火全球。 TripoSG

查看更多

开云kaiyun.com该历程通过整合实在图像与合成图像-ky体育app最新版下载

Alternate Text

开云kaiyun.com该历程通过整合实在图像与合成图像-ky体育app最新版下载

幻觉(Hallucination)开云kaiyun.com,即生成事实失实或不一致的信息,已成为视觉 - 话语模子 ( VLMs)可靠性靠近的中枢挑战。跟着 VLMs 在自动驾驶、医疗会诊等症结领域的鄙俚应用,幻觉问题因其潜在的重要后果而备受温情。 但是,刻下针对幻觉问题的究诘靠近多重制约:图像数据集的有限性、穷乏针对种种化幻觉触发成分的空洞评估体系,以及在复杂视觉问答任务中进行怒放式评估的固有贫窭。 为冲突这些为止,来自哥伦比亚大学和 Google DeepMind 的究诘团队建议了一种创新

查看更多

开云kaiyun.com给用户提供行动建议;如若需要实施决策-ky体育app最新版下载

Alternate Text

开云kaiyun.com给用户提供行动建议;如若需要实施决策-ky体育app最新版下载

在互联网时期开云kaiyun.com,数据已成为企业发展的必经之路。 从电商平台的用户行径记载,到工业传感器的实时监测,数据浸透在交易行径的每个要道,成为驱动决策的基础资源。 然而数据的价值并不在于陋劣的堆砌,未经梳理与解读的原始数据如同洒落的拼图碎屑,既无法呈现好意思满图景,也难以复旧业务判断。 交易智能(BI)行动数据调取和分析的基础器用,通过结构化查询与报表生成,曾为企业提供环节的信息整合才能。 但跟着大数据本事迭代,数据分析需求正发生质变—— 当数据规模突破传统数据库的承载极限,当动态

查看更多

开云kaiyun官方网站好意思国空军却给了波音公司一个大单据-ky体育app最新版下载

Alternate Text

开云kaiyun官方网站好意思国空军却给了波音公司一个大单据-ky体育app最新版下载

好意思军六代机叫F-47开云kaiyun官方网站,这不是打共和党脸吗? 好意思国白宫如故答允了好意思国空军的六代机贪图,这事儿算是定了。不外呢,好意思国五角大楼给这个六代讲和机起名叫F-47,这名字一出来就有点烦懑。白宫迅速抛清干系,说这名字是空军那些大佬定的,跟第47任总统啥干系王人莫得。但大家心里王人显明,这未便是在“欺人自欺”嘛!当今好意思国政事圈里流行的便是“好意思国总统永久正确伟大”,是以空军这些大佬把六代机叫F-47,若何看王人有点拍共和党政府马屁的原理。 从白宫显现的音问来看,波

查看更多
公司地址:

新闻动态国际企业科技园1433号

关注我们:
官方网站:

www.51yizhitang.com

Powered by ky体育app最新版下载 RSS地图 HTML地图


ky体育app最新版下载-开云kaiyun.com该历程通过整合实在图像与合成图像-ky体育app最新版下载