|
吕沁函
Qinhan Lyu
|
2024 国家奖学金 🎖
2025 国家励志奖学金 🎖
2024 三好学生
2024 科技创新先进个人
2024, 2025 优秀学生
|
2024 国家奖学金 🎖
2025 国家励志奖学金 🎖
2024 三好学生
2024 科技创新先进个人
2024, 2025 优秀学生
你好,我是吕沁函。我目前是一名主修人工智能的研0学生 推免到中山大学航空航天学院,目前在中山大学HCP实验室担任科研助理,导师王可泽。我现在的工作 重点是VLM,agent还有VLA模型。与此同时,我正在进行市场调研,热衷于使用技术做一些市场认可的事情。
特别感谢 Keze 教授和 Jusheng 师兄带我见识更大的世界。
获奖情况 🏆
奖学金与荣誉
2024 国家奖学金 🎖
2025 国家励志奖学金 🎖
2024 三好学生
2024 科技创新先进个人
2024, 2025 优秀学生
竞赛获奖
1) 国家级 & 国际级
全国交通科技大赛 国家级一等奖 (2024)
全国大学生智能汽车竞赛(室外) 国际级二等奖 (2024)
中国国际大学生创新大赛 国家级铜奖 (2024)
全国大学生数字媒体科技作品及创意大赛 国家级三等奖 (2024)
2) 省部级 & 赛区级
大唐杯新一代通信技术大赛 重庆市一等奖 (2024)
ICAN大学生创新创业大赛 重庆市一等奖 (2024)
全国大学生智能汽车竞赛(讯飞) 西部赛区二等奖 (2024)
川渝大学生(数智)作品设计大赛 重庆市二等奖 (2023)
大学生心理成长论坛 重庆市二等奖 (2024)
蓝桥杯程序算法竞赛(C++组别) 重庆市三等奖 (2023)
好创意暨全国数字艺术设计大赛 重庆市三等奖 (2024)
中国机器人及人工智能大赛(Aelos人形机器人) 重庆市三等奖 (2024)
睿抗机器人(夺宝联盟) 重庆市三等奖 (2024)
计算机设计大赛 重庆市三等奖 (2024)
|
|
中山大学 HCP实验室
科研助理
导师:王可泽 教授。主要研究方向为 VLM, Agent 以及 VLA 模型。
广州, 中国. 2025/7 - 至今
|
|
鹏城实验室
科研助理
研究方向:三维重建。
深圳, 中国. 2025/6 - 2025/7
|
|
重庆明月湖国际智能产业科创基地
实习生
研究方向:语音情感识别。Mentor:樊安斐。
重庆, 中国. 2025/3 - 2025/8
|
|
重庆交通大学
本科生
排名: 2/65 | GPA: 4.12/5.00
研究方向:图像分割,目标检测。
重庆, 中国. 2022/7 - 至今
|
研究 💡
兴趣:
· 智能体 (Agent) 🤖
· 视觉-语言-动作模型 (VLA) 🦾
· 视觉-语言模型 (VLM) 👁️🗨️
|
视觉-语言-动作模型的稳定语言引导
Z Zhan, Y Chen, J Zhou, Q Lv, H Liu, K Wang, L Lin, G Wang
摘要: 视觉-语言-动作 (VLA) 模型在通用机器人控制方面展现了令人印象深刻的能力;然而,它们对语言扰动极其敏感。我们发现了一种关键的“模态坍塌”现象,即强大的视觉先验压倒了稀疏的语言信号,导致智能体过拟合特定的指令措辞,而忽略了潜在的语义意图。为了解决这个问题,我们提出了残差语义引导 (Residual Semantic Steering, RSS),这是一个将物理可供性与语义执行解耦的概率框架。RSS 引入了两项理论创新:(1) 蒙特卡洛句法积分 (Monte Carlo Syntactic Integration),通过密集的、LLM 驱动的分布扩展来近似真实的语义后验;(2) 残差可供性引导 (Residual Affordance Steering),一种双流解码机制,通过减去视觉可供性先验来显式隔离语言的因果影响。理论分析表明,RSS 有效地最大化了动作与意图之间的互信息,同时抑制了视觉干扰。在多种操作基准测试中的实证结果表明,RSS 实现了最先进的鲁棒性,即使在对抗性语言扰动下也能保持性能。
关键词: VLA, 视觉-语言-动作.
[论文]
Under Review
Mm-cot:探究多模态模型中视觉思维链推理的基准
J Zhang, K Cai, X Guo, S Liu, Q Lv, R Chen, J Yang, Y Fan, X Sun, ...
摘要: 进行思维链 (Chain-of-Thought, CoT) 推理的能力标志着多模态模型 (MMs) 的一个重要里程碑,使其能够解决复杂的视觉推理问题。然而,一个关键问题仍然存在:这种推理是否真正基于视觉证据并且逻辑连贯?现有的基准测试强调生成,但忽视了验证,即评估推理链是否既视觉一致又逻辑有效的能力。为了填补这一空白,我们推出了 MM-CoT,这是一个专门设计的诊断基准,用于探究 MMs 中 CoT 推理的视觉基础和逻辑连贯性。模型不再生成自由格式的解释,而是必须选择满足两个正交约束的唯一事件链:(i) 视觉一致性,确保所有步骤都基于可观察的证据;(ii) 逻辑连贯性,确保因果和常识的有效性。我们设计了对抗性干扰项来违反其中一个约束,从而暴露出不同的推理失败。我们在 MM-CoT 上评估了领先的视觉-语言模型,发现即使是最先进的系统也面临困难,揭示了生成流畅性与真实推理保真度之间的巨大差异。MM-CoT 与现有基准测试的相关性较低,证实了它衡量的是视觉基础和逻辑推理的独特组合。该基准为开发未来模型奠定了基础,这些模型不仅推理看似合理,而且在视觉世界中忠实且连贯。
关键词: 多模态, 思维链.
[论文]
Under Review
Hybridtoken-vlm:视觉-语言模型的混合 Token 压缩
J Zhang, X Guo, K Cai, Q Lv, Y Fan, W Chai, J Wang, K Wang
摘要: 视觉-语言模型 (VLMs) 彻底改变了多模态推理,但将数百个视觉 patch token 输入到 LLM 会产生二次计算成本,从而使得内存和上下文窗口紧张。传统方法面临着权衡:连续压缩会稀释如物体身份等高级语义,而离散量化则会丢失如纹理等细粒度细节。我们引入了 HTC-VLM,这是一种混合框架,通过双通道解耦语义和外观,即通过 ViT patch 进行细粒度细节的连续通道,以及通过投影到四个 token 的 MGVQ 量化进行符号锚点的离散通道。这些被融合到一个 580 token 的混合序列中,并通过解耦注意力掩码和瓶颈压缩成单个 voco token,确保高效且有根据的表示。HTC-VLM 在七个基准测试 (GQA, VQAv2, MMBench, MME, POPE, SEED-Bench, ScienceQA-Image) 中实现了 87.2% 的平均性能保留,在 580:1 的压缩比下优于领先的连续基线模型 (81.0%)。注意力分析表明,压缩后的 token 优先考虑离散锚点,验证了其语义指导作用。我们的工作表明,极简的混合设计可以解决效率-保真度的困境,并推动可扩展 VLM 的发展。
关键词: VLM, Token压缩.
[论文]
Under Review
Hiva:基于目标驱动语义-拓扑演化的自组织分层可变智能体
J Tang*, J Zhang*, Q Lv*, S Liu, J Yang, C Tang, K Wang
AAAI Conference on Artificial Intelligence (AAAI), 2026 (Poster)
摘要: 自主智能体在推进通用人工智能方面发挥着至关重要的作用,通过大型语言模型 (LLM) 实现问题分解和工具编排。然而,现有的范式面临着关键的权衡。一方面,可重用的固定工作流在环境变化时需要手动重新配置;另一方面,灵活的反应循环无法将推理过程提炼为可迁移的结构。我们引入了分层变量智能体 (Hierarchical Variable Agent, HiVA),这是一个新颖的框架,利用语义-拓扑演化 (Semantic-Topological Evolution, STEV) 算法将智能体工作流建模为自组织图,该算法使用文本梯度作为反向传播的离散域代理,优化混合语义-拓扑空间。该迭代过程包括融入多臂老虎机的前向路由、从环境反馈生成的诊断梯度,以及协同进化个体语义和拓扑结构的协调更新,以在未知环境中实现集体优化。在对话、编码、长上下文问答、数学和智能体基准测试中的实验表明,任务准确率提高了 5-10%,资源效率也优于现有基线,确立了 HiVA 在自主任务执行方面的有效性。
关键词: 智能体, 分层变量.
[论文]
[代码]
AAAI 2026
CoAgent:用于连贯视频生成的协同规划与一致性智能体
Q Zeng, K Cai, R Chen, Q Lv, K Wang
摘要: 保持叙事连贯性和视觉一致性仍然是开放域视频生成的中心挑战。现有的文本到视频模型通常独立处理每个镜头,导致身份漂移、场景不一致和时间结构不稳定。我们提出了 CoAgent,一个用于连贯视频生成的协作闭环框架,将该过程公式化为计划-合成-验证管道。给定用户提示、风格参考和节奏约束,故事板规划器将输入分解为具有明确实体、空间关系和时间线索的结构化镜头级计划。全局上下文管理器维护实体级记忆,以保持跨镜头的外观和身份一致性。然后,每个镜头在视觉一致性控制器的指导下由合成模块生成,同时验证智能体使用视觉-语言推理评估中间结果,并在检测到不一致时触发选择性重新生成。最后,节奏感知编辑器优化时间节奏和过渡,以匹配所需的叙事流程。广泛的实验表明,CoAgent 显著提高了长视频生成中的连贯性、视觉一致性和叙事质量。
关键词: 智能体, 视频生成.
[论文]
arXiv
通过连续化离散扩散增强 VLA 模型的泛化与细粒度控制
Z Zhan, J Zhou, L Zhang, Q Lv, H Liu, J Zhang, W Li, Z Chen, T Chen, ...
摘要: 视觉-语言-动作 (VLA) 模型通过集成视觉感知、语言理解和控制生成,为机器人操作提供了一个统一的框架。然而,现有的 VLA 模型仍然难以在不同的任务、场景和相机视点之间泛化,并且通常产生粗糙或不稳定的动作。我们引入了 E0,一种连续化离散扩散框架,将动作生成公式化为量化动作 token 上的迭代去噪。与连续扩散策略相比,E0 提供了两个关键优势:(1) 离散动作 token 与预训练 VLM/VLA 主干的符号结构自然对齐,实现了更强的语义条件;(2) 离散扩散匹配真实世界机器人控制的真实量化本质——其硬件约束(例如编码器分辨率、控制频率、致动延迟)固有地离散化了连续信号——因此受益于对正确离散动作分布进行建模的贝叶斯最优去噪器,从而导致更强的泛化能力。与离散自回归和基于掩码的离散扩散模型相比,E0 支持更大且更细粒度的动作词汇表,并避免了基于掩码的破坏引入的分布不匹配——从而产生更准确的细粒度动作控制。我们进一步引入了一种球形视点扰动增强方法,以在没有额外数据的情况下提高对相机位移的鲁棒性。在 LIBERO、VLABench 和 ManiSkill 上的实验表明,E0 在 14 个不同的环境中实现了最先进的性能,平均优于强大的基线 10.7%。在 Franka 机械臂上的真实世界评估证实,E0 提供了精确、鲁棒且可迁移的操作,确立了离散扩散作为可泛化 VLA 策略学习的有前途的方向。
关键词: VLA, 扩散模型.
[论文]
Under Review
超越像素:通过时空对齐为基于视频的具身模型引入几何-语义世界先验
J Tang, S Liu, W Xiu, Q Lv, X Li
摘要: 在未知环境中完成复杂任务的深度学习模型中实现类人推理仍然是具身智能的一个关键挑战。虽然先进的视觉-语言模型 (VLMs) 在静态场景理解方面表现出色,但由于对细粒度时空线索和物理世界理解的建模不足,它们在时空推理以及适应如任务导向导航和具身问答 (EQA) 等动态开放集任务方面的局限性依然存在。为了解决这个问题,我们提出了 VEME,一种新颖的跨模态对齐方法,通过学习以自我为中心、以体验为中心的世界模型来增强在未见场景中的泛化能力。我们的框架集成了三个关键组件:(1) 一个跨模态对齐框架,将物体、空间表示和视觉语义与时空线索桥接起来,以增强 VLM 的上下文学习;(2) 一个由世界嵌入激活的动态隐式认知地图,以实现任务相关的几何-语义记忆召回;(3) 一个利用具身先验进行长期规划和高效探索的基于指令的导航和推理框架。通过嵌入几何感知的时空情景体验,我们的方法显著提高了动态环境中的推理和规划能力。在 VSI-Bench 和 VLN-CE 上的实验结果表明,与传统方法相比,准确率和探索效率提高了 1%-3%。
关键词: 具身智能, 世界先验.
[论文]
arXiv
落水检测
构建基于视觉的落水检测系统,融合目标检测与姿态估计识别异常姿态,并实现水域场景下的实时告警。
关键词: 目标检测, 姿态估计
国家级大学生创新创业项目
智能车比赛
设计自动循迹与控制策略,实现赛道稳定跟踪与无人驾驶运行,适配复杂赛道场景。
关键词: 循迹算法, 无人驾驶
国家级比赛
烟草土壤保育
基于宏基因组数据分析土壤微生物群落,构建生物信息流程评估土壤健康并支持保育决策。
关键词: 宏基因组, 生物信息
烟草局横向
机械臂横向
面向具身智能应用,开发机械臂感知与任务执行方案,推动场景化商业落地。
关键词: 具身智能, 商业落地
拓元公司横向
|