忻成 (Cheng Xin)

Agentic AI系统研发 · ML模型算法优化 · 图表示学习 · 可信 AI

个人简介

普渡大学计算机科学博士。现为罗格斯大学博士后研究员Synapse Foundry AI 联合创始人/CTO,拥有 7+ 年 AI 研究与工程经验,研究与工程实践覆盖 AI/ML 系统建模图/拓扑机器学习可解释与可信 AIAI for Science视觉模型评估与数据工程,以及 Agent 系统架构与评估,成果发表于 NeurIPS、ICML、CVPR、SoCG 等顶级会议;具有 Amazon、EA、Microsoft 等工业研发经历。负责 Agentic 开发基础设施Data/Trust GatewayRAG/Agentic SearchEvaluation Benchmark业务流自动化等设计开发工作。能够把语言、视觉、语音、图/网络结构、数据表格等多模态数据与大模型能力应用到实际工业智能的评估、预测和决策问题上,并围绕数据管线模型评估工具调用可审计证据AI系统框架构建可复用研发链路。

技术技能

AI/ML算法
预测建模 决策建模 图学习 拓扑机器学习 视觉语言模型 三维视觉 视觉检测 非欧几何表示 可解释 AI 置信度估计 图演化/状态识别 异常检测 特征工程 复杂系统建模
大模型Agent
LLM RAG Agentic Search 工具调用 业务流自动化 行业知识库 证据归因 可审计交接 MCP / Skill 多智能体协作 可观测性
开发工具与技能
Python TypeScript Node.js React SQL PyTorch Spark PostgreSQL API / SDK 数据管线 自动化评测框架 模型部署 全栈开发 CI/CD

开源项目贡献

OpenClaw — Agent Gateway / 多智能体基础设施开源贡献
  • 作为 OpenClaw 早期 Contributor,累计提交和维护 30+ 个 Pull Request,推动 Agent Gateway、A2A 会话协议、消息路由、记忆模块优化、模型兼容与工具调用相关问题的修复与改进,覆盖智能体基础设施中的接口适配、协议交互、异常处理和回归验证
  • 设计可复用智能体技能与自动化工作流,覆盖任务拆解、跨来源信息检索、长流程任务恢复和上下文交接,提升复杂智能体运行框架在稳定性、可恢复性、可观测性和执行效率上的工程表现
DL3DV-10K — 大规模 3D 视觉数据集与视觉模型评测基准
  • 作为核心贡献者参与建设大规模真实场景 3D 视觉数据集与基准,覆盖 10K+ 真实场景51M+ 视频帧、4K 视频和多样室内外环境,承担数据整理、基准构建、实验验证和研究支撑工作,为大规模真实场景视觉模型研发提供基础数据与评价基准([CVPR 2024]
  • 项目 GitHub 获 600+ Stars;数据集已被 NVIDIAAdobe ResearchGoogle DeepMindMeta AIMicrosoft ResearchByteDanceTencent Hunyuan 等工业研究团队,以及 World Labs Marble 等空间智能产品研发采用,用于 Novel View Synthesis、3D 重建、视频理解生成、空间智能和 World Model 等方向的模型训练、后训练、基准评测或技术报告引用,体现其在工业视觉模型和真实场景应用中的落地价值
  • 数据集也被 李飞飞谢赛宁吴佳俊 等顶级学术团队用于空间推理与视觉语言模型 benchmark 构建,体现其在学术界空间智能与多模态模型评测研究中的认可度
PeonPing — AI Coding Agent 通知系统与开发者工具开源贡献
  • 参与贡献 4.8k Stars 开源项目,该项目面向 Claude Code、Codex、Cursor 等主流 Coding Agent 开发工具,提供任务完成、权限等待、错误状态和会话事件的声音/桌面通知能力,帮助开发者在长流程智能体任务中保持可观测性和响应效率
  • 实现可配置通知位置、自动消失/持久通知、项目标签覆盖和消息模板等功能;同步补充 CLI 子命令、默认配置、README/中文文档、bash/fish 补全和 BATS 测试,提升工具在多项目、多终端和长时间 agent 工作流中的可配置性、可维护性和用户体验

行业工程经历

Synapse Foundry AI — 联合创始人 / CTO,AI Agent / Data Gateway / 行业场景模型平台
  • Data/Trust Gateway: 构建面向高风险行业的 Agent workflow 的数据边界、评测与治理框架,将客户场景、失败案例、权限边界和合规要求沉淀为可重复运行的自动化评估系统;构建 10k+ 医疗领域相关的 agent 数据安全和隐私基准数据集,并转化为覆盖率、错误分布、证据链和问题定位报告
  • 模型服务与工具调用层: 面向受监管行业 Agent tool layer,将 search、crawl、privacy guardrail 等外部能力封装为统一 SDK/API;提供统一响应结构、成本/延迟/质量策略、服务路由、失败切换、调用原因记录和审计日志,形成可复用模型服务与工具接入层
  • 业务流自动化智能体: 将大模型从通用问答扩展为可调用工具、可生成证据、可交接人工、可审计的业务流自动化系统,支持原始材料 → 信息筛选 → 工具执行 → 证据生成 → 规则核查 → 交接材料 → 审计摘要的闭环流程;可迁移到工业现场知识问答、异常处置、报告生成和人机协同决策场景
  • Clinical Arena(已上线: clinicalarena.ai: 医疗 AI 评测平台,面向医生、研究人员和机构用户提供临床场景下的大模型盲测对比、偏好数据收集、安全标注、排行榜和评测结果导出能力;内置基于 RAG 与智能体流程的证据校验功能,可检索公开可查、可验证的数据集和论文作为评测背书,并通过多智能体、多模型协作验证提升结果可靠性;帮助使用方在真实业务问题上比较不同模型的回答质量、安全性和稳定性,支持模型选型、质量验证、风险发现和后续模型优化
Electronic Arts(艺电):大数据智能组 — 机器学习科学家实习生
  • 负责基于 Spark 搭建玩家行为数据的端到端 ML 流水线,覆盖多表数据抽取、数据清洗、用户画像特征构建、训练样本生成、模型训练支持和参与度预测分析,支撑业务侧对大规模用户行为的持续评估
  • 基于图关系模型分析用户、行为事件、内容资产和关系型数据库表之间的连接结构,对用户画像相关的数据表和特征视图进行重构与优化,提升下游模型对关系型数据和图结构信号的利用效率
  • 将业务问题拆解为可验证的数据与模型任务,围绕样本质量、特征覆盖、异常分布和预测效果做问题定位,形成从数据准备、实验分析到业务解释的闭环,契合工业 AI 场景模型建设中的样本整理、效果分析、指标评价和迭代优化需求
  • 设计并推动特征工程与数据压缩方案落地,将数据视图体量降低 40%,提升下游分析效率与建模资源利用率
Amazon(亚马逊):AWS 基础设施组 — 软件开发工程师实习生
  • 参与开发并部署实时数据管理系统,处理大规模网络消息流,承担后端基础设施、服务接口、消息解析、存储检索和数据流转模块实现,支持内部系统稳定运行与消息处理效率提升
  • 围绕 AWS 基础设施中的数据管理和数据交互需求,优化消息接收、解析、持久化、查询和回放等环节的接口协议与数据交换流程,提升跨模块数据传递的一致性、可追踪性和可维护性
  • 针对高吞吐消息处理场景进行问题排查与性能优化,关注数据结构、并发处理、异常恢复和运行稳定性,为后续构建可靠数据网关、模型服务接口和场景工具链打下工程基础
格尔软件:安全审计平台组 — 全栈开发工程师
  • 作为全栈工程师独立负责 Web 应用主要模块开发,覆盖需求拆解、数据库建模、后端业务逻辑、REST-style API、前端页面与交互、测试验证和上线交付,具备从业务需求到可运行系统的端到端实现经验
  • 实现中文 NLP 功能:围绕业务文本数据完成中文分词、关键词抽取、主题模型建模和文本主题理解,将非结构化中文文本转化为可查询、可分析、可用于业务判断的数据对象
  • 在系统层面打通数据库、后端服务、NLP 处理模块和前端展示界面,使文本分析结果能够进入业务查询、统计分析和用户交互流程;该经历与当前 LLM/RAG、行业知识库、信息抽取和业务流自动化经验形成连续性
Microsoft(微软):SQL Server 商务智能组 — 研发实习生
  • SQL Server 商务智能组担任研发实习生,围绕企业数据分析、报表、查询服务和数据库下游应用场景,参与 SQL Server 相关问题定位与功能验证,覆盖表结构、索引、视图、查询计划、日志和配置等核心数据库对象与运行机制
  • 面向真实企业客户和开发者问题,分析慢查询、索引失效、视图/聚合逻辑、数据访问异常和性能瓶颈,结合执行计划、日志与环境配置定位根因,并提出可复现、可验证的修复路径
  • 建立了对关系型数据库底层机制与商务智能应用链路的系统理解,涵盖数据建模、查询优化、索引/视图设计、性能诊断和数据库驱动的下游业务应用交付

科研与场景模型研发经历

罗格斯大学 计算机科学系 — 博士后研究员
  • 围绕 Agentic RL / 多步决策问题开展原型实验与评测探索,关注反馈信号设计、行为优化与实验分析;相关网络智能体协同学习工作可对应工业场景中的多主体决策、调度优化和人机协同,并支撑任务分解、约束建模与反馈闭环设计([ICML 2024]
  • 主导开发 TopInG 可解释图学习框架,在分子性质预测任务上实现精度和可解释性最高 20% 提升;且面向 AI for Science 与生物医学场景,将 GNN 及可解释性方法应用于真实医疗问题:与哈佛医学院合作推进方法设计、实验验证和实际医学应用场景落地;可迁移到设备关系网络、工艺知识图谱、异常原因分析和专家可复核预测模型,并支持关系数据上的模型评价与稳定性分析([ICML 2025]
  • 参与建设 DL3DV-10K 大规模 3D 视觉数据集与评测基准,支持真实场景数据整理、基准构建和实验验证,相关成果发表于 CVPR 2024;数据集已被 NVIDIAAdobeGoogle 等团队用于多个商业视觉模型和空间智能场景,连接三维视觉、视频理解和视觉模型评测
  • 开展非欧几何与双曲空间表示学习研究,围绕 Neuc-MDS、超越欧氏空间的 Johnson-Lindenstrauss 扩展,以及 Hyperbolic Space LSH 推进具有理论保证的表示学习与近邻检索方法,适用于复杂层级数据、知识结构和高维检索场景,可支撑知识检索、相似案例召回和证据定位([NeurIPS 2024], [NeurIPS 2025], [SoCG 2026]
GraphEvol / 复杂系统状态建模 — 研究与工程项目
  • 构建图演化学习与阶段恢复实验 pipeline,将图结构数据、拓扑/图特征、模型训练和置信度分析组织为可复用流程,用于复杂系统状态变化建模,并形成从数据接入、特征构造、训练验证到结果分析的评价闭环
  • 设计面向结构扰动、阶段恢复稳定性和置信度输出的评价方法,使模型结果不仅可预测,也可被诊断和复核;可迁移到工业过程中的设备状态预测、工况演化识别、异常阶段检测和复杂流程决策支持,适合多源传感数据与阶段性状态判断
普渡大学 计算机科学系 — 博士研究助理
  • 主导推进 GRIL 拓扑向量化框架研究,从理论建模、算法设计到实验验证完整闭环落地,证明其具备更强表达能力;并进一步延展到 D-GRIL 端到端拓扑学习方向,推动多参数持续性表示直接进入可微学习流程,增强图/几何模型在科学数据、材料结构和复杂系统数据上的表达能力,可用于复杂关系数据的特征工程与模型泛化分析([PMLR 2023], [SoCG 2026]
  • 开发广义持续性算法,提升多参数拓扑分析任务的计算效率,为大规模科学/几何数据处理、模型特征构造和可解释分析提供可复用算法基础,并可作为复杂结构数据建模、压缩表示和可复核分析的底层方法储备([JACT 2022]

教育背景

计算机科学博士 · 普渡大学 (Purdue University)
2023

论文: Decomposition and Stability of Multiparameter Persistence Modules · 导师: Prof. Tamal K. Dey

计算机科学硕士 · 理海大学 (Lehigh University)
2016

论文: Machine Learning Techniques for Medical Image Analysis · 方向: 计算机视觉、深度学习医疗影像

软件工程学士 · 同济大学
2013

代表论文与相关成果

SoCG 2026 C. Deng, J. Gao, K. Lu, F. Luo, C. Xin. "Locality Sensitive Hashing in Hyperbolic Space"
SoCG 2026 S. Mukherjee, S. N. Samaga, C. Xin, S. Oudot, T. K. Dey. "D-GRIL: End-to-End Topological Learning with 2-parameter Persistence"
ICML 2025 C. Xin, F. Xu, X. Ding, J. Gao, J. Ding. "TopInG: Topologically Interpretable Graph Learning via Persistent Rationale Filtration"
NeurIPS 2025 C. Deng, J. Gao, K. Lu, F. Luo, C. Xin. "Johnson-Lindenstrauss Lemma Beyond Euclidean Geometry"
NeurIPS 2024 C. Deng, J. Gao, K. Lu, F. Luo, H. Sun, C. Xin. "Neuc-MDS: Non-Euclidean Multidimensional Scaling Through Bilinear Forms"
ICML 2024 S. Haddadan, C. Xin, J. Gao. "Optimally Improving Cooperative Learning in a Social Setting"
CVPR 2024 L. Ling, ..., C. Xin, et al. "DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-Based 3D Vision"
TMLR 2024 S. Zhang, C. Xin, T. K. Dey. "Expressive Higher-Order Link Prediction through Hypergraph Symmetry Breaking"
ICML-W 2023 C. Xin, S. Mukherjee, S. N. Samaga, T. K. Dey. "GRIL: A 2-parameter Persistence Based Vectorization for Machine Learning"
Ph.D. Thesis 2023 C. Xin. "Decomposition and Stability of Multiparameter Persistence Modules"
JACT 2022 T. K. Dey, C. Xin. "Generalized Persistence Algorithm for Decomposing Multiparameter Persistence Modules"
SoCG 2018 T. K. Dey, C. Xin. "Computing Bottleneck Distance for 2-D Interval Decomposable Modules"
PR 2017 T. Xu, H. Zhang, C. Xin, et al. "Multi-feature based benchmark for cervical dysplasia classification evaluation"
MLMI 2015 T. Xu, C. Xin* et al. "A New Image Data Set and Benchmark for Cervical Dysplasia Classification Evaluation"
† 表示该论文遵循理论研究传统,作者按姓氏首字母排序,且 C. Xin 为通讯作者;* 表示共同第一作者。

荣誉与领导力

上海市白玉兰人才计划青年人才(2025)
微软高校编程大赛冠军(2017 @ 俄亥俄州立大学、2015 @ 理海大学)
研究生课程讲师: 算法设计与分析(45 名学生,2025)
Area Chair: TAG-DS Workshop(2026)
审稿人: ICML、ICLR、NeurIPS、SoCG