主题:Transfer Learning Under High-Dimensional Network Convolutional Regression Model高维网络卷积回归模型下的迁移学习
主讲人:中国人民大学统计学院 黄丹阳教授
主持人:统计与数据科学学院 林华珍教授
时间:5月14日16:00-17:00
地点:柳林校区弘远楼408会议室
主办单位:统计与数据科学学院 科研处
主讲人简介:
黄丹阳,中国人民大学统计学院教授,吴玉章青年学者,国家治理大数据和人工智能创新平台北京市消费大数据监测子实验室主任。主持国家自然科学基金面上项目、北京市社会科学基金重点项目等科研课题,入选北京市科协青年人才托举工程,曾获北京市优秀人才培养资助。从事复杂网络模型、大规模数据计算等方向的理论研究,关注统计理论在中小企业数字化发展中的应用。研究成果三十余篇发表于JRSSB、JASA、JOE、JBES等权威期刊。独著专著《大规模网络数据分析与空间自回归模型》入选“京东统计学图书热卖榜”。获北京高校青年教师教学基本功比赛二等奖、最受学生欢迎奖等多项教学奖励。
内容提要:
Transfer learning enhances model performance by utilizing knowledge from related domains, particularly when labeled data is scarce. While existing research addresses transfer learning under various distribution shifts in independent settings, handling dependencies in networked data remains challenging. To address this challenge, we propose a high-dimensional transfer learning framework based on network convolutional regression (NCR), inspired by the success of graph convolutional networks (GCNs). The NCR model incorporates random network structure by allowing each node’s response to depend on its features and the aggregated features of its neighbors, capturing local dependencies effectively. Our methodology includes a two-step transfer learning algorithm that addresses domain shift between source and target networks, along with a source detection mechanism to identify informative domains. Theoretically, we analyze the lasso estimator in the context of a random graph based on the Erd?s–Rényi model assumption, demonstrating that transfer learning improves convergence rates when informative sources are present. Empirical evaluations, including simulations and a real-world application using Sina Weibo data, demonstrate substantial improvements in prediction accuracy, particularly when labeled data in the target domain is limited.
迁移学习通过利用相关领域的知识来提升模型性能,尤其是在标注数据稀缺的情况下。尽管现有研究解决了独立设置中各种分布变化下的迁移学习问题,但处理网络化数据中的依赖关系仍具挑战性。为应对这一挑战,主讲人提出一种基于网络卷积回归(NCR)的高维迁移学习框架,其灵感源自图卷积网络(GCN)的成功。NCR 模型通过允许每个节点的响应取决于其特征及其邻居的聚合特征来纳入随机网络结构,从而有效地捕捉局部依赖关系。主讲人的方法包括一个两步迁移学习算法,用于解决源网络和目标网络之间的领域偏移问题,以及一个源检测机制来识别信息丰富的领域。从理论上讲,我们在基于 Erd?s—Renyi 模型假设的随机图背景下分析了套索估计器,证明当存在信息丰富的源时,迁移学习可提高收敛速度。包括模拟实验和使用新浪微博数据的真实世界应用在内的实证评估表明,在目标领域标注数据有限的情况下,预测准确性有显著提高。