大语言模型生成的社会数据在统计真实性上存在系统性缺陷,无法准确复现真实人口的分布形态和关联结构,需针对性改进才能用于社会科学研究。 ## 1. LLM生成数据的统计真实性缺陷 - **压缩异质性**:LLM生成数据趋向集中化,丧失真实人口的多样性。例如Gemini-2.5-Flash生成的初婚年龄分布向典型值坍缩,信息熵值系统性低于真实数据。 - **膨胀关联性**:变量间关联被过度放大。合成数据的Cramér's V统计量中位数高于真实数据,部分关联强度接近0.8(真实数据罕见超过0.6)。 - **夸大可预测性**:多变量回归R²值虚高。合成数据中种族/性别/学历可"解释"60%收入差异(真实数据仅10%),投射出过度简化的社会图景。 ## 2. 评估框架与关键发现 - **SSDataBench五维测试**:涵盖单变量分布、双变量关联、多变量预测、生命事件序列分布及其与协变量关联。15个LLM平均通过率仅0.19-0.30。 - **最薄弱环节**:生命事件序列分布(Type 4)通过率最低(多数模型为0),LLM将人生轨迹压缩为单一模板(如"工作→结婚→生育"路径占比畸高)。 - **规模不解决问题**:GPT-5通过率(0.20)反低于GPT-3.5(0.28),Claude系列三代模型性能持续下降,表明缺陷具结构性。 ## 3. 改进路径与局限 - **输入扩展**:提供更丰富背景变量可提升质量。移除性别/种族后,所有模型统计真实性下降。 - **微调验证**:用1970年数据微调的Llama-3.1在跨十年测试中通过率翻倍,显示领域特定训练的有效性。 - **根本局限**:LLM训练目标(逐例准确性)与社会科学需求(分布保真度)存在本质冲突,需针对性方法突破。
PNAS:大语言模型生成社会数据的统计真实性评估
2026-05-09 14:41

PNAS:大语言模型生成社会数据的统计真实性评估

本文来自微信公众号: 集智俱乐部 ,作者:任筱芃


不可能完美的抽样


社会统计学家Jerzy Neyman将总体定义为“满足特定定义但个体属性各异的实体类别”(Neyman,1937)。如果个体的属性各不相同,那么“异质性”——即人与人之间的系统性差异——就不是数据的噪声。好的数据采集方法的目标不是消灭变异,而是如实地再现它。变异是人类社会无法剥离的统计特征。收入不均、教育分化、健康差异、寿命分层如果被当作数据的“噪声”来消除,那么所得的数据对社会科学家而言将毫无意义,因为社会科学要研究的恰恰就是这些差异本身。


近一个世纪后,大语言模型的发展似乎提供了一个非常方便的方法来补充甚至取代问卷调查。给GPT系列模型一个人的性别、种族、年龄,它就能输出这个人的收入、婚姻状况、健康水平。听起来很方便。2023年的一项先驱性研究表明,GPT-3生成的样本在美国民意调查领域展现出了“显著的保真度”(Argyle et al.,2023)。如果LLM真能生成足够真实的人口数据,那么困扰社会科学几十年的数据缺失、样本流失、隐私约束、反事实不可观测等问题都将被代偿。这一愿景非常诱人。但在真正投入使用之前,我们需要对大模型生成的社会学数据进行全面评估。


过去对LLM生成数据的评估几乎全部聚焦于“个体层面的预测准确率”,即模型能否猜对某个人的调查回答。社会科学家更关心的是这批合成数据能否复现真实人口的分布形态、变量关联、结构关系。就像抽样调查的价值不在于每个受访者是否“真实”,而在于样本能否近似总体的统计矩(Groves et al.,2011)——均值是否对、方差是否对、相关系数矩阵是否对、分布的偏度和峰度是否对。统计矩才是关键。


这项提交至PNAS的研究系统地将社会科学抽样调查的底层逻辑应用于LLM生成数据的评估。结果比预想的更令人不安。


研究背景与问题


社会科学的数据困境


社会科学研究长期受困于数据的五个根本性限制。关键变量(如财富、主观幸福感、认知能力)难以采集且常伴生测量误差;纵向追踪数据的时间跨度不足;几乎所有调查数据都面临拒访和样本流失导致的缺失值;隐私限制和机构壁垒压缩实证研究的空间;社会科学家永远无法直接观测反事实结果(Holland,1986)。


这是老问题,因此AI生成数据被视为潜在的解决方案。近年的两条主要研究脉络分别是预测个体生命轨迹(如生育、教育、健康),以及开发基于LLM的社会智能体来理解交互行为(如调查响应、舆论极化)。但越来越多的证据表明,AI生成数据无法代表真实人口,甚至可能产生有偏结论。早期研究发现语言模型往往未能完全反映代表性民意(Santurkar et al.,2023);更新的研究进一步表明,现代LLM展现出强烈的、主题依赖的“机器偏见”和变异性降低(Boelaert et al.,2025)。偏差无处不在。


现有评估实践几乎全部围绕个体层面的预测准确性展开。但社会科学本质上是人口科学(Goldthorpe,2016)。即使拥有丰富的背景信息,研究者也很少能对个体结果做出精确预测(Lundberg et al.,2024)。个体层面的强预测性能不应被视为有效性的核心标准。


SSDataBench


研究团队提出了SSDataBench(SocialScienceDataBench),一个系统性的基准测试框架。其核心创新在于将评估标准从“个体准确率”转向“人口层面的统计真实性”——即LLM生成的合成数据能否复现真实世界的统计模式。


五个评估维度


框架设计了五类统计模式评估,覆盖社会科学研究的核心需求。


第一类,单变量分布(Type 1)。检验LLM能否复现各目标变量的分布形态。例如,受教育水平的分布是否与真实人口一致。使用Kolmogorov-Smirnov检验(数值型)和Pearson卡方检验(类别型)进行评估。


第二类,双变量关联(Type 2)。检验变量对之间的关联强度是否与真实数据一致。使用Fisher z检验(数值×数值)、Delta-method z检验(类别×类别、类别×数值)。


第三类,多变量结果预测(Type 3)。以性别、种族、最高学历(横截面数据集还包括年龄)为协变量,以数值型目标变量为结果,检验回归模型的R²是否一致。


第四类,生命事件序列分布(Type 4)。检验人生轨迹的排列顺序分布是否与真实人口一致。例如“先结婚→后工作→再生育”这条路径在真实数据中占比多少,在合成数据中是否被保留。


第五类,生命事件序列与协变量的关联(Type 5)。检验人生轨迹与社会经济变量之间的关联结构是否被复现。


七大数据集


研究使用了4个纵向追踪数据集和3个横截面数据集,涵盖六大社会领域:



模拟方法


对每个数据集,随机抽取1000个真实个体,用其背景变量(性别、种族等)作为输入条件,让15个LLM分别为每个个体生成一个“数字孪生”。合成数据集随后与真实数据通过五类统计检验进行对比。规模相当可观。


图1:SSDataBench基准测试框架概览。(a)从数据准备到模拟生成再到统计评估的完整流程。(b)五类统计模式的评估方法,每类都通过假设检验判断LLM生成数据是否与真实数据存在显著差异。


四种系统性缺陷


15个LLM在7个数据集、五类统计模式上的平均通过率普遍很低。表现最好的GPT-4和Llama-3.1平均通过率也仅0.30,表现最差的Claude-4.5-Haiku仅为0.19。值得注意的是,五类评估中存在清晰的梯度:分布类测试(Type 1单变量分布、Type 4生命事件序列分布)通过率最低,而关联类测试(Type 2双变量关联、Type 3多变量预测、Type 5轨迹-协变量关联)通过率显著更高。这意味着LLM捕捉变量间关联结构的能力强于复现完整分布的能力,即它们能大致理解“学历与收入相关”,却无法准确再现“收入在人口中的具体分布形态”。在NLSY和CFPS等纵向数据集上,Type 4(生命事件序列分布)的通过率尤其惨淡,多数模型得分为0。


图2:15个LLM在7个数据集上的五类统计模式通过率热力图。颜色越深表示通过率越高。Type 4(生命事件序列分布)大面积呈现白色(通过率为0),是最薄弱的环节。


缺陷一:压缩异质性


LLM生成的数据在分布上趋向于集中,丧失了真实人口的多样性。


以Gemini-2.5-Flash在NLSY上的案例为例,真实数据中“初婚年龄”呈现宽泛分布,但合成数据中的分布明显向典型值坍缩。


自我评估记忆力的分布也呈现类似模式——真实人口中存在从“极差”到“极好”的完整光谱,而LLM倾向于将大多数人的数据“生成”在中间值带。


也就是说中间态被过度代表了,两端泯灭了。量化这一现象的工具是信息熵。类别型变量的熵值对比显示,合成数据的熵值系统性低于真实数据,意味着LLM在生成过程中丢失了变异信息。换言之,多样性被吞噬了。


图3:Gemini-2.5-Flash在NLSY上的分布坍缩案例。


缺陷二:膨胀关联性


LLM不仅压缩了分布,还膨胀了变量之间的关联。


Cramér's V统计量(衡量两个类别变量之间关联强度,范围0-1)在合成数据中系统性偏高。在真实NLSY数据中,最高学历与性别、职业、自评健康之间的关联相对温和,但在合成数据中,这些关联被大幅放大。生成数据中许多变量对的Cramér's V超过0.6,部分甚至接近0.8或1,在真实项目应用中就有可能高估现有知识、能力和判断的准确性,低估风险和不确定性。部分情况下,LLM放大了真实世界中已存在的微弱关联(如学历与职业的关系);另一些情况下,LLM则凭空创造了真实数据中不存在的强关联。无论哪种情况,其结果都是将复杂的社会现象简化为确定性的因果叙事——而使用者可能完全不知道生成数据中隐含了多少这种模式化的偏见。


从全局视角看,合成数据的Cramér's V分布整体右移——中位数高于真实数据,且出现大量高值聚集(>0.6),这在真实数据中几乎不存在。这一现象在统计真实性较低的模型中尤为突出。更危险的是这种刻板关联的投射是隐性的,即使用者可能完全不知道生成数据中包含了多少先验偏见。


图4:统计量在所有模型和数据集上的分布对比(箱线图)。(b)Cramér's V——合成数据关联偏强且高值聚集。


缺陷三:夸大可预测性


多变量回归分析揭示了更深层的问题。


当以Race、Gender、Highest Education为自变量预测各类结果变量时,合成数据的R²值远高于真实数据。以“30-40岁平均收入(对数)”为例:合成数据的回归模型R²接近0.6,意味着种族、性别和学历“解释”了60%以上的收入差异。但真实数据中,同样的模型R²不到0.1。


总之,LLM们反而最终是在告诉我们仅凭种族、性别和学历就能高度预测一个人的收入。这不是研究者得出的结论,而是模型输出所投射的世界图景,同时也是社会科学几十年来试图打破的刻板叙事。这种“过度可预测性”在统计真实性低的模型中尤为严重。许多合成数据的R²值超过0.8,而真实数据中R²值普遍低于0.2。


图5:Gemini-2.5-Flash在NLSY上的回归模型R²对比——合成数据中预测力被严重夸大,尤其是收入预测。


缺陷四:类型的坍缩


五类评估中,Type 4(生命事件序列分布)的通过率最低。


LLM生成的人生轨迹呈现严重的“坍缩”现象——多数虚拟个体的生命路径被压缩为极少数典型模式。人生被模板化了。以NLSY数据为例,真实人口中“初婚(M)→开始工作(W)→初次生育(C)”三事件的排序存在六种可能组合,且分布相对分散。但生成数据中,绝大多数虚拟个体被推向了最“规范”的路径——“先工作、再结婚、后生育”(W→M→C),其他排列被严重低估。六条路只剩一条。


信息熵的对比展示了合成数据的轨迹熵值显著低于真实数据。LLM在训练过程中习得了“典型人生”的叙事模板——读书、工作、结婚、生子。当被要求生成虚拟人口时,它倾向于把所有人都推向这条“标准路径”,就好像全世界的80亿人都在遵循同一种人生剧本一样。模板化。单一化。扁平化。


但真实人生不是模板,而且从我们对故事性的直觉来看,即使有这样的模板我们也不喜欢。有人先有孩子再结婚,有人中途辍学后创业成功,有人一辈子未婚并将有限的生命投入无限地开拓中。这些非典型但真实的人生轨迹,在LLM的输出中几乎消失了。真实NLSY数据中存在相当比例的非标准路径,但在合成数据中这些排列被严重低估,多样性急剧下降。


生命轨迹与协变量之间的关联结构同样失真。下图展示了NLSY中“初婚、开始工作、初次生育”三事件序列与性别、最高学历、移民状态等变量之间的Cramér's V。虽然Type 5(轨迹-协变量关联)不像Type 2那样出现系统性膨胀,但偏差依然明显。合成数据中大量关联超过0.5,而真实数据中几乎没有如此强的依赖。模型未能捕捉到性别、学历、移民身份等变量对人生轨迹排序的关键影响。


图6:Gemini-2.5-Flash在NLSY上的生命事件序列分析。(e)初婚(M)、开始工作(W)、初次生育(C)三事件的排序分布——合成数据严重偏向W→M→C路径。(f)完成教育(E)、开始工作(W)、初次生育(C)序列与协变量的Cramér's V——偏差虽非系统性膨胀,但仍显著偏离真实数据。


Scale不是答案


面对这些缺陷,一个顺延的猜测是更大的模型、更新的版本,表现应该更好。过去几年,通过扩大参数规模、延长上下文窗口、增加训练数据,LLM在几乎所有标准能力基准测试上都实现了持续跃升。无论是编程、数学推理、多语言翻译、专业考试,模型家族内的更新更大的版本几乎总是碾压旧版本。因此有理由期待统计真实性也会随模型能力的提升而水涨船高。但数据否定了这个直觉。


模型容量与统计真实性之间并未呈现出预期的正向关联。从GPT-3.5-Turbo(平均通过率0.28)到GPT-5(0.20),性能不升反降。同一模型家族内,新一代并不比上一代更好。Claude-3-Haiku(0.23)、Claude-3.5-Haiku(0.21)、Claude-4.5-Haiku(0.19)三代递减。这一模式表明,统计真实性的缺失可能不是暂时的能力不足,而是一个结构性挑战。


图7:五类统计量在所有模型和数据集上的分布对比(箱线图)。每对箱线图分别对应真实数据(左)和合成数据(右)。(a)类别变量信息熵——合成数据系统性偏低。(b)Cramér's V——合成数据关联偏强且高值聚集。(c)R²——合成数据预测力系统性偏高。(d)生命事件序列信息熵——合成数据轨迹多样性显著不足。(e)轨迹-协变量Cramér's V——合成数据仍存在偏差。


原因有二。在模型层面,LLM的训练目标优化的是逐例预测准确性(case-wise prediction accuracy),而非跨多例的分布保真度(distributional fidelity)。准确性导向的目标甚至会放大类型化倾向——模型倾向于为每个输入给出“最可能”的答案,而真实人口需要的恰恰是变异。在数据层面,大量丰富的社会科学数据以表格等量化格式存储和流通,而非自然语言。现有LLM难以从文本语料中内化这些结构化信息。


这意味着,改善统计真实性不能依赖单纯扩大模型规模,而需要针对性的方法。


通往更好统计真实性的路径


三条改善路径


更丰富的输入有可能改善生成的结果。辅助实验表明,当从输入条件中移除性别和种族等背景变量时,统计真实性普遍恶化。在Add Health和U.S.Census两个数据集上测试的研究使用了GPT-4o、Gemini-2.5-Flash、Llama-3.1三个模型,发现移除Gender和Race后所有模型的统计真实性均出现下降(Xie et al.,2025)。这意味着,提供更丰富的输入信息是改善合成数据质量的有效策略。在数据采集环节投入更多成本,直接反映在模拟结果的统计保真度上。研究者应当尽可能详尽地提供人口学和社会经济背景信息,而非仅用最少的变量组合。


情境条件有可能约束输出。正如American Voices Project所倡导的,质性数据能够捕捉量化调查难以测量的生活经验和社会情境(Edin et al.,2024)。将访谈文本作为LLM的输入,可能提供比结构化变量更深的“锚定”。从人口统计数字转向有温度的生活叙事,从变量到故事,从表格到口述历史,这些更贴近人的数据可能是未来模型上下文能力提升后值得尝试的。LLM在处理非结构化文本方面天然具有优势(Verhagen et al.,2025)。如果一个数字孪生不仅知道“这位受访者是35岁的非裔美国女性、高中学历”,还能读到她关于成长经历的口述历史文本,模型就有可能生成更贴近真实变异的模拟结果。这恰好是LLM区别于传统统计模型的核心能力。


微调是目前在工程实践中最有可能被用上的。这是三条路径中目前验证最充分的一条。研究团队用CPS-ASEC(1970)的1000个样本对Llama-3.1(8B)进行微调,然后在三个完全不同的数据集上评估泛化能力。


图8:Llama-3.1(8B)在CPS-ASEC(1970)上微调前后的通过率对比。微调在三个未见数据集上均带来显著提升,其中同数据集跨情境迁移的提升最大。


微调数据来自与评估不同的社会情境(1970 vs.1980),且在一个数据集上完全是跨数据集迁移。这表明领域特定的训练数据能实质性增强统计真实性,且具有一定的泛化能力。


特别值得注意的是,CPS-ASEC(1970)的1000个微调样本在跨十年(1970→1980)的情境迁移中使通过率翻了一倍以上,在完全不同的GSS数据集上也带来了24%的提升——这暗示统计真实性并非完全依赖特定数据的记忆,而是可以通过学习更一般的人口分布规律来改善。


局限性


研究团队坦诚了三个主要局限。


第一,通过率涉及若干主观决策。Bootstrap样本量的选择、汇总统计量的定义、具体统计检验的选取及其参数化、以及0.05的常规显著性阈值,都涉及不可避免的判断。通过率应被理解为比较性而非绝对性指标。不同模型之间的相对性能排序是可靠的,因为所有模型都在同一套统计量、检验和阈值下评估。案例研究中的描述性结果也为二元通过/失败的判定提供了补充。


第二,评估主要在稀疏条件下进行。模型仅被提供有限的人口背景变量,目标变量完全不可观测。在这一设定下,传统的插补方法并不直接适用,因为它们通常假设目标变量至少部分可观测。在部分可观测场景下将LLM与SOTA插补方法进行基准对比,是一个重要的未来方向。


第三,虽然使用了大规模调查作为最佳可用的实证基线,但调查数据本身并非完美的“真值”。覆盖偏差、拒答偏差、流失偏差、访员偏差、社会期望偏差、回忆误差和测量误差等问题在调查研究中普遍存在。任何以调查数据为“真值”的评估框架,都不可避免地受到这些偏差的污染。研究者在解读评估结果时,应当总是将这一层不确定性纳入考量。


因果推断的潜在价值


以上缺陷们、缩放无效的困境、改善路径的初步探索所反映的是当前的LLM生成数据距离统计保真还有显著差距,但差距的方向是可辨识的、可干预的。正是这一条件性,使得讨论下游应用的前景成为有可能的、有约束的技术愿景。


如果经过适当的训练,AI生成数据在社会科学中具有独特的前景——尤其是在因果推断领域。设想一个场景:研究者想知道“大学教育对收入的因果效应”,但现实中无法随机分配大学入学机会。如果LLM能够生成统计真实的合成人口,研究者就能在虚拟世界中为同一个人同时生成上大学和不上大学两种反事实结果,直接估计因果效应。


Holland四十年前指出,因果推断的根本问题在于反事实结果不可观测(Holland,1986)。如果LLM能够生成统计真实的合成人口,研究者就能在虚拟世界中进行随机化实验、操纵关键变量、观测反事实结果。可能性巨大。


这将从根本上改变社会科学的实证研究范式。随机对照实验——社会科学因果推断的“金标准”——将从昂贵、耗时、伦理敏感的实地操作,转变为可以在计算集群上批量运行的模拟过程。但前提是合成数据至少要先通过统计保真度的检验。SSDataBench为这一目标提供了可操作的评估框架和受约束的改进路线。


路虽远,行则将至。


这项研究的核心启示可以浓缩为统计保真度是LLM生成数据的“生命线”。没有它,一切下游应用——因果推断、政策模拟、人口预测——都建立在泡影之上。SSDataBench的五维框架(分布形态、双变量关联、多变量预测、轨迹分布、轨迹-协变量关联)为后续研究设定了可用的标尺,而跨数据集的系统评估则提供了目前最全面的基准数据。


参考文献


  1. Argyle,Lisa P.,et al.“Out of One,Many:Using Language Models to Simulate Human Samples.”Political Analysis,vol.31,no.3,Feb.2023,pp.337–51,doi:10.1017/pan.2023.2.


  2. Bisbee,James,et al.“Synthetic Replacements for Human Survey Data?The Perils of Large Language Models.”Political Analysis,vol.32,no.4,May 2024,pp.401–16,doi:10.1017/pan.2024.5.


  3. Edin,Kathryn J.,et al.“Listening to the Voices of America.”RSF:The Russell Sage Foundation Journal of the Social Sciences,vol.10,no.5,Aug.2024,pp.1–31,doi:10.7758/rsf.2024.10.5.01.


  4. Goldthorpe,John H.Sociology as a Population Science.Cambridge University Press,2016.


  5. Groves,Robert M.,et al.Survey Methodology.John Wiley&Sons,2011.


  6. Holland,Paul W.“Statistics and Causal Inference.”Journal of the American Statistical Association,vol.81,no.396,Dec.1986,pp.945–60,doi:10.1080/01621459.1986.10478354.


  7. Neyman,Jerzy.“Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.”A Selection of Early Statistical Papers of J.Neyman,University of California Press,2023,pp.250–90,https://doi.org/10.2307/jj.8501421.24


  8. Santurkar,Shibani,et al.“Whose Opinions do Language Models Reflect?”arXiv.org,30 Mar.2023,https://arxiv.org/abs/2303.17548


  9. Verhagen,Mark D.,et al.“The Book of Life Approach:Enabling Richness and Scale for Life Course Research.”arXiv.org,2 July 2025,https://arxiv.org/abs/2507.03027


  10. Xie,Yu.“Population Heterogeneity and Causal Inference.”Proceedings of the National Academy of Sciences of the United States of America,vol.110,no.16,2013,pp.6262–68,doi:10.2307/42590407.


  11. Xie,Yu,and Yueqi Xie.“Variance Reduction in Output from Generative AI.”arXiv.org,2 Mar.2025,https://arxiv.org/abs/2503.01033


  12. Boelaert,Julien,et al.“Machine Bias.How do Generative Language Models Answer Opinion Polls?.”Sociological Methods&Amp Research,vol.54,no.3,Apr.2025,pp.1156–96,doi:10.1177/00491241251330582.


  13. Lundberg,Ian,et al.“The Origins of Unpredictability in Life Outcome Prediction Tasks.”Proceedings of the National Academy of Sciences,vol.121,no.24,June 2024,doi:10.1073/pnas.2322973121.


参考文献可上下滑动查看

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定