在古生物学研究中,识别化石物种的性双型(sexual dimorphism)是探讨性选择作用于演化过程的关键前提。然而,由于化石记录保存不完整、样本量有限以及缺乏性别先验信息等因素,如何从有限的形态数据中可靠地判断是否存在性双型,长期以来缺乏系统的方法支持,成为制约相关研究发展的关键难题。
本研究聚焦于连续性状中的双型现象(如体型大小),通过计算模拟实验,系统探索了不同数据特征下识别双峰分布所需的最小样本量。结果表明,没有一个放之四海而皆准的“理想样本量”——所需样本数量高度依赖于实际数据的统计特性以及研究者试图回答的具体科学问题。
具体而言,我们将目标性状的种内双型抽象为由四个关键参数共同描述的概率分布:两个群体的均值、标准差、偏度及相对群体数量比例(如性别比)。通过在不同样本量下反复抽样并以是否呈现显著双峰分布作为判断双型的依据,我们量化了这些参数对双型可检测性的影响。结果显示上述四个参数对识别双峰所需的最小样本量具有显著影响。
更重要的是,基于大量模拟数据,我们训练并优化了一个人工神经网络模型,用于估算在特定参数条件下识别双型所需的最小样本量。该模型不仅在现生鸟类和爬行动物的真实数据中得到了验证,还结合现生鸟类的典型特征参数,推导出一个适用于化石鸟类性双型研究的经验性样本量参考阈值——这是古生物学领域首个可量化的、以统计效能为基础的采样指导标准。
这项研究的核心启示在于:最小样本量并非一个孤立的数字,而是与研究设计、数据结构和科学假设紧密相关。如果研究者预先了解数据特征(如两性差异是否存在、差异程度如何),就能合理估算出得出可靠结论所需的样本数量。反之,如果已有一定数量的化石样本,也可以进行统计功效分析,评估当前样本是否有能力检测出某种程度的双型,从而明确“我们能够回答什么问题?我们不能回答什么问题?”。这正是科学研究中理性决策的基础。
作为古生物学领域首个系统建立的最小样本量预测框架,本研究不仅填补了相关方法学空白,也为未来化石采样策略和测量方案的制定提供了科学依据。尽管目前模型仅基于双峰分布假设并对参数分布进行了简化,但所提出的方法论框架和经验阈值可为后续多变量分析、复杂分布建模以及更广泛的形态多型研究奠定了基础。
正如研究结果所强调的,科学结论的质量不只取决于样本多少,更取决于我们是否理解数据的本质与问题的边界。当我们认识到这些,就能用最少的资源获得最有意义的答案;而当受限于样本量时,也能清醒地知道自己的研究边界在哪里。
本研究近期发表《Paleobiology》上,永利304官网唯一博士研究生周一擘为论文唯一第一作者,泮燕红教授为唯一通讯作者,侯旭东高级工程师为参与合作者。研究得到了国家自然科学基金与中央高校基本科研专项资金联合资助的支持。
论文链接:https://doi.org/10.1017/pab.2025.10049
图1双型指数和偏度对检测双峰分布所需最小样本量的影响 (Zhou et al., 2025)
图2模拟实验、模型构建流程及利用现生生物数据测试模型,以估算识别双峰分布所需的最小样本量的工作流程图 (Zhou et al., 2025)
图文:周一擘、泮燕红
审核:陈天宇