Skip to content

社会实验方法论

框架

CashPop 是一款 Telegram 游戏。它同时也是一个持续运行、覆盖全球、实时进行的人类协调实验,研究焦点信念、策略深度以及共同知识的传播。该协议的商业结构(广告资助、代币再分配)使实验在财务上可持续。而实验本身则使该协议成为一个持久的科学公共资源。

本文档记录了我们的测量内容、匿名化方式、发布内容以及参与的学术合作伙伴。

观测变量

对于每个 Round (回合),我们记录:

变量类型精度
Round ID整数唯一
Question ID整数映射到公共题库条目
Round 开始时间戳UTC 毫秒精确
参与者数量整数精确
按阶段毫秒桶统计的 Commit (提交) 数量数组按1秒间隔分桶
按阶段毫秒桶统计的 Reveal (揭示) 数量数组按1秒间隔分桶
多数结果精确
投票比率浮点数精确
人口统计分解聚合数据按每桶≥100名参与者分桶

我们记录:

  • 任何级别的个人用户身份
  • 个人用户投票(仅记录聚合比率)
  • IP 地址(仅记录国家代码,且聚合超过100名参与者)
  • 任何特定用户在跨 Round 中的行为(每个用户在每轮中表现为一个匿名、不可交叉关联的令牌)

匿名化协议

所有发布的数据均经过 k-匿名性下限(k=100)处理:任何聚合单元中参与者数量不少于100人。低于 k 值的单元将与相邻单元合并或予以抑制。

对于人口统计分解(国家、年龄段、语言),我们应用 差分隐私,ε = 1.0:对每个单元计数添加经过校准的拉普拉斯噪声机制。

密码学证明:匿名化流水线是开源的(github.com/cashpop-protocol/data-pipeline),第三方验证者可以验证发布的数据集是否符合匿名化规则。

我们发布的内容

季度聚合数据集

每个季度,我们发布:

  1. Round 级聚合数据:每轮统计(数量、比率、人口统计)——经 k-匿名化处理。
  2. 题库快照:使用过的问题、响应分布、焦点估计。
  3. 时间序列:每周 DAU、MAU、Round 数量、奖池分布。
  4. 跨国焦点矩阵:按问题类别划分,各国响应分布的余弦相似度。

所有数据集:采用 CC-BY-4.0 许可。发布于 datasets.cashpop.meme

年度研究报告

每年,该协议发布一份达到同行评审质量的研究报告。我们已承诺:

  • 至少每季度一篇论文预印本,目标为 SSRN / arXiv(经济博弈论、计算机科学博弈论)。
  • 至少一份年度报告与学术合作伙伴合著(目标:研究型大学的行为经济学小组)。
  • 一个开放数据审查委员会,包括外部学术评审员。

第一份此类报告——涵盖 2027 年第一季度数据集——计划于 2027 年第二季度发布。

正在探索的方法论

活跃的研究方向(需经同行评审):

  1. 跨文化 Schelling Point (谢林点) 分歧指数。衡量焦点在文化上的特异性程度,作为问题类型和文化距离的函数。
  2. 人口规模的 Level-k 混合估计。利用 Round 级的提交时间和答案数据来估计人群的 level-k 分布。
  3. 共同知识传播延迟。信念关于信念通过 Telegram 社交图传播的速度有多快?可通过同步问题组的跨 Round 一致性进行测量。
  4. 群体智慧校准与真实值对比。对于事实性问题,将 CashPop 的多数结果与已验证的真实值进行比较。
  5. 按人口统计阶层划分的策略深度异质性。老年人是否更倾向于 level-1,加密原生用户是否更倾向于 level-3?可通过实证检验。
  6. 信息冲击下的信念修正。在重大新闻事件前后运行问题组;测量变化。

为何这很重要

三个原因:

  1. 科学意义。30 年来,Beauty Contest (Beauty Contest) 实验仅在受控实验室中针对少于 200 名受试者进行。CashPop 每轮运行约 10,000 名受试者,在实地条件下,跨越不同文化,并具有密码学可审计性。其经验杠杆是前所未有的。

  2. 公民意义。共同知识结构(Aumann、Rubinstein、Vives)支撑着从市场微观结构到选举结果的一切。更好地测量共同知识如何形成和消解是一项公共产品。

  3. 声誉意义。该协议的长期合法性取决于其数据公共资源的身份。CashPop 并非从用户身上榨取价值,而是与他们共同创造科学资源。

我们承认的局限性

  • 选择偏差。CashPop 用户并非人类的代表性样本。他们是具有加密好奇心且有时间玩游戏的 Telegram 用户。我们的结果可推广至该人群,而非全人类。
  • 激励污染。玩家会获得 POP (积分) 报酬。与无激励的实验室研究相比,这改变了策略博弈。我们会记录并量化此效应。
  • 题库偏差。题库由 LLM 生成并尽力去偏,但残留偏差仍然存在。我们公开题库,以便外部研究人员使用自己的去偏方法重新分析。

参考文献

  • Aumann, R.J. (1976). Agreeing to Disagree. Annals of Statistics 4(6).
  • Rubinstein, A. (1989). The Electronic Mail Game. AER 79.
  • Vives, X. (2008). Information and Learning in Markets. Princeton.
  • Surowiecki, J. (2004). The Wisdom of Crowds. Doubleday.
  • Galton, F. (1907). Vox Populi. Nature 75.

Built on TON.