社会实验方法论
框架
CashPop 是一款 Telegram 游戏。它同时也是一个持续运行、覆盖全球、实时进行的人类协调实验,研究焦点信念、策略深度以及共同知识的传播。该协议的商业结构(广告资助、代币再分配)使实验在财务上可持续。而实验本身则使该协议成为一个持久的科学公共资源。
本文档记录了我们的测量内容、匿名化方式、发布内容以及参与的学术合作伙伴。
观测变量
对于每个 Round (回合),我们记录:
| 变量 | 类型 | 精度 |
|---|---|---|
| Round ID | 整数 | 唯一 |
| Question ID | 整数 | 映射到公共题库条目 |
| Round 开始时间戳 | UTC 毫秒 | 精确 |
| 参与者数量 | 整数 | 精确 |
| 按阶段毫秒桶统计的 Commit (提交) 数量 | 数组 | 按1秒间隔分桶 |
| 按阶段毫秒桶统计的 Reveal (揭示) 数量 | 数组 | 按1秒间隔分桶 |
| 多数结果 | 精确 | |
| 投票比率 | 浮点数 | 精确 |
| 人口统计分解 | 聚合数据 | 按每桶≥100名参与者分桶 |
我们不记录:
- 任何级别的个人用户身份
- 个人用户投票(仅记录聚合比率)
- IP 地址(仅记录国家代码,且聚合超过100名参与者)
- 任何特定用户在跨 Round 中的行为(每个用户在每轮中表现为一个匿名、不可交叉关联的令牌)
匿名化协议
所有发布的数据均经过 k-匿名性下限(k=100)处理:任何聚合单元中参与者数量不少于100人。低于 k 值的单元将与相邻单元合并或予以抑制。
对于人口统计分解(国家、年龄段、语言),我们应用 差分隐私,ε = 1.0:对每个单元计数添加经过校准的拉普拉斯噪声机制。
密码学证明:匿名化流水线是开源的(github.com/cashpop-protocol/data-pipeline),第三方验证者可以验证发布的数据集是否符合匿名化规则。
我们发布的内容
季度聚合数据集
每个季度,我们发布:
- Round 级聚合数据:每轮统计(数量、比率、人口统计)——经 k-匿名化处理。
- 题库快照:使用过的问题、响应分布、焦点估计。
- 时间序列:每周 DAU、MAU、Round 数量、奖池分布。
- 跨国焦点矩阵:按问题类别划分,各国响应分布的余弦相似度。
所有数据集:采用 CC-BY-4.0 许可。发布于 datasets.cashpop.meme。
年度研究报告
每年,该协议发布一份达到同行评审质量的研究报告。我们已承诺:
- 至少每季度一篇论文预印本,目标为 SSRN / arXiv(经济博弈论、计算机科学博弈论)。
- 至少一份年度报告与学术合作伙伴合著(目标:研究型大学的行为经济学小组)。
- 一个开放数据审查委员会,包括外部学术评审员。
第一份此类报告——涵盖 2027 年第一季度数据集——计划于 2027 年第二季度发布。
正在探索的方法论
活跃的研究方向(需经同行评审):
- 跨文化 Schelling Point (谢林点) 分歧指数。衡量焦点在文化上的特异性程度,作为问题类型和文化距离的函数。
- 人口规模的 Level-k 混合估计。利用 Round 级的提交时间和答案数据来估计人群的 level-k 分布。
- 共同知识传播延迟。信念关于信念通过 Telegram 社交图传播的速度有多快?可通过同步问题组的跨 Round 一致性进行测量。
- 群体智慧校准与真实值对比。对于事实性问题,将 CashPop 的多数结果与已验证的真实值进行比较。
- 按人口统计阶层划分的策略深度异质性。老年人是否更倾向于 level-1,加密原生用户是否更倾向于 level-3?可通过实证检验。
- 信息冲击下的信念修正。在重大新闻事件前后运行问题组;测量变化。
为何这很重要
三个原因:
科学意义。30 年来,Beauty Contest (Beauty Contest) 实验仅在受控实验室中针对少于 200 名受试者进行。CashPop 每轮运行约 10,000 名受试者,在实地条件下,跨越不同文化,并具有密码学可审计性。其经验杠杆是前所未有的。
公民意义。共同知识结构(Aumann、Rubinstein、Vives)支撑着从市场微观结构到选举结果的一切。更好地测量共同知识如何形成和消解是一项公共产品。
声誉意义。该协议的长期合法性取决于其数据公共资源的身份。CashPop 并非从用户身上榨取价值,而是与他们共同创造科学资源。
我们承认的局限性
- 选择偏差。CashPop 用户并非人类的代表性样本。他们是具有加密好奇心且有时间玩游戏的 Telegram 用户。我们的结果可推广至该人群,而非全人类。
- 激励污染。玩家会获得 POP (积分) 报酬。与无激励的实验室研究相比,这改变了策略博弈。我们会记录并量化此效应。
- 题库偏差。题库由 LLM 生成并尽力去偏,但残留偏差仍然存在。我们公开题库,以便外部研究人员使用自己的去偏方法重新分析。
参考文献
- Aumann, R.J. (1976). Agreeing to Disagree. Annals of Statistics 4(6).
- Rubinstein, A. (1989). The Electronic Mail Game. AER 79.
- Vives, X. (2008). Information and Learning in Markets. Princeton.
- Surowiecki, J. (2004). The Wisdom of Crowds. Doubleday.
- Galton, F. (1907). Vox Populi. Nature 75.