Skip to content

Открытые наборы данных

CashPop публикует анонимизированные агрегированные наборы данных по лицензии CC-BY-4.0 на сайте datasets.cashpop.meme.

Периодичность выпуска

  • Ежедневно: скользящие 30-дневные метрики через API.
  • Ежеквартально: полный квартальный снимок, включая агрегаты на уровне Round (раунда).
  • Ежегодно: аннотированный исследовательский набор данных с методологической статьей.

Продукты данных

1. cashpop-rounds-Qx-YYYY.parquet

Агрегаты по каждому Round (раунду). Схема:

round_id          int64
question_id       int64
start_ts          int64 (мс UTC)
participant_count int32
commit_count_by_second  array<int32>  // 30 элементов
reveal_count_by_second  array<int32>  // 15 элементов
majority_outcome  int8           // 0 или 1
vote_ratio        float64        // доля большинства
country_buckets   map<string, struct{count: int32, ratio: float64}>

2. cashpop-reservoir-Qx-YYYY.parquet

Снимок пула вопросов. Схема:

question_id       int64
question_text     string
category          string
language_origin   string
calibration_distribution  array<float64>  // оценка синтетической популяции
actual_distribution       array<float64>  // наблюдаемое распределение
focal_point_index float64       // расхождение по Schelling (точке Шеллинга)

3. cashpop-timeseries-Qx-YYYY.parquet

Ежедневные агрегаты. Схема:

date              date
dau               int32
mau               int32
total_rounds      int32
ad_revenue_usd    float64
prize_pool_distributed_usd  float64
unique_countries  int32
median_round_size int32

4. cashpop-focal-matrix-Qx-YYYY.parquet

Матрица сходства фокальных точек между странами. Схема:

question_category string
country_a         string  // ISO-3166
country_b         string
similarity        float64  // косинусное сходство по распределениям ответов
sample_size_a     int32
sample_size_b     int32

Методологическая статья

Каждый квартальный выпуск сопровождается методологической статьей, охватывающей:

  • Решения по выборке и известные смещения
  • Параметры анонимизации (порог k-анонимности, ε для дифференциальной приватности)
  • Калибровочный анализ пула вопросов
  • Инструкции по воспроизведению

Как получить доступ

bash
# Через API
curl https://datasets.cashpop.meme/api/v1/Q2-2027/rounds.parquet

# Прямая загрузка
wget https://datasets.cashpop.meme/releases/Q2-2027/

# Через Python
import requests, pandas as pd
df = pd.read_parquet('https://datasets.cashpop.meme/releases/Q2-2027/cashpop-rounds.parquet')

Код воспроизведения

Открытый конвейер на github.com/cashpop-protocol/data-pipeline. Любой желающий может:

  1. Повторно запустить анонимизацию с другими параметрами.
  2. Перепроверить гарантии k-анонимности и дифференциальной приватности.
  3. Воспроизвести опубликованные анализы.

Лицензия

Creative Commons Attribution 4.0 International (CC-BY-4.0). Вы можете использовать, распространять и адаптировать данные для любых целей, включая коммерческие, с указанием авторства.

Академические партнерства

Активные или находящиеся в стадии переговоров:

  • Группа поведенческой экономики в исследовательском университете (целевое объявление — Q3 2026).
  • Консорциум вычислительных социальных наук (целевое объявление — Q4 2026).

Внешние исследователи, желающие получить доступ к неагрегированным данным (при соответствующем одобрении IRB и протоколе конфиденциальности), могут обращаться по адресу: research@cashpop.meme.

Цитирование

Если вы используете данные CashPop в опубликованном исследовании, пожалуйста, цитируйте:

CashPop Protocol Team. (2027). CashPop Round Aggregates Qx-YYYY [Dataset]. https://datasets.cashpop.meme

Формальная запись BibTeX будет предоставлена для каждого выпуска.

Built on TON.