Skip to content

Conjuntos de datos abiertos

CashPop publica conjuntos de datos agregados anonimizados bajo licencia CC-BY-4.0 en datasets.cashpop.meme.

Cadencia de publicación

  • Diaria: endpoint de métricas de los últimos 30 días mediante API.
  • Trimestral: instantánea trimestral completa, incluyendo agregados a nivel de Round (ronda).
  • Anual: conjunto de datos anotado para investigación con artículo metodológico.

Productos de datos

1. cashpop-rounds-Qx-YYYY.parquet

Agregados por Round. Esquema:

round_id          int64
question_id       int64
start_ts          int64 (ms UTC)
participant_count int32
commit_count_by_second  array<int32>  // 30 elementos
reveal_count_by_second  array<int32>  // 15 elementos
majority_outcome  int8           // 0 o 1
vote_ratio        float64        // proporción de la mayoría
country_buckets   map<string, struct{count: int32, ratio: float64}>

2. cashpop-reservoir-Qx-YYYY.parquet

Instantánea del reservorio de preguntas. Esquema:

question_id       int64
question_text     string
category          string
language_origin   string
calibration_distribution  array<float64>  // estimación de población sintética
actual_distribution       array<float64>  // observada
focal_point_index float64       // divergencia de Schelling

3. cashpop-timeseries-Qx-YYYY.parquet

Agregados diarios. Esquema:

date              date
dau               int32
mau               int32
total_rounds      int32
ad_revenue_usd    float64
prize_pool_distributed_usd  float64
unique_countries  int32
median_round_size int32

4. cashpop-focal-matrix-Qx-YYYY.parquet

Similitud de punto focal entre países. Esquema:

question_category string
country_a         string  // ISO-3166
country_b         string
similarity        float64  // coseno sobre distribuciones de respuestas
sample_size_a     int32
sample_size_b     int32

Artículo metodológico

Cada publicación trimestral se acompaña de un artículo metodológico que cubre:

  • Decisiones de muestreo y sesgos conocidos
  • Parámetros de anonimización (umbral k-anonimato, ε para privacidad diferencial)
  • Análisis de calibración del reservorio de preguntas
  • Instrucciones de replicación

Cómo acceder

bash
# Mediante API
curl https://datasets.cashpop.meme/api/v1/Q2-2027/rounds.parquet

# Mediante descarga directa
wget https://datasets.cashpop.meme/releases/Q2-2027/

# Mediante Python
import requests, pandas as pd
df = pd.read_parquet('https://datasets.cashpop.meme/releases/Q2-2027/cashpop-rounds.parquet')

Código de replicación

Pipeline de código abierto en github.com/cashpop-protocol/data-pipeline. Cualquier persona puede:

  1. Re-ejecutar la anonimización con diferentes parámetros.
  2. Re-verificar las garantías de k-anonimato y privacidad diferencial.
  3. Reproducir los análisis publicados.

Licencia

Creative Commons Attribution 4.0 International (CC-BY-4.0). Puede usar, redistribuir y adaptar los datos para cualquier propósito, incluido comercial, con atribución.

Colaboraciones académicas

Activas o en negociación:

  • Grupo de economía conductual de una universidad de investigación (anuncio previsto Q3 2026).
  • Consorcio de ciencia social computacional (anuncio previsto Q4 2026).

Investigadores externos que busquen acceso a datos no agregados (con revisión IRB y protocolo de confidencialidad adecuados) pueden contactar: support@cashpop.meme.

Citación

Si utiliza datos de CashPop en investigaciones publicadas, cite:

CashPop Protocol Team. (2027). CashPop Round Aggregates Qx-YYYY [Dataset]. https://datasets.cashpop.meme

Se proporcionará una entrada BibTeX formal por cada publicación.

Built on TON.