Skip to content

Bộ dữ liệu mở

CashPop công bố các bộ dữ liệu tổng hợp đã được ẩn danh theo giấy phép CC-BY-4.0 tại datasets.cashpop.meme.

Tần suất phát hành

  • Hàng ngày: endpoint API cung cấp số liệu 30 ngày gần nhất.
  • Hàng quý: ảnh chụp toàn bộ quý, bao gồm tổng hợp cấp Round (vòng).
  • Hàng năm: bộ dữ liệu nghiên cứu có chú thích kèm bài báo phương pháp luận.

Sản phẩm dữ liệu

1. cashpop-rounds-Qx-YYYY.parquet

Tổng hợp theo từng Round (vòng). Schema:

round_id          int64
question_id       int64
start_ts          int64 (UTC ms)
participant_count int32
commit_count_by_second  array<int32>  // 30 phần tử
reveal_count_by_second  array<int32>  // 15 phần tử
majority_outcome  int8           // 0 hoặc 1
vote_ratio        float64        // tỷ lệ đa số
country_buckets   map<string, struct{count: int32, ratio: float64}>

2. cashpop-reservoir-Qx-YYYY.parquet

Ảnh chụp kho câu hỏi. Schema:

question_id       int64
question_text     string
category          string
language_origin   string
calibration_distribution  array<float64>  // ước lượng dân số tổng hợp
actual_distribution       array<float64>  // quan sát thực tế
focal_point_index float64       // độ phân kỳ Schelling

3. cashpop-timeseries-Qx-YYYY.parquet

Tổng hợp hàng ngày. Schema:

date              date
dau               int32
mau               int32
total_rounds      int32
ad_revenue_usd    float64
prize_pool_distributed_usd  float64
unique_countries  int32
median_round_size int32

4. cashpop-focal-matrix-Qx-YYYY.parquet

Ma trận tương đồng điểm tập trung giữa các quốc gia. Schema:

question_category string
country_a         string  // ISO-3166
country_b         string
similarity        float64  // cosine trên phân phối phản hồi
sample_size_a     int32
sample_size_b     int32

Bài báo phương pháp luận

Mỗi bản phát hành hàng quý đi kèm một bài báo phương pháp luận bao gồm:

  • Quyết định lấy mẫu và các sai lệch đã biết
  • Tham số ẩn danh (ngưỡng k-anonymity, ε cho differential privacy)
  • Phân tích hiệu chuẩn kho câu hỏi
  • Hướng dẫn tái tạo

Cách truy cập

bash
# Qua API
curl https://datasets.cashpop.meme/api/v1/Q2-2027/rounds.parquet

# Tải trực tiếp
wget https://datasets.cashpop.meme/releases/Q2-2027/

# Qua Python
import requests, pandas as pd
df = pd.read_parquet('https://datasets.cashpop.meme/releases/Q2-2027/cashpop-rounds.parquet')

Mã nguồn tái tạo

Pipeline mã nguồn mở tại github.com/cashpop-protocol/data-pipeline. Bất kỳ ai cũng có thể:

  1. Chạy lại quy trình ẩn danh với các tham số khác nhau.
  2. Xác minh lại các đảm bảo k-anonymity và DP.
  3. Tái tạo các phân tích đã công bố.

Giấy phép

Creative Commons Attribution 4.0 International (CC-BY-4.0). Bạn có thể sử dụng, phân phối lại và điều chỉnh dữ liệu cho bất kỳ mục đích nào, kể cả thương mại, với điều kiện ghi nhận tác giả.

Hợp tác học thuật

Đang hoạt động hoặc đang đàm phán:

  • Nhóm kinh tế học hành vi tại một trường đại học nghiên cứu (dự kiến công bố Q3 2026).
  • Tập đoàn khoa học xã hội tính toán (dự kiến công bố Q4 2026).

Các nhà nghiên cứu bên ngoài muốn truy cập dữ liệu không tổng hợp (với quy trình IRB phù hợp và giao thức bảo mật) có thể liên hệ: research@cashpop.meme.

Trích dẫn

Nếu bạn sử dụng dữ liệu CashPop trong nghiên cứu đã công bố, vui lòng trích dẫn:

CashPop Protocol Team. (2027). CashPop Round Aggregates Qx-YYYY [Dataset]. https://datasets.cashpop.meme

Một mục BibTeX chính thức sẽ được cung cấp theo từng bản phát hành.

Built on TON.