Cointime

Download App
iOS & Android

Наборы данных Pinax стали проще с Parquet и S3.

Validated Project

TL;DR: Набор данных Pinax упрощает доступ к данным блокчейна с использованием файлов Parquet и S3. Такое сочетание обеспечивает эффективное хранилище, повышенную производительность запросов и полную интеграцию с различными аналитическими инструментами. Необработанные данные блокчейна структурированы с использованием схемы SQL, что упрощает анализ. Наш набор данных предоставляет удобное решение для доступа и анализа сложной информации блокчейна.

В предыдущем сообщении блога мы представили наборы данных Pinpoint и то, как они упростят доступ к данным блокчейна. В этой статье мы углубимся в инструменты и структуры, которые делают наши наборы данных такими мощными, такие как файлы Parquet и схемы SQL. Мы обсудим, как Pinax использует файлы Parquet для эффективного хранения данных, а также комплексную архитектуру SQL, лежащую в основе нашего исходного набора данных блокчейна. Узнайте, как мы планируем предоставить аналитикам данных удобные и передовые технологии.

Набор данных Pinax делает данные блокчейна легко доступными, устраняя препятствия для людей, которые хотят анализировать информацию блокчейна, но могут не иметь профессиональных инструментов или инфраструктуры. Мы используем файлы Parquet, размещенные на S3, чтобы позволить профессионалам в различных областях — от макроанализа до чат-ботов с искусственным интеллектом и финансового анализа — сосредоточиться на анализе, а не на обработке данных.

Мы разработали наши наборы данных так, чтобы они были совместимы с существующими инструментами анализа, что позволяет аналитикам легко подключаться и играть со своими текущими настройками. Это означает, что вы можете использовать Amazon S3 в качестве внешней таблицы, чтобы легко интегрировать наш набор данных в существующий рабочий процесс. Внешние таблицы широко поддерживаются в различных базах данных, поэтому вы можете запрашивать данные непосредственно из S3 без необходимости сложной настройки или специальной инфраструктуры, что упрощает управление данными.

Попробуйте наш набор данных Ethereum: попробуйте его бесплатно на Snowflake в течение 30 дней.

Доступ, обработка и анализ данных блокчейна могут быть сложными, особенно учитывая, что технология продолжает развиваться в разных отраслях и увеличивать объем и сложность данных. Pinax помогает с простыми в использовании наборами данных, которые упрощают доступ и предназначены как для технических, так и для нетехнических пользователей. В основе нашего упрощенного подхода лежат файлы Parquet — мощный столбчатый формат хранения, который повышает эффективность и масштабируемость, особенно для больших наборов данных.

Но что такое файлы Parquet и почему они так важны для доступа к данным блокчейна?

Parquet — это столбчатый формат хранения файлов, широко используемый для обработки данных благодаря его эффективному сжатию и производительности. В отличие от форматов хранения на основе строк, в которых данные хранятся последовательно, Parquet оптимизирует производительность хранения и запросов за счет организации данных в столбцы, что делает его особенно эффективным для аналитики.

--- На этом рисунке сравнивается расположение строк (каждая строка сохраняется последовательно) и расположение столбцов (каждый столбец сохраняется полностью (источник))

Столбчатый формат файлов Parquet делает их идеальными для управления сложными наборами данных большого объема в блокчейнах. Включив выборочные запросы по столбцам, Parquet увеличивает скорость запросов и снижает затраты на хранение, предоставляя практическое решение для обработки терабайтов данных блокчейна.

Ключевые преимущества включают в себя:

Столбчатый формат файлов Parquet делает их идеальными для управления сложными наборами данных большого объема в блокчейнах. Включив выборочные запросы по столбцам, Parquet увеличивает скорость запросов и снижает затраты на хранение, предоставляя практическое решение для обработки терабайтов данных блокчейна.

Ключевые преимущества включают в себя:

  1. Эффективное хранение: Parquet снижает затраты на хранение за счет сжатия данных без потери качества, что особенно полезно для больших наборов данных блокчейна.
  2. Более быстрые запросы. Хранилище на основе столбцов позволяет аналитикам получать доступ только к тем данным, которые им нужны, что повышает производительность таких инструментов, как Messari.
  3. Широкая совместимость: Parquet легко интегрируется с различными инструментами анализа, поддерживая рабочие процессы на SQL, Python, R и т. д.

Pinax предоставляет данные блокчейна в удобном для использования формате:

  • Бесшовная интеграция: мы предоставляем необработанные данные блокчейна в формате Parquet, что позволяет пользователям плавно интегрировать данные в существующие конвейеры.
  • Последняя информация: наборы данных обновляются ежедневно, обеспечивая пользователям доступ к новейшим данным блокчейна.
  • Повышенное удобство использования: знакомый формат Parquet упрощает процесс анализа, позволяя аналитикам сосредоточиться на анализе, а не на инфраструктуре.

Наша пилотная программа по наборам данных проходит успешно и добилась новых успехов, направленных на улучшение доступа к данным и производительности. Вот последняя информация о нашей установке:

  • Параметры изоляции и доступа к данным: настройки внешней таблицы S3 позволяют аналитикам самостоятельно управлять доступом к данным. Варианты включают копирование данных S3 в пользовательскую таблицу, прямое подключение к внешней таблице S3 или использование наших предварительно настроенных представлений Snowflake. Кроме того, данные могут быть загружены на локальный диск обработки, что обеспечивает гибкость обработки данных.
  • Минимальное участие в требованиях к настройке. При такой настройке роль Pinex остается легкой: мы фокусируемся в первую очередь на обеспечении целостности данных и точном определении схемы, в то время как аналитики сохраняют контроль над конкретными потребностями в данных;
  • Синхронизация и форматирование данных. Автоматическая синхронизация S3 обеспечивает читаемость форматов данных, позволяя создавать собственные представления наборов данных для лучшего удовлетворения аналитических потребностей.
  • Оптимизация производительности. Мы продолжим тестировать конфигурации для повышения производительности запросов к большим наборам данных, включая реорганизацию разделов для повышения скорости.

Набор данных Pinax потенциально может использоваться в ряде приложений:

  • Макроанализ: такие платформы, как Messari и Snowflake, извлекают выгоду из наших наборов данных, плавно интегрируя идеи блокчейна в более широкий анализ рынка.
  • Бухгалтерский учет: записи блокчейна обеспечивают прозрачный и неизменяемый реестр, что делает его ценным для целей бухгалтерского учета и аудита.
  • Криминалистика блокчейна: наборы данных могут помочь судебным следователям отслеживать транзакции, обнаруживать мошенничество и отслеживать подозрительную активность в блокчейне.
  • Чат-боты с искусственным интеллектом и LLM: доступ к структурированным данным блокчейна служит высококачественными обучающими данными для моделей искусственного интеллекта, особенно моделей большого языка (LLM), предназначенных для понимания запросов, связанных с блокчейном, или выполнения аналитики.
  • Финансовый анализ: приложения DeFi могут интегрировать данные Pinax для отображения статистики исторических транзакций, предоставляя информацию для принятия более разумных финансовых решений.

Данные блокчейна появляются в необработанном виде, фиксируя все важные транзакции и взаимодействия в сети. Pinax предоставляет доступ к расширенным базовым таблицам данных Ethereum, таким как блоки, транзакции, расширенное отслеживание и журналы. Наш набор данных позволяет проводить детальный анализ: от отслеживания отдельных транзакций до понимания тенденций в блоках, что делает его идеальным для приложений в различных областях.

---Комплексные данные блокчейна EVM, охватывающие блоки, транзакции, журналы и расширенное отслеживание для углубленного анализа.

Чтобы обеспечить эффективный доступ, Pinax использует архитектуру SQL для структурирования данных блокчейна. Эта схема определяет структуру данных в файлах Parquet, упрощая доступ к данным и их анализ в различных приложениях. Схема EVM SQL предоставляет подробные таблицы для отслеживания данных EVM, включая блоки, транзакции, журналы и изменения состояния. Каждая таблица собирает подробные данные для углубленного анализа, помогая пользователям эффективно исследовать взаимодействия блокчейна.

Чтобы изучить схему SQL для построения данных Ethereum, ознакомьтесь со схемой SQL EVM Pinpoint на GitHub.

Чтобы изучить схему SQL для построения данных Ethereum, ознакомьтесь со схемой SQL EVM Pinpoint на GitHub.

Чтобы проиллюстрировать, как эта схема SQL может применяться в реальном анализе, вот несколько примеров запросов, демонстрирующих, как получить определенные данные из данных блокчейна.

-- This query calculates the number of unique active users per minute on a specific date. SELECT date_trunc('minute', block_time) AS minute, count(distinct "from") AS user FROM ethereum.transactions WHERE block_date = '2024-10-01' GROUP BY minute ORDER BY minute ASC;

-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count. SELECT "to" AS contract, count(*) AS transactions FROM ethereum.transactions WHERE block_date = '2024-10-01' GROUP BY contract ORDER BY transactions DESC LIMIT 10;

-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range. SELECT block_date, count(*) as total FROM ethereum.traces WHERE tx_success = true AND SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom AND block_date >= '2024-09-01' AND block_date <= '2024-09-07' GROUP BY block_date ORDER BY block_date;

Pinax 数据集可在 Snowflake 上使用, Snowflake 是一个基于云的数据平台,以其易用性和强大的集成功能而闻台。Рынок снежинок 允许您以最少的设置将区块链数据集成到您的工作流程中。

Рынок снежинок

区块链数据通常被认为难以访问和分析,但 Pinax 数据集将改变这种思维方式。我们专注于用户友好的格式和易于访问,使区块链数据可用于多种用途, 从财务分析到 AI 模型训练。

如果您有兴趣探索我们如何根据您的需求简化区块链数据访问,请访问我们的网站或联系我们以了解更多信息。申请演示,了解我们如何转变您的区块链数据洞察。

Если вы заинтересованы в том, как мы можем упростить доступ к данным блокчейна в соответствии с вашими потребностями, посетите наш веб-сайт или свяжитесь с нами, чтобы узнать больше. Запросите демо-версию, чтобы увидеть, как мы можем преобразовать вашу информацию о данных блокчейна.

Помните, что наш набор данных ETH доступен бесплатно на Snowflake в течение 30 дней!

(Чтобы найти соответствующие профессиональные термины, комментарии, библиотеки кода, гиперссылки и т. д., перейдите в блог)

💡 Эта статья отвечает на следующие вопросы:

- Как Pinax создает наборы данных блокчейна для простоты использования и оптимальной производительности?

- Какие отрасли и варианты использования выиграют от наборов данных Pinax?

- Что такое паркетная пилка?

- Почему файлы Parquet подходят для данных блокчейна?

- Что содержится в необработанных данных блокчейна?

- Какова роль схемы SQL в структурировании данных блокчейна?

- Как бесплатно попробовать набор данных Pinax?

#blockchaindataanalysis#dataset#web3data#blockchaindevelopment

Комментарий

Все комментарии

Рекомендуем к прочтению