Cookie規制によるマーケティング戦略の転換やプライバシーに配慮した法規制への対応など、マーケティング担当の方々にとってデータ利活用に対してのBigQueryへの関心・ニーズも日々高まっておられるのではないでしょうか。

一方で「BigQueryの導入方法や具体的な活用についてのノウハウが社内にない」や、「部署をまたいでエンジニアに都度SQLを依頼しないといけないので詳細な分析には時間がかかる」などより大量のデータを扱う上で、疑問・不安を抱かれている方も多いかと思います。

本連載では、ビッグデータ解析プラットフォームである「BigQuery」の導入メリットや、最初の一歩を踏み出すために必要な知識についてご紹介いたします。

BigQueryとは

Google BigQueryは、Googleが提供しているクラウドコンピューティングサービス(以下、GCP:Google Cloud Platform)のプロダクトの1つです。

Google BigQueryは、元々Google が自社のために作ったサービスです。

検索エンジンを提供する会社として有名なGoogleですが、取り扱うデータの量は膨大な量になっており、その膨大なデータを高速に処理する技術を開発してきた会社です。

GCPのプロダクトの中で、特にビッグデータの分析や処理に優れているプロダクトの1つが、「Google BigQuery」です。

BigQueryは、「数十億行のデータの処理を超高速(数秒〜数十秒)で処理」できるビッグデータ解析サービスです。

BigQueryとよく比較されるサービスとして、 Amazon が提供している Amazon Redshift(以下Redshift) や Snowflake が提供しているSnowflake Data Warehouse(以下Snowflake)などがあります。

BigQuery導入メリット

さきほど、ビッグデータ解析サービスには、BigQueryのほかにRedshiftやSnowflakeなどがあるとご紹介しましたが、マーケターにとってデータ分析の作業には、BigQueryが最適なプロダクトである理由をご紹介していきます。

データ処理が非常に高速

BigQueryは、データウェアハウス(以下DWH)とも呼ばれています。

DWHは、直訳すると「データの倉庫」ですが、様々なデータを統合したデータベースの役割を担う一連の管理システムや膨大なビジネスデータのデータベース自体の総称を指すこともあります。

また大量のデータソースを構造化の有無に関わらず元のまま保管しておく場所を「データレイク」と呼び、データレイクからDWHで加工、統合されたデータを目的に応じて必要なデータだけを抜き出したデータベースを、「データマート」といいます。

これら一連の流れによりビジネス情報を一元管理することができ、必要なデータをすぐに検索や集計することができるため、細かい分析をすることが可能になります。

データ処理が非常に高速

社内データを一元管理した膨大なデータを、エクセルなどで集計しようとすると、かなりの時間と負荷がかかりますが、BigQueryを使用することで、ペタバイト級のデータを高速に処理することができます。

BigQueryのホワイトペーパーには、下記の様な記載があります。

百万行(35.7GB)のテーブルに対して条件に合致する行数を調べるSQLを実行すると10秒で結果が戻ってくる。

引用元: 引用元: :BigQuery Technical White Paper

「使いたい」と思った時にすぐに使える

BigQueryとよく比較・検討されるサービスAmazonの「Redshift」では、データの分析や処理を行う際に、仮想コンピューターであるインスタンスの作成の必要があります。

インスタンスを作成する際には、データを処理するマシンの性能や、保存されるデータの検索方式など、用途に合わせた細やかな設定を行うことが必要となります。

そのため、Redshiftでデータの分析や処理を行う際に、エンジニアの知識が必要となります。

一方、BigQueryにはインスタンスという概念が存在せずインスタンスの作成を行う必要がないため、データベース開発の知識がない非エンジニアの方でも比較的簡単に利用することができます。

データの処理・保管についてもすべてクラウド上で行うため、サーバーの準備や運用保守の必要性がなく、フルマネージドのデータウェアハウスとして分析を行いたいときにすぐ使い始めることができるのがBigQueryのメリットです。

Googleプロダクトとの相互連携がスムーズ

BigQueryはGCPのプロダクトの一つであるため、Googleの他のサービスとの連携や接続も非常に容易に行うことができます。

Googleスプレッドシートもそのまま利用できる

例えば、Google Workspace のGoogleスプレッドシート(以下、スプレッドシート)と簡単に連携することができ、スプレッドシートのデータをテーブルとして自動取得することが可能です。

社内の通常業務や、クライアントとのやりとりがスプレッドシートで行われる事が多い方は、BigQueryとスプレッドシートを利用することで、社内のメンバー全員がBigQueryを扱わなくても、スプレッドシートを更新することで、BigQueryのテーブルを最新の状態に維持することができます。

Googleスプレッドシートもそのまま利用できる

GoogleAnalytics4との直接連携が可能に

2020年10月に「GoogleAnalytics4」として、GoogleAnalyticsがバージョンアップしたことで、BigQueryと無料版のGoogleAnalytics4が直接連携することができるようになりました。

これまで、BigQueryはGoogleAnalyticsの有償版「GoogleAnalytics360」のみ直接連携することができましたが、無料版のGoogleAnalyticsでは、第三者ツールを介さないと自動連携することができませんでした。

GoogleAnalytics4との直接連携が可能に

このことにより、アクセス解析ログの分析ツールとしても利用シーンが大幅に増えることが期待されています。

様々なBIツールと連携が可能

BigQueryは、Googleの提供するBIツール「データポータル」や2019年にGoogleが買収した「Looker」など様々なBIツールと連携することができるため、BIツールのデータソースとしても比較的に容易に利用することができます。

処理が高速なBigQueryはダッシュボードでの表示も早くなるので、BIツール(「データポータル」やTableau Japan株式会社のBIツール「Tableau」など、様々なBIツールと連携が可能なため、BIツールで視覚的にデータの分析結果を確認することができます。

様々なBIツールと連携が可能

費用はストレージへの保存、クエリに応じた従量課金制

ここからはBigQueryの課金方法についてご紹介していきます。

BigQueryの費用は

1.ストレージへの保存費用
2.クエリの実行サイズに応じた費用

に分かれます。

ストレージへの保存費用

については、アクティブ ストレージと長期ストレージ(過去90日間変更がないデータ)でそれぞれ費用が異なりますが、それぞれのストレージについて毎月10GBの無料枠があります。

クエリの実行サイズに応じた費用

BigQueryではデータの加工・分析を行う際にデータベースに対してSQLで命令文を出します。
この命令文のことを「クエリ」を呼びます。
BigQueryでは1TBあたり5ドルの費用がかかかりますが、毎月1TBまでは無料枠があります。
※料金例は米国マルチリージョンの場合です。
※クエリはオンデマンド料金の他に毎月定額のプランもあります。

詳細な料金を確認したい場合は、公式サイトにてご確認いただけます。

テーブル単位でのアクセス制御もできるセキュリティ

データを取り扱う上でセキュリティポリシーの要件を満たしているかもサービス導入において重要な検討項目ですが、BigQueryでは従来のGCPのIAM※1によるアクセス権限の管理方法に加えて、テーブル単位でのアクセス制御(テーブルACL)にも対応しており、よりきめ細やかな権限管理ができます。

また、GCPには「誰がいつ何をしたか」を監査ログとして追跡※2することもできますので、セキュリティ面でも非常に堅牢で組織に応じた柔軟な運用ができます。

※1 IAMとはIdentity and Access Managementの略。ユーザー、サービスのアクセス権限の管理する仕組みの総称。
※2 Cloud Audit Logsにより可能。https://cloud.google.com/logging/docs/audit?hl=ja

基本的なSQLを理解することは必要

BigQueryでデータを分析・抽出するには、データベース言語であるSQLをある程度理解する必要があります。

BigQueryでデータ分析するのってプログラムの専門の知識が必要なのでは?と、利用を躊躇している方も多いとは思いますが、簡単なデータの抽出であれば、SQLの基本的な文法を理解するだけで大丈夫です。

SQLの基本的な文法については、今後のシリーズでご説明する予定です。

まとめ

今回は、BigQuery導入のメリットと導入の効果についてご紹介させていただきました。

BigQueryは、ビジネス情報を一元管理することができ、リアルタイムデータの分析で高速なPDCAを回すことができるます。
また、安価で使いたいときにいつでも利用できる、と多様なメリットがありますので、ぜひデータ分析基盤として使ってみたいという方は導入を検討してはいかがでしょうか。