本リリースは9.3のサービスパックの位置づけになります。みなさまからのフィードバックに基づいた多くの修正点および改善点を含んだリリースとなっています。
主な新機能および変更点は以下の通りです。
Eon Modeのデータベースはクラウド上(AWS)またはオンプレミスのどちらでもお使いいただけます。Eon Mode on-premiseのバックアップ先としてAWSまたはPure Storage FlashBlade applianceのどちらでも選べるようになりました。フルバックアップ, フルリストア, フルバックアップを用いたオブジェクトリストアのいずれもお使いいただけます。
このリリースより、Verticaはデータベースの設定パラメータの入力値をより厳格にチェックします。
今までのリリースでは、設定パラメータの入力値の最後に無効な値をしても設定することができました。例えば、MaxClientSessionsパラメータに50.83や42plusといった値を指定した場合、Verticaは入力値の最後についた無効な部分を外して設定していました。今後はUnsigned 32bit Integerとしての有効な形式かを確認し、無効な形式の場合はエラーを返します。
favroparserがDeflate圧縮をサポートします。これにより、Deflateコーデックで圧縮されたAvroファイルのデータをフレックステーブルにロードできるようになります。
9.3.1のKafka integrationはKafka 2.2.1, 2.1, 2.0を用いてテストされています。
二値k平均法(Bisecting K-means)のアルゴリズムを用いたデータのクラスタリングをサポートします。次のファンクションが追加されます。
これまではEXPORT TO PARQUETはVerticaのログファイルにログを出力していました。今後はUDX_EVENTSシステムテーブルにもログが出力されるようになり、すべてのNodeの情報を一度に確認できるようになります。
EXPORT TO PARQUETのExport先としてGoogle Cloud Storageを指定することができるようになります。動作要件はAWS S3と同様です。Authentication Tokenを設定パラメータに指定します。データは指定されたディレクトリに直接Exportされます。
Partition句でZEROIFNULLファンクションの使用がサポートされます。このファンクションはPARTITION BYで指定された値を確認し、Null値の場合は0として判断します。
Top-K Projectionを持つテーブルに対して次の操作ができるようになります。
Top-K Projectionを持つテーブルに対して次のメタファンクションを使用できるようになります。
S3EXPORTにNULL_ASパラメータが追加され、Null値をどのようにExportするか指定できるようになります。このパラメータが指定された場合、S3EXPORTはすべてのNull値を指定された文字列に置き換えてExportします。
データベースオブジェクトの権限はGRANT, Role, 継承などさまざまな設定を基に決定されており、モニタリングが難しくなっています。これを解消するためにGET_PRIVILEGES_DESCRIPTIONメタファンクションが追加されます。このファンクションは指定されたデータベースオブジェクトの有効な権限を確認できるビューを提供します。
GET_METADATAファンクションは指定されたParquetファイルを確認し、COLUMN, ROW GROUP, SIZEといったメタデータを取得し、表示します。この情報を、外部テーブルの定義の際やVerticaからExportされた結果の確認にお使いいただけます。
INFER_EXTERNAL_TABLE_DDLファンクションは指定されたParquetファイルを確認し、外部テーブルの定義(CREATE EXTERNAL TABLE AS COPY文)を出力します。このファンクションは多くのカラムを持つテーブルを定義する際に役立ちます。いくつかのデータ型は推測することができない場合があるので、このファンクションの出力結果を修正していただく必要があります。
COMMENT ON COLUMNを用いてテーブル列にコメントをつけることができるようになります。
SSLCAパラメータを用いて1つ以上の認証局を信頼することができます。
LDAP_LINK_DRYRUNからはじまるファンクション一式により、Verticaと同期する前にLDAP Linkの設定を確認することができます。それぞれのメタファンクションにLDAP Linkのパラメータを引数として渡すことで、LDAP Linkの一部を個別にテストすることができます。
これらのメタファンクションは連続して使用することを想定しており、引数は引き継がれます。例えば、LDAP_LINK_DRYRUN_CONNECTで使用したパラメータはLDAP_LINK_DRYRUN_SEARCHで使用され、2つのファンクションで使用したパラメータはLDAP_LINK_DRYRUN_SYNCで使用されます。
LDAP Linkの設定に新しいパラメータが追加されます。
Global Temporary Tableに対してANALYZE_STATISTICSを実行することができるようになります。Local Temporary Tableと同様に、ON COMMIT PRESERVE ROWSオプションを指定して作成されたGlobal Temporary Tableに対してStatisticsを収集することができます。
コンプレックスタイプを含むParquetファイルを使用する場合、プリミティブ型のARRAY型とMAP型を使った外部テーブルを定義でき、より広範囲のデータを読み込むことができるようになります。
ARRAY型に対するクエリ発行、Joinをはじめとする操作への使用、ARRAY型のカラムや値へのArrayファンクションの利用ができます。
MAP型を用いてそれを含むファイルを読み込むことができます。ただし、MAP型に対するクエリの発行はできません。
MERGEOUT_PROFILESシステムテーブルはMERGEOUTの自動実行に関する情報を持ちます。これによりモニタリングやトラブルシューティングを行いやすくなります。
LOAD_SOURCESシステムテーブルに、ユーザ定義のLoadファンクションの所要時間(ミリ秒)を持つ次のカラムが追加されます。
LDAP_LINK_DRYRUN_EVENTSシステムテーブルにLDAP Dry Runメタファンクションの実行結果が格納されます。
UDX_EVENTSシステムテーブルはユーザ定義ファンクションから出力されたイベントを格納します。
Preconfigured TokenizerのStringTokenizerDelimが最適化されました。また、動きに少しの変化も見られます。OVER()句に引数を指定しなかった場合、トークナイズされた値を持つ1つのカラムを返します。 以前は、元データを表示するカラムも返していました。以前と同じ動きにするにはOVER()句にPARTITION BYを指定してください。
以前は、create_dbが失敗するとすべての操作をロールバックし、ログを削除しており、失敗の原因調査が難しくなっていました。今後は次の動きになります。
その他の変更点についてはVertica 9.3.x New Features and Changesをご覧ください。是非、Verticaの最新バージョンをお試しください。
Premium Edition(製品版)のダウンロードサイト:https://support.microfocus.com/downloads/swgrp.html
Community Editionのダウンロードサイト:https://www.vertica.com/download/vertica/community-edition
製品ドキュメント:https://www.vertica.com/docs/9.3.x/HTML/index.htm
次のビッグイベントはVertica Big Data Conference 2020です。詳細は https://www.vertica.com/bdc-registration/ をご覧ください。みなさまのご参加をお待ちしております。
]]>Community Editionは、Verticaの全ての機能を無料でお試しいただけるEditionです。データ量は1Tbyte、クラスター構成は3ノードまで、無期限でお試しいただけます。是非、より改善された新バージョンでビッグデータ分析をお試しください。
]]>変化の風が強く吹いています!!本リリースは9.2からのマイナーバージョンアップになりますが、みなさまからのフィードバックに基づいた多くの新機能および改善点を含んだリリースとなっています。
主な新機能および変更点は以下の通りです。
以前のバージョンでは、EXPORT_TABLESなどのDDL文をエクスポートするメタファンクションは、テーブル制約がCREATE文で指定されている場合、ALTER TABLE文で後から追加される場合のいずれの場合でもすべてのテーブル制約をALTER文としてエクスポートしていました。グローバルテンポラリテーブルでは外部キー制約以外のテーブル制約を後から追加できないため問題となります。テンポラリテーブルのエクスポートされたDDL文はそのまま使用できません。本リリースでは、外部キー制約を除くテーブル制約をCREATE文の一部としてエクスポートします。
Parquet・ORCファイルはカラムにComplex Data Typeを使用することができます。Complex Data Typeの一つがStructで、属性と値をペアとして格納できます。以前のバージョンでは、Structの属性を一つのカラムとして展開することをサポートしていました。これに加え、Structを展開せずに一つのカラムとして定義できるようになり、Parquet・ORCファイルのオリジナルのデータ形式を維持できるようになります。
Subclusterはクラスタ内のノードを小さなグループに分け、ワークロードをそれぞれのグループに分離させることができます。発行されたクエリは、Initiatorノードを含むSubcluster内のノード上でのみ実行されます。以前のバージョンでは、SubclusterはFault Groupの機能を用いて定義していました。今後はSubclusterは完全に独立した機能となり、Fault Groupなどの他の機能と共有する部分はなくなります。
すべてのノードは必ずいずれかのSubclusterに属することになります。以前のバージョンのEon Modeのデータベースを9.3.0にアップグレードすると、Fault GroupはSubclusterに変換されます。いずれのFault Groupにも属していないノードがある場合、Verticaは新しいデフォルトのSubclusterを作成し、そのノードをSubclusterに追加します。新しいデータベースをEon Modeで作成すると、デフォルトのSubclusterが作成され、すべてのノードがそれに追加されます。ノードを追加する際、Subclusterを指定しない限り、すべてデフォルトのSubclusterに追加されます。
Eon Modeデータベースを9.3.0にアップグレードすると、VerticaはすべてのFault GroupをSubclusterに変換します。Fault Groupに属しているノードは自動的に変換されたSubclusterに追加されます。Fault Groupに属していないノードはVerticaが作成するデフォルトのSubclusterに追加されます。
Subclusterは二つのタイプが提供されます。
Eon ModeデータベースのノードにもPrimaryとSecondaryのタイプがあり、属するSubclusterのタイプによって決まります。
Connection Load BalancingのグループをSubclusterに基づいて定義できます。
Eon Modeデータベースを9.3.0以降にアップグレードする際、Fault Groupに基づいて定義されたLoad Balancingのグループは変換されたSubclusterに基づいて定義されたグループに変換されません。必要に応じてご自身で再定義していただく必要があります。
Administration ToolsのコマンドラインインターフェイスにSubclusterを操作する新しいToolが追加されます。
これらに加え、add_nodeに新しい--subcluster引数が追加されます。ノードを追加する際、属するSubclusterを指定できます。
Subclusterに関係して、新しいシステムテーブルの追加や既存システムテーブルの変更があります。
以前のバージョンでは、新しく追加されたノードでクエリの処理を始める前に、Subcluster内の他のノードが持つDepotに基づいてデータを取得し、自身のDepotに格納していました。新たに、Depotのウォームアップをキャンセルしたり、ウォームアップ中にクエリの処理を行うことができるようになります。
DEPOT_FETCH_QUEUEシステムテーブルとDEPOT_FETCHESシステムテーブルのPLAN_IDカラムがTRANSACTION_IDカラムに変更になります。この変更により、ノードがファイルを取得した原因のトランザクションを容易に特定できるようになります。
Eon Modeのクエリで /*+DEPOT_FETCH*/ ヒントをサポートします。これにより、Depotにクエリ対象のデータがない場合にCommunal Storageからデータを取得する動作を制御できます。
データベース作成時にDepotのサイズを指定できます。デフォルトでは、Depotを格納するファイルシステムの60%になります。VerticaはDepotを格納するファイルシステムを他の用途、例えばデータロード中の一時領域、に使用します。Depot以外の用途に十分な領域を確保するため、Depotのサイズの上限が80%となります。80%以上の領域をDepotのサイズに指定するとVerticaはエラーを返します。
S3EXPORTファンクションは次のパラメータをサポートします。
CLEAR_FETCH_QUEUEファンクションに任意でトランザクションIDを渡せるようになります。これにより、特定のトランザクションに関するFetch Queueをクリアできます。
9.3.0では次のApache Kafkaのバージョンを用いて動作テストを行っています。
その他のバージョンでも動作しますが、詳細は製品ドキュメントのVertica Integration for Apache Kafkaをご参照ください。VerticaはrdkafkaライブラリのVersion 0.11.6を用いてKafkaとやり取りを行います。この変更により、ライブラリのオプションを直接指定している場合は影響がある場合がありますのでご注意ください。
EXPORT TO PARQUETのメモリ割り当ては個別制御からResource Poolによる制御に変わります。これにより大量のデータをエクスポートする際のメモリ割り当てエラー発生を軽減できます。
テーブル名をALTER TABLEで変更する際やCREATE TABLE LIKE...INCLUDING PROJECTIONSを用いてテーブルをコピーする際、Verticaは新しいテーブル名をそのプロジェクション名に反映します。
Live Aggregate Projectionを持つテーブルですべてのDML操作の実行ができるようになります。
Eon Mode on premise向けとしてPure Storage FlashBlade storageをサポートします。
Vertica 9.3.0では以下のAmazon Web Service (AWS) インスタンスタイプをサポートします。ただし、Ephemeral Storageへの導入はサポートしません。
その他の変更点についてはVertica 9.3.x New Features and Changesをご覧ください。是非、Verticaの最新バージョンをお試しください。
Premium Edition(製品版)のダウンロードサイト:https://support.microfocus.com/downloads/swgrp.html
Community Editionのダウンロードサイト:https://www.vertica.com/download/vertica/community-edition
]]>Vertica導入の1つの選択肢として是非ご検討ください。詳しくは弊社営業担当者までお問い合わせください。
]]>Verticaのワールドワイドイベント『Big Data Conference 2020』がアメリカ ボストンにて2020年3月30日から4月2日にかけて行われます。イベントは大きく次の4つに分けられます。
Vertica Big Data Conference 2020は事前登録制となっております。以下の専用サイトよりお申し込みください。
https://www.vertica.com/bdc-registration/
また、お申し込みいただけたお客様は弊社営業担当者までご一報いただけると幸いです。
]]>コンテンツの管理
新しいForumではコンテンツを2つの方法、CategoriesとTagsで管理します。
リーダーボードとランキング
Forumに参加することでポイントを得ることができます。
Forumへの投稿
Forumには2つのPostの種類があります。QuestionとDiscussionです。
Vertica Forumでは英語でのやりとりとなりますが、是非Vertica Communityにご参加いただき、ご活用ください。
新しくなったVertica Forumを今後ともよろしくお願いいたします。
本リリースでは、Amazon S3を用いたEon Modeが大幅に改善されています。それに加え、Enterprise Modeにおいても多くの改善点が含まれています。
新機能および変更点は以下の通りです。
Storage ContainerがAWS S3などのリモートストレージに配置されている場合、そのデータをローカルディスクにキャッシュさせることができるようになります。これは、処理によってはExecution Engineが同じStorage Containerを参照しなければならないケースにおいて、パフォーマンスの向上およびリモートストレージのコストの削減につながります。
Eon Modeにおいて、フルバックアップから特定のオブジェクト(スキーマやテーブルなど)をリストアできるようになります。(Enterprise Modeでは、フルバックアップおよびオブジェクトバックアップのどちらからでもオブジェクトをリストアできます。)
Verticaは内部的に物理データをメタデータとコンテンツをセットで保持しています。Query Optimizerはクエリが必要とするデータをメタデータを用いて探し、取得します。9.2.1から、このメタデータをカタログ情報に保持できるようになります。この機能はEon Modeに有益で、S3などのリモートストレージからこのメタデータを取得する代わりに、ローカルのカタログ情報から取得できます。これにより、リモートストレージからの読み込みを最小限にすることができ、クエリの実行が大幅に速くなります。
Eon Modeの環境ではローカルのディスク容量が小さく抑えられていることがあり、一時データを大量に生成するDML文を実行するのに十分でないことがあります。これに対応するため、S3ストレージ上に一時データを保持するStorage Locationを作成できるようになります。
UseDepotForWritesパラメータをデータベースおよびセッションのレベルで設定できるようになります。
新しいEon Modeのデータベースを作成する際のDepotサイズのデフォルト値が、Depotを格納するファイルシステムの60%となります。以前のリリースでは80%でした。既存のEon Modeのデータベースにはこの変更による影響はありません。
Eon Modeで使われる次のシステムテーブルが変更になります。
以前のリリースでは、EXPLAIN COPYはQuery PlanをGraphviz DOT notationにのみ出力していました。COPYステートメントはANNOTATED以外のEXPLAINの出力オプションをサポートします。
EXPLAINはテキストのQuery PlanをGraphviz DOT notationと一緒に出力します。
COONECTステートメントに新しいTLSMODEパラメータが追加されます。ImportExportTLSModeパラメータで指定された設定を接続ごとに変更することができます。
Spreadデーモンのタイムアウト時間をSET_SPREAD_OPTIONファンクションを用いて変更することができます。Microsoft Auze上でVerticaを動作させる場合、このオプションを変更するケースがあります。
統計情報の収集をパーティションごとに行えるようになります。3つの新しいファンクションが追加されます。
HadoopConfDirパラメータは、HDFSの設定ファイルを探すディレクトリパスを指定するパラメータです。それぞれのファイルのセットはHadoopクラスタの設定です。Verticaはこれらのファイルの情報をHDFSを扱うために使用します。通常、このパラメータはデータベースが接続する1つまたは複数のHadoopクラスタを指定する際に使用されます。
例えば、テスト環境への接続の切り替えなど、動作中にこのパスを変更する必要がでてくる場合があります。この変更をデータベース全体に行うとHadoopクラスタに接続しているすべてのコネクションに影響が出てしまい、実行中のクエリやExternal Tableの定義が正しく動かなくなってしまいます。この問題を避けるために、このパラメータをセッションレベルで設定できるようになります。
Vertica 9.2.1では以下のAmazon Web Service (AWS) インスタンスタイプをサポートします。
Vertica 9.2.1ではFlexTableRawSizeパラメータをデータベースレベルおよびセッションレベルで設定できます。以前のリリースでは、FlexTableRawSizeパラメータはデータベースレベルでのみ設定ができました。
COPY FROM VERTICAおよびEXPORT TO VERTICAでデータ送信中のメタデータの暗号化を要求することができるようになります。以前は、CONNECTでの接続する際、VerticaはTLSを用いて接続を試み、できなければプレーンテキストにフォールバックしていました。これは現バージョンでもデフォルトの動きです。しかし、ImportExportTLSModeパラメータの設定により、暗号化を要求したり、証明書の検証を要求することができます。
是非、Verticaの最新バージョンをお試しください。
Announcing Vertica Version 9.2.1 - Take Analytics Efficiency to the Next Level
]]>環境の移設を行うにあたり、既存データの移行方法を検討する必要があります。既存データのすべてが他システムで保持しているデータのコピーであれば、新しい環境を構築後に再度各システムからロードすればよいので、データ移行の必要はありません。既存データのすべてまたは一部は既存のVertica上にのみ存在している場合、データ移行が必要となります。
Verticaではデータ移行の方法として、以下を提供しています。
これらの方法にはクラスタ構成(ノード数やデータベース名)が同一であること、Verticaのバージョンが同じであること、ネットワーク疎通が可能なこと、など何らかの制約があります。環境の移設ではこれらの制約を満たすことができないケースが多く、この場合は以下の方法を検討することになります。
今回はEXPORT TO PARQUETを例に用います。EXPORT TO PARQUETはVertica 8.1.1以降で使用できます。また、データ型などに制約があるので、それぞれのバージョンのProduct Documentationを確認してください。
vsqlで移行元のVerticaにログインし、EXPORT TO PARQUETを実行します。
EXPORT TO PARQUET(directory = '<出力先ディレクトリ>') AS SELECT ... FROM ...;
出力先のディレクトリとデータを抽出するSELECT文を指定します。出力先のファイル名は「<8桁のハッシュ値>-<ノード名>-<スレッドID>.parquet」です。EXPORT TO PARQUETの他オプションなどの詳細については以下を参照してください。
SQL Reference Manual > SQL Statements > EXPORT TO PARQUET
以下は実行例です。
source=> EXPORT TO PARQUET(directory = '/tmp/data') AS SELECT * FROM tcph.customer;
Rows Exported
---------------
150000
(1 row)
source=> \! ls -l /tmp/data/*.parquet
-rw-rw---- 1 dbadmin verticadba 13267063 May 10 14:41 /tmp/data/dac97577-v_onpremisedb_node0001-140295777810176.parquet
出力したParquetファイルはCOPYを用いてロードできます。
COPY <ロード先テーブル名> FROM '<Parquetファイル名>' PARQUET;
COPYの他オプションなどの詳細については以下を参照してください。
SQL Reference Manual > SQL Statements > COPY
以下は実行例です。
target=> COPY tcph_new.customer FROM '/tmp/data/dac97577-v_onpremisedb_node0001-140295777810176.parquet' PARQUET;
Rows Loaded
-------------
150000
(1 row)
EXPORT TO PARQUETの制約を満たすことができれば容易にデータを移行することができます。是非、他の方法とあわせて検討してみてください。
]]>Community Editionは、Verticaの全ての機能を無料でお試しいただけるEditionです。データ量は1Tbyte、クラスター構成は3ノードまで、無期限でお試しいただけます。是非、Verticaによるビッグデータ分析をお試しください。
つまり、多くの大企業のリーダーにとって、老朽化したデータウェアハウスを近代化してデータドリブン経営へと変貌するための時間がまだ残されているということです。しかし一方で、21世紀に生まれたデータを求めて止まない破壊者達が、クラウド上で最適化され機械学習による大容量データに対応した分析プラットフォームを元に意思決定をしているという格差による絶滅の危機に、彼らは直面しているのです。
破壊的なデータ活用による大手新興企業の誕生
ここ10年から20年の間、アドテクやフィンテック、オンラインゲーム、eコマース、ソーシャルメディア、IoTをはじめとした完全に新しい業界と市場セグメントがかたち作られてきました。これは始まりに過ぎません。このような業界におけるそれぞれのマーケットリーダーの成功は、膨大な量のデータから実用的な洞察を得る迅速な能力という、競合他社の差別化に不可欠である重要な特性を共有しています。
オンラインゲームのリーディング企業Zyngaはパーソナライズされたゲーム体験を提供しつつ、ユーザーデータを収集し分析しています。同時に、それらのデータから獲得されたインサイトは、ユーザー離脱を減らし、資金力のある広告主を引き付けます。アナリティクスはZyngaの中核であり、同社の前アナリティクス担当VPケン・ルディン氏は、オンラインゲームのパイオニアを「ゲーム会社のふりをしている分析会社」と称しているほどです。
10年以上前に設立されたUberは、既にスクリーンのタッチで50億回以上の旅行を実施しており、現在は食品配送サービスも提供しています。競争力のある料金を継続して提供するために、同社は数ペタバイトのデータを精査し、地理空間分析を使用して世界中の需要と供給をマッピングする数多くのデータアナリストとデータサイエンティストを雇用しています。
やっつけられなかったら取り込んでしまえ
モンサントは1940年代に農業に参入し、殺虫剤を導入し、最終的に農家に種子と肥料を提供して、今はバイエルの一部です。農業大手は、将来の成長のためにスマート農業(またはアグリテック)の重要性を理解していました。
モンサントは、農薬を購入した農家にデータとサービスを販売する大きなビジネスチャンスを見出しました。そのため、2013年にモンサントは、データ分析機能を最適化する目的で、約10億ドルでClimate Corporationを買収。当初、農家の天気保険引受会社であったClimate Corporationは、最新のデータ環境に順応し、土壌、気象データなどのセンサーからのフィールドデータを収集、保存、視覚化するClimate FieldViewデータ分析プラットフォームを構築しました。 MonsantoのClimate Corporationとその分析プラットフォームへの投資は、農家のデータ駆動力を高め、最終的に農場1エーカーあたりの収穫高と収益性を最大化することを支援しました。
M&Aは、既存業界の伝統的な企業がデータを駆使して未来を予測し、それを活用する唯一の希望でしょうか?もちろん違います。データを組織に統合するための実用的なアプローチを備えた、確立された分析ユースケースに焦点を絞り、専念した業界のリーダーの例がたくさんあります。焦点を絞ることが重要なのです。
ビジネスに影響を与える分析ユースケースに焦点を当てる
最近Aramarkに買収されたAmeriprideは、100年以上の歴史を誇り、ユニフォーム、リネン、ファシリティサービスのリーダーとして認められています。一般的なデータ視覚化ツールと統合された高性能分析プラットフォームを採用した後、同社はデータ分析に対する実用的なアプローチを追求し、ビジネスのボトムラインの利益を向上させる共通質問に答えるよう試みました。たとえば、顧客はなぜサービスから離脱するのか?彼らはどのような経緯で顧客になったのか?商品カテゴリはどのようなトレンドか?などです。
Ameriprideのチームは、販売ルート最適化のために車両テレメトリデータを分析するなど、さまざまなユースケースを選択しながら、データ分析プラットフォームを直販部隊に展開することから始めて、直接的なビジネスへの影響に集中しました。その結果、同社は顧客との契約更新時に発生する、事実に基づかない不適切なプライシングをすばやく特定しました。このインサイトによって、Ameriprideは調整を実施し、契約更新を約20%改善しました。Ameriprideは、データ活用によるインサイトを同社のビジネスと統合することに成功してから、分析プログラムやそのエクセキューションに関する複数の賞を受賞しています。
これから何が起こるのか
21世紀の破壊的なデータユニコーン(データ活用で頭角を現す大手新興企業)とビジネス利益を最適化しようとする伝統的な企業の両方にとって、データが多くの新しい扉を開くのは決してミステリーではありません。センサーデータが産む価値のために、IOT(Internet of Things)とIOT(Industrial Internet of Things)が、まったく新しい市場を確立したり、より有益な差別化を可能にすることを求める組織に大いに期待されています。既存のマーケットリーダーが、専用の、クラウドに最適化されたデータ分析プラットフォームを採用して、機械学習機能を備え、最新のデータ環境に順応できるのか、またはより俊敏なデータ駆動型の新興企業によって意味のない存在にされてしまうかどうかは、時間だけが教えてくれるでしょう。
※本記事は、ブログ記事「Riding the Waves of Data Modernization」を翻訳・意訳したものです。
原文はこちら
]]>「スマートコンピューティング」は、最新のコンピューティングテクノロジーと予測アルゴリズムが適応されているとしてもそれを活用するためには、学習に必要なデータの規模と範囲があります。現在は、ストレージコストが大幅に低下し、膨大な量のデータを保管することが経済的に可能になりました。過去のレポートではなく、予測的かつ先手をとる分析を実現するために、従来とは桁違いのスケールでコンピュータを「教えて訓練する」できる膨大な量の様々なデータが必要でした。一方で、このデータの爆発は、独自の課題をもたらします。
事実上、各業界のすべての企業に、イノベーションラボやデータサイエンティスト部門が関わる機械学習(ML)プロジェクトが存在します。これらのプロジェクトのほとんどは、強力な機能を提供するものの、ビジネス上の目標に関連するすべてのデータにアクセスできないという専門プラットフォームに依存しています。これらのデータはすべて、さまざまなデータウェアハウスおよびデータレイクに保存されますが、いずれもエンドツーエンドの機械学習を実行できず、専門プラットフォームへのデータ移行が課題です。
テラバイト単位、さらにはペタバイト単位のデータ移行には多くの時間と費用がかかります。特に重要なデータに個人情報(PII)が含まれていると、本当に危険なセキュリティリスクが発生します。
さらに、専門プラットフォームでは、処理できるデータの量に制限があります。そして、ダウンサンプリングとしてよく知られているデータのサブセットのみが、MLモデルのトレーニングおよびスコアリングに使用され、結果、精度が制限されます。
2019年には、現在の業界における破壊と創造者もしくはスマートな伝統的大手企業は、データを機械学習プラットフォームへ移行するのではなく、機械学習をすべてのデータに適用します。そしてデータがどこに格納されているかにかかわらず、利用可能なすべてのデータを活用し、そのデータを保護するセキュリティとガバナンスの恩恵を受けます。モデルトレーニングや評価に対応したRやPythonのようなML言語を統合する高度な分析プラットフォームを活用していきます。
このようなデータは業界のリーダーを決定的なものにします。彼らは正確性と遅延において妥協しません。意味のある対応をするためのデータ活用が遅すぎれば、正確な予測が役に立つことはありません。先駆的な企業は、医療機器の予知保全、パーソナライズされた顧客行動分析に基づく収益予測、不正行為の事前検知と予防など、さまざまなビジネスユースケースをリードしています。
そして、最も重要なことに、何が起こるかを知るだけで終わりではありません。先駆的企業は、エンドツーエンドML機能と統合したすべてのデータを活用してレコメンデーション事項を作成し、結果に影響を及ぼすために必要な対応を自動化していくでしょう。
※本記事は、ブログ記事「Micro Focus 2019 Predictions: Machine Learning Projects Will Move from Data Science Projects and Innovation Labs to Full Production Led by Industry Disruptors in 2019」を翻訳・意訳したものです。
原文はこちら
]]>