合成データがスケーラビリティとセキュリティを解決する新しいビッグデータであることに着目するTonic
AI.
ビッグデータは表面的で中身が掴めない。何年も前から、あらゆる企業はある種のデータベースの中でデジタル情報の残滓をすべて保存しておくべきだといわれてきた。そうしないと、経営陣は競合他社などに対して競争力のあるインテリジェンスを失いかねない。
しかし、ビッグデータには1つ問題がある。とにかく膨大な量であることだ。
ペタバイト規模のデータを処理してビジネスに関する洞察を生成するには、コストと時間がかかる。さらに悪いことに、これらのデータは世界中のあらゆるハッカーグループのターゲットになる危険が大きい。ビッグデータは維持、保護、機密保持すべてにコストがかかるが、押し並べてみると結果はそうしたコストに見合わない可能性がある。多くの場合、精選されたデータセットは、無限量の未処理データよりも速く、より良い洞察を提供できる。
企業は何をすべきだろうか?ここでまさに、Tonicがビッグデータの問題を改善するのに必要とされるだろう。
Tonicは「合成データ」プラットフォームで、未処理のデータをソフトウェアエンジニアやビジネスアナリストが使いやすいプライベートなデータセットに変換する。その過程でTonicのアルゴリズムは元のデータを識別せず、統計的には同一だが合成されたデータセットを作成する。これは個人情報が不安定なかたちで共有されないことを意味する。
たとえばオンラインショッピングプラットフォームは、その顧客と彼らが購入したものに関する取引履歴を持つ。そのデータを社内のすべてのエンジニアやアナリストと共有することは危険だ。なぜならその購入履歴には知る必要のない者が、アクセスすべきでない個人的な詳細情報が含まれている可能性があるからだ。Tonicは元の支払いデータを、まったく同じ統計的性質を持つが元の顧客とは結びつかない、新しい小さなデータセットに変換することができる。そうすればエンジニアがアプリをテストしたり、アナリストがマーケティングキャンペーンをテストしたりといったことがプライバシーに関する懸念を引き起こすことなく可能になる。
巨大なデータセットのプライバシーを扱う合成データやその他の方法が、ここ数カ月の間、投資家から大きな注目を集めている。我々は先に従業員が必要なデータのみにアクセスし、他のデータへアクセスすることをブロックするポリモーフィック型の暗号化への取り組みにラウンドを調達したSkyflowについて報じた(未訳記事)。BigIDは、地域のプライバシー法に基づいてデータのある場所やアクセスすべき人物について追跡する(すなわちデータガバナンス)ことに留まらない包括的な視点を有している(未訳記事)。
Tonicのアプローチには、プライバシーの問題だけでなく、データセットのサイズが大きくなるにつれて生じるスケーラビリティの問題も解決できるという利点がある。この組み合わせは投資家の注目を集めている。Tonicは米国時間12月14日午前、GGVのGlenn Solomon(グレン・ソロモン)氏とOren Yunger(オレン・ヤンガー)氏が率いるシリーズAで800万ドル(約8億3000万円)を調達したことを発表した。
同社は創業者4人によって2018年に設立された。CEOのIan Coe(イアン・コウ)氏はCOOのKarl Hanson(カール・ハンソン)氏とミドルスクール時代に出会い、両氏とCTOのAndrew Colombi(アンドリュー・コロンビ)氏はともにPalantirで勤務した経験がある。コウ氏はまた同社のエンジニアリング責任者Adam Kamor(アダム・カーマー)氏とともにTableauで働いていた。シリコンバレーの成功している最大手のデータインフラ企業で培われたものは、Tonicの製品DNAの一部を形成している。
コウ氏によると、Tonicは現代のソフトウェアエンジニアリングで発生する最も明白なセキュリティ上の欠陥のいくつかを防ぐように設計されているという。エンジニアリングチームがデータパイプライン処理に費やす時間を節約することに加え、Tonicは「機密データが本番環境から、本番システムよりも常に安全性の低い下位の環境に移動することを懸念していない」という。
Tonicが誕生するきっかけは、Palantirの銀行顧客のトラブルシューティングをしていたときだったという。彼らは問題を解決するためにデータを必要としていたが、そのデータは非常にセンシティブだったため、チームは合成データを利用することになった。コウ氏は、合成データの有用性をより厳密な方法でより多くの人々に拡大したいと考えている。「規制の圧力は、データの取り扱い慣行を変えることをチームに迫っていると思います」 と彼はいう。
Tonicのテクノロジーの鍵は、未処理データを評価し、すべてのレコード間の関係を統計的に定義するサブセッターにある。分析の一部はデータソースに応じて自動化されており、自動化できない場合にデータサイエンティストがデータセットをオンボードし、それらの関係を手動で定義することをTonicのUIは可能にする。最終的にTonicは、そのデータを所有する企業内のすべての人が使用できる合成データセットを生成する。
今回の資金調達でコウ氏は、使いやすさとオンボーディングをさらに強化し、顧客にこのモデルのメリットを広めたいと考えている。「私たちは様々な観点からカテゴリーを生成しています。それは人々が商品やサービスを早期に受け入れるアーリーアダプターの考え方とその価値を理解し身につける必要がある、ということを意味します」と彼は語る。
主要投資家のGGVに加えて、Bloomberg Beta、Xfund、Heavybit、Silicon Valley CISO Investments、そしてエンジェル投資家のAssaf Wand(アッサーフ・ワンド)氏とAnthony Goldbloom(アンソニー・ゴールドブルーム)氏がこのラウンドに参加している。
関連記事:イリノイ州がマスク着用啓発の広告費割り当てにデータサイエンスを活用
カテゴリー:セキュリティ
タグ:Tonic、ビッグデータ、データサイエンス
画像クレジット:Vertigo3d / Getty Images
[原文へ]
(翻訳:Dragonfly)
引用先はこちら:合成データがスケーラビリティとセキュリティを解決する新しいビッグデータであることに着目するTonic