Episodios

  • #23 Apache Hudi 1.0 アナウンスブログを読む (番外編)
    Dec 30 2024

    第23回は、ゲストなしの番外編として、Apache Hudi 1.0リリースのアナウンスブログを読む回です。また、最後に今後のOTF Talkについて少しご案内があります。


    Apache Hudi 1.0 Release/次世代レイクハウス/1.0の新機能/OTF Talk今後の予定


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    https://www.otftalk.com/


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。

    参考)


    ■Apahce Hudi

    Announcing Apache Hudi 1.0 and the Next Generation of Data Lakehouses https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/


    Apache Hudi 1.0 Release note https://hudi.apache.org/releases/release-1.0.0/


    Apache Hudi Roadmap https://hudi.apache.org/roadmap/


    ■関連技術

    LSM Tree

    https://en.m.wikipedia.org/wiki/Log-structured_merge-tree


    書籍「データ指向アプリケーションデザイン」(オライリー)

    https://www.oreilly.co.jp/books/9784873118703/


    Google Spanner TrueTimeと外部整合性 (Google) https://cloud.google.com/spanner/docs/true-time-external-consistency?hl=ja


    ■OTF Talk

    https://www.otftal.com (ホームページ)

    https://youtube.com/@otftalk (Youtubeチャンネル)

    https://x.com/otftalk (X)

    https://mixi.social/communities/627c99c6-0563-41e3-b875-4c07794674fc/about (Mix2 コミュニティ)

    Podcastのはじめかた (OTF Talkの場合) https://portablecode.info/2024/12/30/how-to-start-a-podcast/

    ■ホスト:下佐粉 昭 (しもさこ あきら)

    https://x.com/simosako (X)

    https://mixi.social/@simosako (Mixi2)

    3名でホストをしている Podcast - SKO Radio https://www.skoradio.com

    Más Menos
    21 m
  • #22 Delta Lake 実践事例
    Dec 24 2024

    OTF Talk 第22回は、Databricksの桑野 章弘さんに「Delta Lake 実践事例」についてお話をうかがいました。


    Delta Lake ユースケース/機械学習もDWHも同じ環境で/事例/Delta Lakeを選択した理由


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    https://www.otftalk.com/


    guest:@kuwa_tw

    Databricks ソリューションアーキテクト


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考)

    桑野さん Xアカウント https://x.com/kuwa_tw


    Databrics https://www.databricks.com/jp


    Delta Lakeとは? (Databricksドキュメント)

    https://docs.databricks.com/ja/delta/index.html


    Delta Lakeクイックスタートガイド (Takaaki Yayoi)

    https://qiita.com/taka_yayoi/items/345f503d5f8177084f24


    Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi)

    https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1


    楽観的なトランザクション管理 (Takaaki Yayoi)

    https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1


    Databricks 事例(株式会社リクルート)

    https://www.databricks.com/sites/default/files/2023-03/customer_story_recruit_ja_jp_2.pdf

    Más Menos
    19 m
  • #21 Delta Lake 入門
    Dec 17 2024

    OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。


    Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

    https://www.otftalk.com/


    guest:@kuwa_tw

    Databricks ソリューションアーキテクト


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考)

    桑野さん Xアカウント https://x.com/kuwa_tw


    Databrics https://www.databricks.com/jp


    Delta Lakeとは? (Databricksドキュメント)

    https://docs.databricks.com/ja/delta/index.html


    Delta Lakeクイックスタートガイド (Takaaki Yayoi)

    https://qiita.com/taka_yayoi/items/345f503d5f8177084f24


    Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi)

    https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1


    楽観的なトランザクション管理 (Takaaki Yayoi)

    https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1


    Databricks 事例(株式会社リクルート)

    https://www.databricks.com/sites/default/files/2023-03/customer_story_recruit_ja_jp_2.pdf

    Más Menos
    21 m
  • #20 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)
    Dec 10 2024

    OTF Talk 第20回は、joker1007さんに「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)」についてお話をうかがいました。


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。


    Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察


    guest:@joker1007

    Repro チーフアーキテクト


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考)

    joker1007さんXアカウント https://x.com/joker1007

    Repro https://repro.io/


    更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)

    https://tech.repro.io/entry/2024/07/26/141233


    本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)

    https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti


    Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)

    https://tech.repro.io/entry/2024/10/28/170721


    Más Menos
    28 m
  • #19 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)
    Dec 3 2024

    OTF Talk 第19回はjoker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)」についてお話をうかがいました。


    既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。


    guest:@joker1007

    Repro チーフアーキテクト


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考)

    joker1007さんXアカウント https://x.com/joker1007

    Repro https://repro.io/


    更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)

    https://tech.repro.io/entry/2024/07/26/141233


    本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)

    https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti


    Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)

    https://tech.repro.io/entry/2024/10/28/170721


    Más Menos
    20 m
  • #18 LINEヤフーにおけるHiveからIcebergへの移行(後編)
    Nov 26 2024

    第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編)


    OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。


    Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性


    guest:奥田 輔さん @okdtsk

    LINEヤフー データグループ


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考文献)

    Cloudera Evolve 2024

    https://www.cloudera.com/events/evolve/singapore.html


    LINEのデータプラットフォームが目指すべき未来

    ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。

    https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for


    Protocol Buffers

    https://github.com/protocolbuffers/protobuf

    Más Menos
    25 m
  • #17 LINEヤフーにおけるHiveからIcebergへの移行(前編)
    Nov 19 2024

    OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。


    Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg?


    guest:奥田 輔さん @okdtsk

    LINEヤフー データグループ


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考文献)

    Cloudera Evolve 2024

    https://www.cloudera.com/events/evolve/singapore.html


    LINEのデータプラットフォームが目指すべき未来

    ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。

    https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for


    Protocol Buffers

    https://github.com/protocolbuffers/protobuf


    Más Menos
    21 m
  • #16 AWS GlueのOTFサポート
    Nov 12 2024

    OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。


    OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。


    AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg)


    guest:鯵坂 明さん @ajis_ka

    AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC


    host: @simosako (下佐粉 昭)

    AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


    ※感想は #OTFTalk でポストいただけると励みになります。

    ※発言は各個人のものであり、所属組織を代表するものではありません。


    参考文献)


    Apache PMC (Project Management Committee)

    https://www.apache.org/dev/pmc.html


    Apache Ozone

    https://ozone.apache.org/


    AWS Glue

    https://aws.amazon.com/jp/glue/


    Hudiのログメッセージ改善Pull Request

    https://github.com/apache/hudi/pull/9577


    Icebergのコメント対応Pull Request

    https://github.com/apache/iceberg/pull/10199

    Más Menos
    20 m
adbl_web_global_use_to_activate_T1_webcro805_stickypopup