Course of Apache Hudi, Delta Lake, Apache Iceberg dataset at scale, half 2: Utilizing AWS Glue Studio Visible Editor

0
1

f4e6

f4e6
f4e6

f4e6 Transactional information lake applied sciences f4e6 resembling f4e6 Apache Hudi f4e6 , f4e6 Delta Lake f4e6 , f4e6 Apache Iceberg f4e6 , and f4e6 AWS Lake Formation ruled tables f4e6  is evolving quickly, and gaining f4e6 nice reputation. These applied sciences f4e6 simplified the info processing pipeline f4e6 considerably, they usually offered additional f4e6 helpful capabilities like upserts, rolling f4e6 again, and time journey queries.

f4e6
f4e6

f4e6 In f4e6 the primary put up of f4e6 this collection f4e6 , we went by means f4e6 of methods to course of f4e6 Apache Hudi, Delta Lake, and f4e6 Apache Iceberg datasets utilizing f4e6 AWS Glue f4e6 connectors. AWS Glue simplifies f4e6 studying and writing your information f4e6 in these information lake codecs, f4e6 and constructing the info lakes f4e6 on high of these applied f4e6 sciences. Working the pattern notebooks f4e6 on AWS Glue Studio pocket f4e6 book, you can interactively develop f4e6 and run your code, then f4e6 instantly see the outcomes. The f4e6 notebooks allow you to discover f4e6 how these applied sciences work f4e6 when you might have coding f4e6 expertise.

f4e6
f4e6

f4e6 This second put up focuses f4e6 on different use circumstances for f4e6 purchasers preferring visible job authoring f4e6 with out writing customized code. f4e6 Even with out coding expertise, f4e6 you possibly can simply construct f4e6 your transactional information lakes on f4e6 AWS Glue Studio visible editor, f4e6 and make the most of f4e6 these transactional information lake applied f4e6 sciences. As well as, you f4e6 may also use f4e6 Amazon Athena f4e6 to question the info f4e6 saved utilizing Hudi and Iceberg. This tutorial f4e6 demonstrates methods to learn and f4e6 write every format on AWS f4e6 Glue Studio visible editor, after f4e6 which methods to question from f4e6 Athena.

f4e6
f4e6

f4e6
f4e6

f4e6
f4e6 f4e6

f4e6
f4e6 f4e6

f4e6
f4e6 f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Course of Apache Hudi, Delta f4e6 Lake, Apache Iceberg dataset at f4e6 scale f4e6
f4e6 f4e6

f4e6
f4e6

f4e6 Conditions

f4e6
f4e6

f4e6 The next are the directions f4e6 to learn/write tables utilizing every f4e6 information lake format on AWS f4e6 Glue Studio Visible Editor. You f4e6 need to use any of f4e6 {the marketplace} connector or the f4e6 customized connector primarily based in f4e6 your necessities.

f4e6
f4e6

f4e6 To proceed this tutorial, you f4e6 should create the next AWS f4e6 sources prematurely:

f4e6
f4e6
f4e6 f4e6

f4e6 Reads/writes utilizing the connector on AWS f4e6 Glue Studio Visible Editor

f4e6
f4e6

f4e6 On this tutorial, you learn f4e6 and write every of the f4e6 transaction information lake format information f4e6 on the AWS Glue Studio f4e6 Visible Editor. There are three f4e6 essential configurations: f4e6 connection f4e6 , f4e6 connection choices, f4e6 and f4e6 job parameters f4e6 that you should configure f4e6 per the info lake format. f4e6 Notice that no code is f4e6 included on this tutorial. Let’s see f4e6 the way it works.

f4e6
f4e6

f4e6 Apache Hudi writes

f4e6
f4e6

f4e6 Full following steps to jot f4e6 down into Apache Hudi desk f4e6 utilizing the connector:

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open AWS Glue Studio.
  2. f4e6
    f4e6

  3. f4e6 Select f4e6 Jobs f4e6 .
  4. f4e6
    f4e6

  5. f4e6 Select f4e6 Visible with a supply and f4e6 goal f4e6 .
  6. f4e6
    f4e6

  7. f4e6 For Supply, select f4e6 Amazon S3 f4e6 .
  8. f4e6
    f4e6

  9. f4e6 For Goal, select  f4e6 hudi-0101-byoc-connector f4e6 .
  10. f4e6
    f4e6

  11. f4e6 Select f4e6 Create f4e6 .
  12. f4e6
    f4e6

  13. f4e6 Beneath f4e6 Visible f4e6 , select f4e6 Information supply – S3 bucket f4e6 .
  14. f4e6
    f4e6

  15. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 S3 supply sort f4e6 , select f4e6 S3 location f4e6 .
  16. f4e6
    f4e6

  17. f4e6 For f4e6 S3 URL f4e6 , enter f4e6 s3://covid19-lake/rearc-covid-19-world-cases-deaths-testing/json/ f4e6 .
  18. f4e6
    f4e6

  19. f4e6 Select f4e6 Information goal – Connector f4e6 .
  20. f4e6
    f4e6

  21. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Connection f4e6 , select hudi-0101-byoc-connection.
  22. f4e6
    f4e6

  23. f4e6 For f4e6 Connection choices, f4e6  enter the next pairs of f4e6 Key and Worth (select  f4e6 Add new possibility f4e6 to enter a brand f4e6 new pair).
    f4e6 f4e6

      f4e6
      f4e6 f4e6

    1. f4e6 Key: f4e6 path f4e6 . Worth: f4e6 <Your S3 path for Hudi desk f4e6 location>
    2. f4e6
      f4e6 f4e6

    3. f4e6 Key:  f4e6 hoodie.desk.title f4e6 , Worth: f4e6 take a look at
    4. f4e6
      f4e6 f4e6

    5. f4e6 Key:  f4e6 hoodie.datasource.write.storage.sort f4e6 , Worth:  f4e6 COPY_ON_WRITE
    6. f4e6
      f4e6 f4e6

    7. f4e6 Key:  f4e6 hoodie.datasource.write.operation f4e6 , Worth:  f4e6 upsert
    8. f4e6
      f4e6 f4e6

    9. f4e6 Key:  f4e6 hoodie.datasource.write.recordkey.subject f4e6 , Worth:  f4e6 location
    10. f4e6
      f4e6 f4e6

    11. f4e6 Key:  f4e6 hoodie.datasource.write.precombine.subject f4e6 , Worth:  f4e6 date
    12. f4e6
      f4e6 f4e6

    13. f4e6 Key: f4e6 hoodie.datasource.write.partitionpath.subject f4e6 , Worth:  f4e6 iso_code
    14. f4e6
      f4e6 f4e6

    15. f4e6 Key: f4e6 hoodie.datasource.write.hive_style_partitioning f4e6 , Worth:  f4e6 true
    16. f4e6
      f4e6 f4e6

    17. f4e6 Key: f4e6 hoodie.datasource.hive_sync.allow f4e6 , Worth:  f4e6 true
    18. f4e6
      f4e6 f4e6

    19. f4e6 Key: f4e6 hoodie.datasource.hive_sync.database f4e6 , Worth:  f4e6 hudi
    20. f4e6
      f4e6 f4e6

    21. f4e6 Key: f4e6 hoodie.datasource.hive_sync.desk f4e6 , Worth:  f4e6 take a look at
    22. f4e6
      f4e6 f4e6

    23. f4e6 Key: f4e6 hoodie.datasource.hive_sync.partition_fields f4e6 , Worth:  f4e6 iso_code
    24. f4e6
      f4e6 f4e6

    25. f4e6 Key: f4e6 hoodie.datasource.hive_sync.partition_extractor_class f4e6 , Worth:  f4e6 org.apache.hudi.hive.MultiPartKeysValueExtractor
    26. f4e6
      f4e6 f4e6

    27. f4e6 Key: f4e6 hoodie.datasource.hive_sync.use_jdbc f4e6 , Worth:  f4e6 false
    28. f4e6
      f4e6 f4e6

    29. f4e6 Key: f4e6 hoodie.datasource.hive_sync.mode f4e6 , Worth:  f4e6 hms
    30. f4e6
      f4e6 f4e6

    f4e6

  24. f4e6
    f4e6

  25. f4e6 Beneath f4e6 Job particulars f4e6 , for f4e6 IAM Function f4e6 , select your IAM position.
  26. f4e6
    f4e6

  27. f4e6 Beneath f4e6 Superior properties f4e6 , for f4e6 Job parameters f4e6 , select f4e6 Add new parameter f4e6 .
  28. f4e6
    f4e6

  29. f4e6 For f4e6 Key f4e6 , enter f4e6 --conf f4e6 .
  30. f4e6
    f4e6

  31. f4e6 For f4e6 Worth f4e6 , enter f4e6 spark.serializer=org.apache.spark.serializer.KryoSerializer f4e6 .
  32. f4e6
    f4e6

  33. f4e6 Select f4e6 Save f4e6 .
  34. f4e6
    f4e6

  35. f4e6 Select f4e6 Run f4e6 .
  36. f4e6
    f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Apache Hudi reads

f4e6
f4e6

f4e6 Full following steps to learn f4e6 from the Apache Hudi desk f4e6 that you simply created within f4e6 the earlier part utilizing the f4e6 connector:

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open AWS Glue Studio.
  2. f4e6
    f4e6

  3. f4e6 Select f4e6 Jobs f4e6 .
  4. f4e6
    f4e6

  5. f4e6 Select f4e6 Visible with a supply and f4e6 goal f4e6 .
  6. f4e6
    f4e6

  7. f4e6 For Supply, select  f4e6 hudi-0101-byoc-connector f4e6 .
  8. f4e6
    f4e6

  9. f4e6 For Goal, select  f4e6 Amazon S3 f4e6 .
  10. f4e6
    f4e6

  11. f4e6 Select f4e6 Create f4e6 .
  12. f4e6
    f4e6

  13. f4e6 Beneath f4e6 Visible f4e6 , select f4e6 Information supply – Connection f4e6 .
  14. f4e6
    f4e6

  15. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Connection f4e6 , select  f4e6 hudi-0101-byoc-connection f4e6 .
  16. f4e6
    f4e6

  17. f4e6 For f4e6 Connection choices, f4e6 select f4e6 Add new possibility f4e6 .
  18. f4e6
    f4e6

  19. f4e6 For f4e6 Key f4e6 , enter f4e6 path f4e6 . For f4e6 Worth f4e6 , enter your S3 path f4e6 in your Hudi desk that f4e6 you simply created within the f4e6 earlier part.
  20. f4e6
    f4e6

  21. f4e6 Select f4e6 Remodel – ApplyMapping f4e6 , and select f4e6 Take away.
  22. f4e6
    f4e6

  23. f4e6 Select f4e6 Information goal – S3 bucket f4e6 .
  24. f4e6
    f4e6

  25. f4e6 Beneath f4e6 Information goal properties f4e6 , for f4e6 Format f4e6 , select f4e6 JSON f4e6 .
  26. f4e6
    f4e6

  27. f4e6 For f4e6 S3 Goal sort f4e6 . select f4e6 S3 location f4e6 .
  28. f4e6
    f4e6

  29. f4e6 For f4e6 S3 Goal Location f4e6 enter your S3 path f4e6 for output location.
  30. f4e6
    f4e6

  31. f4e6 Beneath f4e6 Job particulars f4e6 , for f4e6 IAM Function f4e6 , select your IAM position.
  32. f4e6
    f4e6

  33. f4e6 Select f4e6 Save f4e6 .
  34. f4e6
    f4e6

  35. f4e6 Select f4e6 Run f4e6 .
  36. f4e6
    f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Delta Lake writes

f4e6
f4e6

f4e6 Full the next steps to f4e6 jot down into the Delta f4e6 Lake desk utilizing the connector:

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open AWS Glue Studio.
  2. f4e6
    f4e6

  3. f4e6 Select f4e6 Jobs f4e6 .
  4. f4e6
    f4e6

  5. f4e6 Select f4e6 Visible with a supply and f4e6 goal f4e6 .
  6. f4e6
    f4e6

  7. f4e6 For Supply, select f4e6 Amazon S3 f4e6 .
  8. f4e6
    f4e6

  9. f4e6 For Goal, select  f4e6 delta-100-byoc-connector f4e6 .
  10. f4e6
    f4e6

  11. f4e6 Select f4e6 Create f4e6 .
  12. f4e6
    f4e6

  13. f4e6 Beneath f4e6 Visible f4e6 , select f4e6 Information supply – S3 bucket f4e6 .
  14. f4e6
    f4e6

  15. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 S3 supply sort f4e6 , select f4e6 S3 location f4e6 .
  16. f4e6
    f4e6

  17. f4e6 For f4e6 S3 URL f4e6 , enter f4e6 s3://covid19-lake/rearc-covid-19-world-cases-deaths-testing/json/ f4e6 .
  18. f4e6
    f4e6

  19. f4e6 Select f4e6 Information goal – Connector f4e6 .
  20. f4e6
    f4e6

  21. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Connection f4e6 , select your f4e6 delta-100-byoc-connection f4e6 .
  22. f4e6
    f4e6

  23. f4e6 For f4e6 Connection choices, f4e6 select f4e6 Add new possibility f4e6 .
  24. f4e6
    f4e6

  25. f4e6 For f4e6 Key f4e6 , enter f4e6 path f4e6 . For f4e6 Worth f4e6 , enter your S3 path f4e6 for Delta desk location. Select f4e6 f4e6 Add new possibility f4e6 .
  26. f4e6
    f4e6

  27. f4e6 For f4e6 Key f4e6 , enter f4e6 partitionKeys f4e6 . For f4e6 Worth f4e6 , enter f4e6 iso_code f4e6 .
  28. f4e6
    f4e6

  29. f4e6 Beneath f4e6 Job particulars f4e6 , for f4e6 IAM Function f4e6 , select your IAM position.
  30. f4e6
    f4e6

  31. f4e6 Beneath f4e6 Superior properties f4e6 , for f4e6 Job parameters f4e6 , select f4e6 Add new parameter f4e6 .
  32. f4e6
    f4e6

  33. f4e6 For f4e6 Key f4e6 , enter f4e6 --conf f4e6 .
  34. f4e6
    f4e6

  35. f4e6 For f4e6 Worth f4e6 , enter f4e6 spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog f4e6 .
  36. f4e6
    f4e6

  37. f4e6 Select f4e6 Save f4e6 .
  38. f4e6
    f4e6

  39. f4e6 Select f4e6 Run f4e6 .
  40. f4e6
    f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Delta Lake reads

f4e6
f4e6

f4e6 Full the next steps to f4e6 learn from the Delta Lake f4e6 desk that you simply created f4e6 within the earlier part utilizing f4e6 the connector:

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open AWS Glue Studio.
  2. f4e6
    f4e6

  3. f4e6 Select f4e6 Jobs f4e6 .
  4. f4e6
    f4e6

  5. f4e6 Select f4e6 Visible with a supply and f4e6 goal f4e6 .
  6. f4e6
    f4e6

  7. f4e6 For Supply, select  f4e6 delta-100-byoc-connector f4e6 .
  8. f4e6
    f4e6

  9. f4e6 For Goal, select  f4e6 Amazon S3 f4e6 .
  10. f4e6
    f4e6

  11. f4e6 Select f4e6 Create f4e6 .
  12. f4e6
    f4e6

  13. f4e6 Beneath f4e6 Visible f4e6 , select f4e6 Information supply – Connection f4e6 .
  14. f4e6
    f4e6

  15. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Connection f4e6 , select  f4e6 delta-100-byoc-connection f4e6 .
  16. f4e6
    f4e6

  17. f4e6 For f4e6 Connection choices, f4e6 select f4e6 Add new possibility f4e6 .
  18. f4e6
    f4e6

  19. f4e6 For f4e6 Key f4e6 , enter f4e6 path f4e6 . For f4e6 Worth f4e6 , enter your S3 path f4e6 for Delta desk that you f4e6 simply created within the earlier f4e6 part. Select f4e6 Add new possibility f4e6 .
  20. f4e6
    f4e6

  21. f4e6 For f4e6 Key f4e6 , enter f4e6 partitionKeys f4e6 . For f4e6 Worth f4e6 , enter f4e6 iso_code f4e6 .
  22. f4e6
    f4e6

  23. f4e6 Select f4e6 Remodel – ApplyMapping f4e6 , and select f4e6 Take away.
  24. f4e6
    f4e6

  25. f4e6 Select f4e6 Information goal – S3 bucket f4e6 .
  26. f4e6
    f4e6

  27. f4e6 Beneath f4e6 Information goal properties f4e6 , for f4e6 Format f4e6 , select f4e6 JSON f4e6 .
  28. f4e6
    f4e6

  29. f4e6 For f4e6 S3 Goal sort f4e6 , select f4e6 S3 location f4e6 .
  30. f4e6
    f4e6

  31. f4e6 For f4e6 S3 Goal Location f4e6 enter your S3 path f4e6 for output location.
  32. f4e6
    f4e6

  33. f4e6 Beneath f4e6 Job particulars f4e6 , for f4e6 IAM Function f4e6 , select your IAM position.
  34. f4e6
    f4e6

  35. f4e6 Beneath f4e6 Superior properties f4e6 , for f4e6 Job parameters f4e6 , select f4e6 Add new parameter f4e6 .
  36. f4e6
    f4e6

  37. f4e6 For f4e6 Key f4e6 , enter f4e6 --conf f4e6 .
  38. f4e6
    f4e6

  39. f4e6 For f4e6 Worth f4e6 , enter f4e6 spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog f4e6 .
  40. f4e6
    f4e6

  41. f4e6 Select f4e6 Save f4e6 .
  42. f4e6
    f4e6

  43. f4e6 Select f4e6 Run f4e6 .
  44. f4e6
    f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Apache Iceberg writes

f4e6
f4e6

f4e6 Full the next steps to f4e6 jot down into Apache Iceberg f4e6 desk utilizing the connector:

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open AWS Glue console.
  2. f4e6
    f4e6

  3. f4e6 Select f4e6 Databases f4e6 .
  4. f4e6
    f4e6

  5. f4e6 Select f4e6 Add database f4e6 .
  6. f4e6
    f4e6

  7. f4e6 For f4e6 database title f4e6 , enter iceberg, and select f4e6 f4e6 Create f4e6 .
  8. f4e6
    f4e6

  9. f4e6 Open AWS Glue Studio.
  10. f4e6
    f4e6

  11. f4e6 Select f4e6 Jobs f4e6 .
  12. f4e6
    f4e6

  13. f4e6 Select f4e6 Visible with a supply and f4e6 goal f4e6 .
  14. f4e6
    f4e6

  15. f4e6 For Supply, select f4e6 Amazon S3 f4e6 .
  16. f4e6
    f4e6

  17. f4e6 For Goal, select  f4e6 iceberg-0131-byoc-connector f4e6 .
  18. f4e6
    f4e6

  19. f4e6 Select f4e6 Create f4e6 .
  20. f4e6
    f4e6

  21. f4e6 Beneath f4e6 Visible f4e6 , select f4e6 Information supply – S3 bucket f4e6 .
  22. f4e6
    f4e6

  23. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 S3 supply sort f4e6 , select f4e6 S3 location f4e6 .
  24. f4e6
    f4e6

  25. f4e6 For f4e6 S3 URL f4e6 , enter f4e6 s3://covid19-lake/rearc-covid-19-world-cases-deaths-testing/json/ f4e6 .
  26. f4e6
    f4e6

  27. f4e6 Select f4e6 Information goal – Connector f4e6 .
  28. f4e6
    f4e6

  29. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Connection f4e6 , select f4e6 iceberg-0131-byoc-connection f4e6 .
  30. f4e6
    f4e6

  31. f4e6 For f4e6 Connection choices, f4e6 select f4e6 Add new possibility f4e6 .
  32. f4e6
    f4e6

  33. f4e6 For f4e6 Key f4e6 , enter f4e6 path f4e6 . For f4e6 Worth f4e6 , enter f4e6 glue_catalog.iceberg.take a look at f4e6 .
  34. f4e6
    f4e6

  35. f4e6 Select f4e6 SQL f4e6 beneath f4e6 Remodel f4e6 to create a brand f4e6 new AWS Glue Studio node.
  36. f4e6
    f4e6

  37. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Node dad and mom f4e6 , select f4e6 ApplyMapping f4e6 .
  38. f4e6
    f4e6

  39. f4e6 Beneath f4e6 Remodel f4e6 , for f4e6 SQL alias, f4e6 confirm that f4e6 myDataSource f4e6 is entered.
  40. f4e6
    f4e6

  41. f4e6 For f4e6 SQL question f4e6 , enter f4e6 CREATE TABLE glue_catalog.iceberg.take a look f4e6 at AS SELECT * FROM f4e6 myDataSource WHERE 1=2 f4e6 . That is to create f4e6 a desk definition with no f4e6 information as a result of f4e6 the Iceberg goal requires desk f4e6 definition earlier than information ingestion.
  42. f4e6
    f4e6

  43. f4e6 Beneath f4e6 Job particulars f4e6 , for f4e6 IAM Function f4e6 , select your IAM position.
  44. f4e6
    f4e6

  45. f4e6 Beneath f4e6 Superior properties f4e6 , for f4e6 Job parameters f4e6 , select f4e6 Add new parameter f4e6 .
  46. f4e6
    f4e6

  47. f4e6 For f4e6 Key f4e6 , enter f4e6 --conf f4e6 .
  48. f4e6
    f4e6

  49. f4e6 For f4e6 Worth f4e6 , enter the next worth f4e6 (change the placeholder f4e6 your_s3_bucket f4e6 together with your S3 f4e6 bucket title): f4e6 spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.glue_catalog.warehouse=s3:// f4e6 your_s3_bucket f4e6 /iceberg/warehouse --conf spark.sql.catalog.glue_catalog.catalog-impl --conf park.sql.catalog.glue_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO f4e6 --conf spark.sql.catalog.glue_catalog.lock-impl=org.apache.iceberg.aws.glue.DynamoLockManager --conf spark.sql.catalog.glue_catalog.lock.desk=iceberg_lock --conf f4e6 spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
  50. f4e6
    f4e6

  51. f4e6 Select f4e6 Save f4e6 .
  52. f4e6
    f4e6

  53. f4e6 Select f4e6 Run f4e6 .
  54. f4e6
    f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Apache Iceberg reads

f4e6
f4e6

f4e6 Full the next steps to f4e6 learn from Apache Iceberg desk f4e6 that you simply created within f4e6 the earlier part utilizing the f4e6 connector:

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open AWS Glue Studio.
  2. f4e6
    f4e6

  3. f4e6 Select f4e6 Jobs f4e6 .
  4. f4e6
    f4e6

  5. f4e6 Select f4e6 Visible with a supply and f4e6 goal f4e6 .
  6. f4e6
    f4e6

  7. f4e6 For Supply, select f4e6  Apache Iceberg Connector for AWS f4e6 Glue 3.0.
  8. f4e6
    f4e6

  9. f4e6 For Goal, select  f4e6 Amazon S3 f4e6 .
  10. f4e6
    f4e6

  11. f4e6 Select f4e6 Create f4e6 .
  12. f4e6
    f4e6

  13. f4e6 Beneath f4e6 Visible f4e6 , select f4e6 Information supply – Connection f4e6 .
  14. f4e6
    f4e6

  15. f4e6 Beneath f4e6 Node properties f4e6 , for f4e6 Connection f4e6 , select your Iceberg connection f4e6 title.
  16. f4e6
    f4e6

  17. f4e6 For f4e6 Connection choices, f4e6 select f4e6 Add new possibility f4e6 .
  18. f4e6
    f4e6

  19. f4e6 For f4e6 Key f4e6 , enter f4e6 path f4e6 . For f4e6 Worth f4e6 , enter f4e6 glue_catalog.iceberg.take a look at f4e6 .
  20. f4e6
    f4e6

  21. f4e6 Select f4e6 Remodel – ApplyMapping f4e6 , and select f4e6 Take away.
  22. f4e6
    f4e6

  23. f4e6 Select f4e6 Information goal – S3 bucket f4e6 .
  24. f4e6
    f4e6

  25. f4e6 Beneath f4e6 Information goal properties f4e6 , for f4e6 Format f4e6 , select f4e6 JSON f4e6 .
  26. f4e6
    f4e6

  27. f4e6 For f4e6 S3 Goal sort f4e6 , select f4e6 S3 location f4e6 .
  28. f4e6
    f4e6

  29. f4e6 For f4e6 S3 Goal Location f4e6 enter your S3 path f4e6 for the output location.
  30. f4e6
    f4e6

  31. f4e6 Beneath f4e6 Job particulars f4e6 , for f4e6 IAM Function f4e6 , select your IAM position.
  32. f4e6
    f4e6

  33. f4e6 Beneath f4e6 Superior properties f4e6 , for f4e6 Job parameters f4e6 , select f4e6 Add new parameter f4e6 .
  34. f4e6
    f4e6

  35. f4e6 For f4e6 Key f4e6 , enter f4e6 --conf f4e6 .
  36. f4e6
    f4e6

  37. f4e6 For f4e6 Worth f4e6 , enter the next worth (change f4e6 the placeholder f4e6 your_s3_bucket f4e6 together with your S3 f4e6 bucket title): f4e6 spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.glue_catalog.warehouse=s3:// f4e6 your_s3_bucket f4e6 /iceberg/warehouse --conf spark.sql.catalog.glue_catalog.catalog-impl --conf park.sql.catalog.glue_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.glue_catalog.lock-impl=org.apache.iceberg.aws.glue.DynamoLockManager --conf spark.sql.catalog.glue_catalog.lock.desk=iceberg_lock f4e6 --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
  38. f4e6
    f4e6

  39. f4e6 Select f4e6 Save f4e6 .
  40. f4e6
    f4e6

  41. f4e6 Select f4e6 Run f4e6 .
  42. f4e6
    f4e6

f4e6
f4e6

f4e6
f4e6

f4e6 Question from Athena

f4e6
f4e6

f4e6 The Hudi desk and the f4e6 iceberg tables created with the f4e6 above directions are additionally queryable f4e6 from Athena.

f4e6
f4e6

    f4e6
    f4e6

  1. f4e6 Open the Athena console.
  2. f4e6
    f4e6

  3. f4e6 Run the next SQL to f4e6 question the Hudi desk:
    f4e6 f4e6

    f4e6
    f4e6 f4e6

     f4e6 SELECT * FROM "hudi"."take a  f4e6 look at" LIMIT 10

    f4e6
    f4e6 f4e6

    f4e6

  4. f4e6
    f4e6

  5. f4e6 Run the next SQL to f4e6 question the Iceberg desk:
    f4e6 f4e6

    f4e6
    f4e6 f4e6

     f4e6 SELECT * FROM "iceberg"."take a look  f4e6 at" LIMIT 10

    f4e6
    f4e6 f4e6

    f4e6
    f4e6 f4e6

    f4e6

  6. f4e6
    f4e6

f4e6
f4e6

f4e6 If you need to question the f4e6 Delta desk from Athena, observe  f4e6 Presto, Trino, and Athena to f4e6 Delta Lake integration utilizing manifests f4e6 .

f4e6
f4e6

f4e6 Conclusion

f4e6
f4e6

f4e6 This put up summarized methods f4e6 to make the most of f4e6 Apache Hudi, Delta Lake, and f4e6 Apache Iceberg on AWS Glue f4e6 platform, in addition to demonstrated f4e6 how every format works with f4e6 the AWS Glue Studio Visible f4e6 Editor. You can begin utilizing f4e6 these information lake codecs simply f4e6 in any of the AWS f4e6 Glue DynamicFrames, Spark DataFrames, and f4e6 Spark SQL on the AWS f4e6 Glue jobs, the AWS Glue f4e6 Studio notebooks, and the AWS f4e6 Glue Studio visible editor.

f4e6
f4e6


f4e6
f4e6

f4e6 Concerning the Creator

f4e6
f4e6

f4e6 Noritaka Sekiyama f4e6 is a Principal Huge f4e6 Information Architect on the AWS f4e6 Glue crew. He enjoys collaborating with f4e6 totally different groups to ship f4e6 outcomes like this put up. f4e6 In his spare time, he f4e6 enjoys enjoying video video games f4e6 along with his household.

f4e6
f4e6 f4e6
f4e6

f4e6

LEAVE A REPLY

Please enter your comment!
Please enter your name here