일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 코테
- 맛집
- bigdata engineer
- bigdata engineering
- Data Engineer
- 용인맛집
- hadoop
- apache iceberg
- 여행
- 개발
- 알고리즘
- Iceberg
- 자바
- Kafka
- 프로그래머스
- 백준
- Apache Kafka
- java
- 코엑스
- 코딩
- 코딩테스트
- HIVE
- Trino
- 코엑스맛집
- Data Engineering
- BigData
- 삼성역맛집
- pyspark
- Spark
- 영어
- Today
- Total
목록bigdata engineering (7)
지구정복

1. Kafka ClusterKafka 클러스터는 서로 연결된 Kafka 브로커들의 집합으로, Kafka 시스템으로 들어오고 나가는 데이터 스트림을 함께 관리합니다.각 브로커는 별도의 머신에서 독립적인 프로세스로 실행되며, 신뢰성 높고 고속인 네트워크를 통해 다른 브로커들과 통신합니다.그렇다면 왜 Apache Kafka 클러스터를 사용해야 할까요? 그리고 그것이 어떻게 도움이 될까요?사용자 활동이 증가함에 따라, 들어오는 데이터 스트림의 양과 속도를 감당하기 위해 추가적인 Kafka 브로커가 필요하게 됩니다.Kafka 클러스터는 데이터 파티션을 여러 브로커에 복제(replication)할 수 있게 하여, 노드 장애가 발생하더라도 고가용성(high availability)을 유지할 수 있도록 합니다.이를 ..
Spark3.4.1, Hive3.1.3사용중. Spark에서 Hive managed table에 쓰기 작업(Insert 등)시 에러가 발생한다.실행한 쿼리는 다음과 같다.spark = SparkSession.builder \ .enableHiveSupport() \ .getOrCreate() #PySpark에서 Hive managed table createq = """CREATE TABLE test.user_info ( id INT, name STRING, age INT)STORED AS PARQUET""" spark.sql(q).show()#Insert쿼리 실행q = """INSERT INTO test.user_info2 (id, name, age)VALUES (1..
CHAPTER 6 Apache SparkConfigurationConfiguring Apache Iceberg and SparkConfiguring via the CLIAs a first step, you’ll need to specify the required packages to be installed and used with the Spark session. To do so, Spark provides the --packages option, which allows Spark to easily download the specified Maven-based packages and its dependencies to add them to the classpath of your application. ..
CHAPTER 5 Iceberg Catalogs Requirements of an Iceberg CatalogIceberg provides a catalog interface that requires the implementation of a set of functions, primarily ones to list existing tables, create tables, drop tables, check whether a table exists, and rename tables. Hive Metastore, AWS Glue, and a filesystem catalog (Hadoop). with a filesystem as the catalog, there’s a file called version-hi..