| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- Data Engineer
- 개발
- 여행
- HIVE
- Trino
- 백준
- Apache Kafka
- bigdata engineer
- bigdata engineering
- 프로그래머스
- Spark
- 코엑스맛집
- hadoop
- 맛집
- Iceberg
- HDFS
- 삼성역맛집
- pyspark
- BigData
- 영어
- 코딩
- 알고리즘
- apache iceberg
- 코테
- Linux
- Data Engineering
- 자바
- Kafka
- java
- 코딩테스트
- Today
- Total
목록BigData (52)
지구정복
안녕하세요! 빅데이터 엔지니어링 분야에서 최근 가장 주목받고 있는 Trino와 Apache Iceberg 연동에 대해 자세히 알아보겠습니다. 데이터 레이크 기술이 급속히 발전하면서, 전통적인 데이터 웨어하우스의 한계를 뛰어넘는 새로운 솔루션들이 등장하고 있어요. 그 중에서도 Trino의 Iceberg Connector는 현대적인 분석 플랫폼의 필수 요소가 되었습니다. 직접 프로덕션에서 운영해본 노하우를 바탕으로, 기본 설정부터 고급 튜닝까지 단계별로 정리해드릴게요! Trino-Iceberg 연동 아키텍처 살펴보기 먼저 이 두 기술이 어떻게 협력하는지 구조부터 파악해보겠습니다. [사진: 1.jpg - Trino Iceberg connector 아키텍처 다이어그램] 주요 컴포넌트 분석 분산 스토리지 접근 방..
빠른 결론Hive Managed Table이 insert-only인 경우에만 타클러스터에 Hive External Table로 옮기기 가능하나타클러스터에서 디렉터리 구조 변경이 필요 1. A 클러스터의 Hive Table상태 조사A클러스터에서 B클러스터로 옮겨야할 테이블명은 다음과 같다.a_cluster.test_tbl1a_cluster.test_tbl2 해당 테이블들의 show create table결과와 포맷도 확인한다. -a_cluster.test_tbl1CREATE TABLE `a_cluster.test_tbl1`( `ecu_id` string, `dtc_cd` string, `fuel_k_cd` string)COMMENT 'Imported by sqoop on 2017/08/24 0..
airflow 3버전 이상부터 사용할 수 있는 기능 아래와 같이 두 개의 dag가 있다.a dag: task11 -> task12b dag: task21 -> task22 이때 a dag가 끝나자마자 b dag를 실행시키고 싶을 경우a dag의 최종 결과물(특정 디렉터리에 파일 생성)이 생성되면 b dag가 트리거되도록 실행하는 기능이다. 아래는 예제 코드from airflow.sdk import asset# 1️⃣ First asset DAG@asset( schedule="@daily", # runs every day)def first_asset(): """ This asset returns some data. This return value is stored..
공식문서내용 번역: https://spark.apache.org/docs/latest/streaming/getting-started.html 1. 워드카운트 예제개념을 배우기 전에 예제를 통해서 무엇인지 간단히 알아본다. 아래와 같이 스파크 세션 생성(파이썬 사용)from pyspark.sql import SparkSessionfrom pyspark.sql.functions import explodefrom pyspark.sql.functions import splitspark = SparkSession \ .builder \ .appName("StructuredNetworkWordCount") \ .getOrCreate() 다음으로 Socket의 9999포트를 통해 데이터를 받는다고 가..