일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- HIVE
- bigdata engineer
- pyspark
- 삼성역맛집
- apache iceberg
- 영어
- java
- 여행
- BigData
- 코엑스맛집
- 프로그래머스
- Kafka
- 개발
- 알고리즘
- hadoop
- 맛집
- Iceberg
- Apache Kafka
- bigdata engineering
- 자바
- 용인맛집
- Spark
- Data Engineer
- 코딩테스트
- 백준
- 코테
- Trino
- Data Engineering
- 코딩
- 코엑스
- Today
- Total
목록데이터 엔지니어링 정복 (422)
지구정복
python3.8kafka 2.8.2 기존에 NiFi로 UDP데이터 받은 뒤 Kafka에 프로듀싱하는 작업을 진행했었는데데이터 유실이 발생하였다. NiFi가 문제라고 확정지을 수 없지만 NiFi에서 처리됐던 것들을 Python으로 구현해서 데이터 유실이 생기는지 확인한다. 현재 Load Balancer Server로부터 NiFi 4대 서버로 UDP데이터를 보내주고 있고, 포트는 8888이다. LB -(udp, 8888)-> NiFi Nodes 각 NiFi node에 python프로그램을 만든다. 모든 NiFi 노드들 (dn001~004, 4대) ssh myuser@dn001~dn004 mkdir -p 01.listenUdp/log 01.listenUdp/src cd 01.listenUdp/src vi..
spark 3.4.1trino 402iceberg 1.3.1 사용중 현재 스트리밍 데이터를 수집중인데 파티션이 초단위로 되어 있어서 HDFS에 small file이 너무 많이 쌓이는 중이다.따라서 파티션에 hours를 적용하여 시간 단위로 데이터가 뭉칠 수 있게 해준다. 결론: 여러가지 방법 해봤는데 실패.. 완전히 치환할 수 있는 방법이 없다.왜냐하면 아래 방법으로 하면1) CREATE TABLE 임시테이블 ()USING iceberg PARTITIONED BY (hours(time_column)) 2) INSERT INTO 임시테이블SELECT * FROM 기존테이블 3) ALTER TABLE 기존테이블 RENAME TO 기존테이블_backup 4) HDFS에서 기존테이블 디렉터리 이름 변경h..
현재 아이스버그 1.3.1을 사용중이다.공식문서는 아래 1.3.1을 참고한다.https://web.archive.org/web/20240826175720/https://iceberg.apache.org/docs/latest/maintenance/ 스파크는 3.4.1트리노는 402버전 사용중 정리해야하는 파일들은 다음과 같다.-Old Metadata Files-Expired Snapshot Files-Manifests Files-Data Files-Orphan Files 위 파일들은 사용자가 어쩔 수 없이 수동으로 정리를 해줘야 한다. 1. Metadata Files 관리아이스버그는 JSON포맷인 metadata file을 통해 테이블의 변경을 추적한다.테이블의 어떠한 변경이라도 일어나면 metadata..

PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..