지구정복

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록전체 글 (532)

지구정복

[Iceberg] Table Maintenance | 테이블 관리방법

현재 아이스버그 1.3.1을 사용중이다.공식문서는 아래 1.3.1을 참고한다.https://web.archive.org/web/20240826175720/https://iceberg.apache.org/docs/latest/maintenance/ 스파크는 3.4.1트리노는 402버전 사용중 정리해야하는 파일들은 다음과 같다.-Old Metadata Files-Expired Snapshot Files-Manifests Files-Data Files-Orphan Files 위 파일들은 사용자가 어쩔 수 없이 수동으로 정리를 해줘야 한다. 1. Metadata Files 관리아이스버그는 JSON포맷인 metadata file을 통해 테이블의 변경을 추적한다.테이블의 어떠한 변경이라도 일어나면 metadata..

데이터 엔지니어링 정복/Iceberg 2025. 5. 28. 13:12

[PySpark3] UserWarning: 'PYARROW_IGNORE_TIMEZONE' environment variable was not set. It is required to set this environment variable to '1' in both driver and executor sides if you use pyarrow>=2.0.0. pandas-on-Spark will set it for you but it does not wor

PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..

데이터 엔지니어링 정복/Spark 2025. 5. 26. 18:41

[Trino] Python에서 SSL Trino사용

현재 python3.8을 사용중이고, Trino의 정보는 다음과 같다. -ssl 적용된 trino ssl pam파일 위치: /bigdata/hue/trino_ca_250408.pem host: my00mn001:9998 admin_user: trino user_password: MyPassword!23 먼저 사용하는 Python에 pip package를 설치한다.pip38 install trino 파이썬에서 아래와 같이 사용한다.이때 ssl을 사용하니 .pem파일이 정확히 해당 위치에 존재해야하고 read권한이 있어야한다.from trino.dbapi import connectfrom trino.auth import BasicAuthenticationconn = connect( host='my..

데이터 엔지니어링 정복/Trino 2025. 5. 26. 14:57

[Infra Solr] 자주 사용하는 쿼리 정리

#모든 인덱스들 조회curl "http:// solr_hostname>:8886/solr/admin/collections?action=LIST&wt=json"{ "responseHeader":{ "status":0, "QTime":0}, "collections":["ranger_audits"]} #특정 인덱스의 field 정보 출력curl "http:// solr_hostname>:8886/solr/ranger_audits/schema/fields?wt=json&showDefaults=true" #전체 데이터 개수 확인curl "http:// solr_hostname>:8886/solr/ranger_audits/select?q=*:*&rows=0" #데이터 1개만 출력curl "htt..

데이터 엔지니어링 정복/Infra Solr 2025. 5. 23. 00:14

[Infra Solr] Ranger index 파일 용량 이슈

1. 현상 및 원인Infra Solr는 주로 Ranger/HDFS/Yarn의 audit로그를 저장하기 위해 사용된다.우리는 Ranger의 audit로그를 위해서 사용중이다. 하지만 ranger audit로그가 많이 쌓이다보니 infra solr의 data dir가 너무 용량을 많이 차지하는 이슈가 있었다.설정이름: infra_solr_datadir 방법은 두 가지가 있다. 1) infra_solr_datadir해당 경로를 디스크 공간이 많은 곳으로 옮겨준다.2) Ranger에서 ranger_audit_max_retention_days 기간을 줄여준 뒤 Lucene API로 직접 데이터 삭제한다. 2. 해결2.1. infra_solr_datadir 경로 변경아래 순서로 진행 -Infra Solr 중지-i..

데이터 엔지니어링 정복/Infra Solr 2025. 5. 22. 23:35

Prev 1 2 3 4 5 6 ··· 107 Next

목록전체 글 (532)

지구정복

티스토리툴바