일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 코엑스맛집
- 자바
- 영어
- Apache Kafka
- pyspark
- Linux
- Data Engineer
- 코테
- HIVE
- BigData
- java
- 삼성역맛집
- 맛집
- Iceberg
- 개발
- Trino
- 코딩테스트
- Data Engineering
- 알고리즘
- 프로그래머스
- 용인맛집
- 여행
- Kafka
- apache iceberg
- 코딩
- bigdata engineer
- hadoop
- Spark
- bigdata engineering
- 백준
- Today
- Total
목록전체 글 (532)
지구정복
현재 아이스버그 1.3.1을 사용중이다.공식문서는 아래 1.3.1을 참고한다.https://web.archive.org/web/20240826175720/https://iceberg.apache.org/docs/latest/maintenance/ 스파크는 3.4.1트리노는 402버전 사용중 정리해야하는 파일들은 다음과 같다.-Old Metadata Files-Expired Snapshot Files-Manifests Files-Data Files-Orphan Files 위 파일들은 사용자가 어쩔 수 없이 수동으로 정리를 해줘야 한다. 1. Metadata Files 관리아이스버그는 JSON포맷인 metadata file을 통해 테이블의 변경을 추적한다.테이블의 어떠한 변경이라도 일어나면 metadata..

PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..
현재 python3.8을 사용중이고, Trino의 정보는 다음과 같다. -ssl 적용된 trino ssl pam파일 위치: /bigdata/hue/trino_ca_250408.pem host: my00mn001:9998 admin_user: trino user_password: MyPassword!23 먼저 사용하는 Python에 pip package를 설치한다.pip38 install trino 파이썬에서 아래와 같이 사용한다.이때 ssl을 사용하니 .pem파일이 정확히 해당 위치에 존재해야하고 read권한이 있어야한다.from trino.dbapi import connectfrom trino.auth import BasicAuthenticationconn = connect( host='my..
#모든 인덱스들 조회curl "http:// solr_hostname>:8886/solr/admin/collections?action=LIST&wt=json"{ "responseHeader":{ "status":0, "QTime":0}, "collections":["ranger_audits"]} #특정 인덱스의 field 정보 출력curl "http:// solr_hostname>:8886/solr/ranger_audits/schema/fields?wt=json&showDefaults=true" #전체 데이터 개수 확인curl "http:// solr_hostname>:8886/solr/ranger_audits/select?q=*:*&rows=0" #데이터 1개만 출력curl "htt..

1. 현상 및 원인Infra Solr는 주로 Ranger/HDFS/Yarn의 audit로그를 저장하기 위해 사용된다.우리는 Ranger의 audit로그를 위해서 사용중이다. 하지만 ranger audit로그가 많이 쌓이다보니 infra solr의 data dir가 너무 용량을 많이 차지하는 이슈가 있었다.설정이름: infra_solr_datadir 방법은 두 가지가 있다. 1) infra_solr_datadir해당 경로를 디스크 공간이 많은 곳으로 옮겨준다.2) Ranger에서 ranger_audit_max_retention_days 기간을 줄여준 뒤 Lucene API로 직접 데이터 삭제한다. 2. 해결2.1. infra_solr_datadir 경로 변경아래 순서로 진행 -Infra Solr 중지-i..