일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 알고리즘
- 삼성역맛집
- 여행
- pyspark
- 코엑스맛집
- Trino
- 코엑스
- bigdata engineer
- HIVE
- Spark
- 맛집
- 코테
- bigdata engineering
- Iceberg
- Data Engineer
- hadoop
- 개발
- Data Engineering
- apache iceberg
- 영어
- 코딩테스트
- Kafka
- 프로그래머스
- 백준
- 용인맛집
- 자바
- Apache Kafka
- BigData
- 코딩
- java
- Today
- Total
목록2025/05/26 (2)
지구정복

PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..
현재 python3.8을 사용중이고, Trino의 정보는 다음과 같다. -ssl 적용된 trino ssl pam파일 위치: /bigdata/hue/trino_ca_250408.pem host: my00mn001:9998 admin_user: trino user_password: MyPassword!23 먼저 사용하는 Python에 pip package를 설치한다.pip38 install trino 파이썬에서 아래와 같이 사용한다.이때 ssl을 사용하니 .pem파일이 정확히 해당 위치에 존재해야하고 read권한이 있어야한다.from trino.dbapi import connectfrom trino.auth import BasicAuthenticationconn = connect( host='my..