| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 여행
- bigdata engineer
- 알고리즘
- 맛집
- 삼성역맛집
- 코딩테스트
- HDFS
- 개발
- Data Engineer
- HIVE
- 백준
- Apache Kafka
- apache iceberg
- hadoop
- Trino
- BigData
- 프로그래머스
- 코딩
- Kafka
- java
- bigdata engineering
- 코엑스맛집
- pyspark
- Iceberg
- Data Engineering
- 자바
- 코테
- Linux
- 영어
- Spark
- Today
- Total
목록Spark (13)
지구정복
공식문서내용 번역: https://spark.apache.org/docs/latest/streaming/getting-started.html 1. 워드카운트 예제개념을 배우기 전에 예제를 통해서 무엇인지 간단히 알아본다. 아래와 같이 스파크 세션 생성(파이썬 사용)from pyspark.sql import SparkSessionfrom pyspark.sql.functions import explodefrom pyspark.sql.functions import splitspark = SparkSession \ .builder \ .appName("StructuredNetworkWordCount") \ .getOrCreate() 다음으로 Socket의 9999포트를 통해 데이터를 받는다고 가..
spark 3.4.1 내부적으로 브로드캐스트 조인시에 브로드캐스트될 테이블이 너무 클 경우 아래 에러가 발생한다.Traceback (most recent call last): File "", line 1, in File "/usr/my/current/spark3-client/python/pyspark/sql/session.py", line 1440, in sql return DataFrame(self._jsparkSession.sql(sqlQuery, litArgs), self) File "..
iceberg 1.3.1spark 3.4.1hive 3.1.3 rewrite_manifest call procedure사용하다가 아래 에러 발생.25/07/01 00:09:18 INFO BaseMetastoreTableOperations: Refreshing table metadata from new version: hdfs://nameservice1/user/hive/warehouse/iceberg_test_db.db/my_test2/metadata/647318-e501c610-fe41-4a9a-bed0-7f10deec9c2b.metadata.json Traceback (most recent call last): File "/home/airflow_dags/src/pyspark/iceberg/Iceb..
PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..