일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 자바
- 맛집
- pyspark
- 코엑스맛집
- apache iceberg
- 영어
- Kafka
- 용인맛집
- 개발
- 여행
- 삼성역맛집
- Apache Kafka
- 코딩
- Data Engineer
- 백준
- java
- Iceberg
- Spark
- BigData
- Linux
- HIVE
- Data Engineering
- bigdata engineer
- 알고리즘
- hadoop
- 코딩테스트
- 프로그래머스
- bigdata engineering
- 코테
- Trino
- Today
- Total
목록Spark (10)
지구정복

PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..
1. 설치https://wikidocs.net/book/8531위 참고 책을 참고하면 가상환경에 FastAPI사용하는데 가상환경을 사용하면 스파크 사용시 가상환경 파이썬을 배포해줘야하니 일단 편의상 가상환경을 사용하지 않고 바로 서버에 설치하고 사용해본다. 먼저 Fastapi와 uvicorn 파이썬 패키지를 웹서버 띄울 서버에 설치해준다.여기선 gn001서버에 설치한다. FastAPI는 비동기 처리를 지원하여 높은 성능을 제공하고, 타입 검사 및 자동화된 API 문서 생성을 통해 개발자가 빠르게 효율적인 RESTful API를 구축할 수 있도록 돕습니다. Uvicorn은 경량의 웹 서버로, FastAPI와 같은 비동기 웹 프레임워크에서 높은 성능의 API를 실행하고 배포할 수 있도록 해줍니다. 추후에 s..

공식 문서를 번역한 글입니다. 버전은 Spark 3.5.5 기준https://spark.apache.org/docs/latest/streaming-programming-guide.html 1. Note이제는 Spark Streaming은 레거시이고 사용되지 않는다.신 Spark Structured Streaming가 사용된다.프로그래밍 가이드는 아래를 참고한다.https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 2. Overview다양한 소스(ex: Kafka, Kinesis, TCP sockets, ETC)에서 오는 실시간성 데이터들을 복잡한 알고리즘이나 여러가지 Functions들(ex: map, reduc..
pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..