'Spark' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록Spark (10)

지구정복

[PySpark3] UserWarning: 'PYARROW_IGNORE_TIMEZONE' environment variable was not set. It is required to set this environment variable to '1' in both driver and executor sides if you use pyarrow>=2.0.0. pandas-on-Spark will set it for you but it does not wor

PyArrow는 내부적으로 timestamp를 엄격하게 처리한다. 근데 Spark와 Pandas는 보통 timezone정보가 없는 naive timestamp를 쓴다.여기서 naive timestamp는 "2025-05-26 14:00:00"이런 값을 의미한다. pyarrow에서 사용하는 timestamp는 시간대 정보가 포함된 값을 의미한다.2025-05-26 09:37:07.223083+00:00 그래서 pyarrow와 pandas-on-spark를 같이 사용하면 타임스탬프를 처리하는 과정에서 에러가 발생할 확률이 높다.따라서 미리 Pyarrow에서 pandas-on-spark 가 사용하는 타임스탬프로 맞춰주기 위해 환경변수를 드라이버와 익스큐터들에게 정의해줘야 한다. 근데 이 설정은 스파크 옵션으로..

데이터 엔지니어링 정복/Spark 2025. 5. 26. 18:41

[FastAPI] FastAPI로 PySpark 사용하기

1. 설치https://wikidocs.net/book/8531위 참고 책을 참고하면 가상환경에 FastAPI사용하는데 가상환경을 사용하면 스파크 사용시 가상환경 파이썬을 배포해줘야하니 일단 편의상 가상환경을 사용하지 않고 바로 서버에 설치하고 사용해본다. 먼저 Fastapi와 uvicorn 파이썬 패키지를 웹서버 띄울 서버에 설치해준다.여기선 gn001서버에 설치한다. FastAPI는 비동기 처리를 지원하여 높은 성능을 제공하고, 타입 검사 및 자동화된 API 문서 생성을 통해 개발자가 빠르게 효율적인 RESTful API를 구축할 수 있도록 돕습니다. Uvicorn은 경량의 웹 서버로, FastAPI와 같은 비동기 웹 프레임워크에서 높은 성능의 API를 실행하고 배포할 수 있도록 해줍니다. 추후에 s..

데이터 엔지니어링 정복/Python 2025. 5. 20. 16:40

[Spark] Spark Streaming (DStreams) 기본 개념

공식 문서를 번역한 글입니다. 버전은 Spark 3.5.5 기준https://spark.apache.org/docs/latest/streaming-programming-guide.html 1. Note이제는 Spark Streaming은 레거시이고 사용되지 않는다.신 Spark Structured Streaming가 사용된다.프로그래밍 가이드는 아래를 참고한다.https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 2. Overview다양한 소스(ex: Kafka, Kinesis, TCP sockets, ETC)에서 오는 실시간성 데이터들을 복잡한 알고리즘이나 여러가지 Functions들(ex: map, reduc..

데이터 엔지니어링 정복/Spark 2025. 4. 23. 16:56

[Spark] 자주 사용하는 PySpark 코드들을 정리하자!

pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..

데이터 엔지니어링 정복/Spark 2025. 4. 22. 14:03

Prev 1 2 3 Next

목록Spark (10)

지구정복

티스토리툴바