일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Kafka
- 자바
- 백준
- 코테
- 용인맛집
- HIVE
- apache iceberg
- 코엑스맛집
- Trino
- bigdata engineer
- Data Engineer
- pyspark
- hadoop
- bigdata engineering
- 개발
- 코딩
- 삼성역맛집
- 프로그래머스
- Iceberg
- 여행
- 맛집
- Apache Kafka
- 알고리즘
- 코딩테스트
- java
- 영어
- Data Engineering
- BigData
- Spark
- Linux
- Today
- Total
목록BigData (43)
지구정복

슈퍼셋에 트리노 연동해서 사용중인데아래와 같이 트리노 쿼리 실행하면 30초안에 timeout발생하는 이슈 발생 trino error: the query exceeded the 30 seconds timeout this may be triggered by Issued 1002 - the database returned an unexpected error 참고: https://community.cloudera.com/t5/Support-Questions/Superset-timeout-issue-of-30-sec-restarted-Superset-service/td-p/303388 Ambari Superset에서 아래 설정들을 해줘야한다.Ambari를 사용하지 않으면 superset_config.py에 추가..
먼저 airflow 가 사용하는 Python의 pip로 해당 패키지 설치# /airflow/.pyenv/versions/3.7.11/envs/venv/bin/pip3 install apache-airflow-providepypi repo로 설치가 안되면 수동설치해야한다. 그리고 아래와 같이 사용한다.from airflow import DAGfrom airflow.providers.apache.sqoop.operators.sqoop import SqoopOperatorfrom datetime import datetime default_args = { 'owner': 'airflow', 'start_date': datetime(2022, 1, 1),} with DAG( dag_id='sqoo..
spark 3.4.1 내부적으로 브로드캐스트 조인시에 브로드캐스트될 테이블이 너무 클 경우 아래 에러가 발생한다.Traceback (most recent call last): File "", line 1, in File "/usr/my/current/spark3-client/python/pyspark/sql/session.py", line 1440, in sql return DataFrame(self._jsparkSession.sql(sqlQuery, litArgs), self) File "..
iceberg 1.3.1spark 3.4.1hive 3.1.3 rewrite_manifest call procedure사용하다가 아래 에러 발생.25/07/01 00:09:18 INFO BaseMetastoreTableOperations: Refreshing table metadata from new version: hdfs://nameservice1/user/hive/warehouse/iceberg_test_db.db/my_test2/metadata/647318-e501c610-fe41-4a9a-bed0-7f10deec9c2b.metadata.json Traceback (most recent call last): File "/home/airflow_dags/src/pyspark/iceberg/Iceb..