일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Kafka
- Data Engineering
- 삼성역맛집
- 개발
- 코딩
- 자바
- 프로그래머스
- Linux
- 알고리즘
- apache iceberg
- HIVE
- 백준
- 맛집
- 영어
- Data Engineer
- bigdata engineer
- Trino
- 코딩테스트
- Spark
- 여행
- BigData
- 용인맛집
- Iceberg
- pyspark
- 코엑스맛집
- Apache Kafka
- hadoop
- 코테
- bigdata engineering
- java
- Today
- Total
목록BigData (39)
지구정복
현재 python3.8을 사용중이고, Trino의 정보는 다음과 같다. -ssl 적용된 trino ssl pam파일 위치: /bigdata/hue/trino_ca_250408.pem host: my00mn001:9998 admin_user: trino user_password: MyPassword!23 먼저 사용하는 Python에 pip package를 설치한다.pip38 install trino 파이썬에서 아래와 같이 사용한다.이때 ssl을 사용하니 .pem파일이 정확히 해당 위치에 존재해야하고 read권한이 있어야한다.from trino.dbapi import connectfrom trino.auth import BasicAuthenticationconn = connect( host='my..
#모든 인덱스들 조회curl "http:// solr_hostname>:8886/solr/admin/collections?action=LIST&wt=json"{ "responseHeader":{ "status":0, "QTime":0}, "collections":["ranger_audits"]} #특정 인덱스의 field 정보 출력curl "http:// solr_hostname>:8886/solr/ranger_audits/schema/fields?wt=json&showDefaults=true" #전체 데이터 개수 확인curl "http:// solr_hostname>:8886/solr/ranger_audits/select?q=*:*&rows=0" #데이터 1개만 출력curl "htt..

1. 현상 및 원인Infra Solr는 주로 Ranger/HDFS/Yarn의 audit로그를 저장하기 위해 사용된다.우리는 Ranger의 audit로그를 위해서 사용중이다. 하지만 ranger audit로그가 많이 쌓이다보니 infra solr의 data dir가 너무 용량을 많이 차지하는 이슈가 있었다.설정이름: infra_solr_datadir 방법은 두 가지가 있다. 1) infra_solr_datadir해당 경로를 디스크 공간이 많은 곳으로 옮겨준다.2) Ranger에서 ranger_audit_max_retention_days 기간을 줄여준 뒤 Lucene API로 직접 데이터 삭제한다. 2. 해결2.1. infra_solr_datadir 경로 변경아래 순서로 진행 -Infra Solr 중지-i..
1. 설치https://wikidocs.net/book/8531위 참고 책을 참고하면 가상환경에 FastAPI사용하는데 가상환경을 사용하면 스파크 사용시 가상환경 파이썬을 배포해줘야하니 일단 편의상 가상환경을 사용하지 않고 바로 서버에 설치하고 사용해본다. 먼저 Fastapi와 uvicorn 파이썬 패키지를 웹서버 띄울 서버에 설치해준다.여기선 gn001서버에 설치한다. FastAPI는 비동기 처리를 지원하여 높은 성능을 제공하고, 타입 검사 및 자동화된 API 문서 생성을 통해 개발자가 빠르게 효율적인 RESTful API를 구축할 수 있도록 돕습니다. Uvicorn은 경량의 웹 서버로, FastAPI와 같은 비동기 웹 프레임워크에서 높은 성능의 API를 실행하고 배포할 수 있도록 해줍니다. 추후에 s..