목록데이터 엔지니어링 정복 (374)
지구정복
1. 스택 개념 더보기 1. 스택이란 데이터를 한 쪽 끝에서만 넣고 뺄 수 있는 자료 구조이다. 큐는 대표적으로 FIFO 정책을 사용하지만 스택은 LIFO(Last In First Out) 후입선출 정책을 사용한다. 즉 가장 나중에 쌓은 데이터를 가장 먼저 제거할 수 있다. 또한 단어 그대로 쌓아 올린다는 것을 뜻한다. 2. 스택의 장단점 -장점 구조가 단순해서 구현이 쉽다. 데이터 저장/읽기 속도가 빠르다. -단점 스택에 데이터를 쌓을 수 있는 최대 범위를 미리 정해놓아야한다. 이로인해 저장 공간의 낭비가 발생할 수 있다. 3. 스택의 메서드 파이썬 리스트 기능에서 스택은 두 가지 메서드를 제공한다. - append(push) : 데이터를 집어넣기 - pop : 데이터를 빼기 4. 스택의 쓰임 - 웹브..
1. 하둡과 맵리듀스, yarn의 개념 더보기 1. hadoop 1. hdfs - 분산 저장 구조 2. mapreduce- 취합 및 분석 출처 : fniko.tistory.com/entry/Hadoop-1-%ED%95%98%EB%91%A1-%EC%86%8C%EA%B0%9C?category=512556 1. 분산시스템과 하둡 값싼 범용 컴퓨터들을 하나로 묶어 하나의 기능을 수행할 수 있는 분산환경을 구축하는 것이 하나의 좋은 컴퓨터를 사용하는 것보다 가격대비 효율이 높다. 이것의 하둡의 데이터 저장 및 처리 방법이다. 또 하나의 하둡의 특징은 데이터를 가져와서 처리하는 것이 아니라 코드를 데이터 있는 곳으로 보내서 처리한다. 하둡에서 데이터는 이미 클러스터 내에 분산되어 배치되어 있고 데이터의 연산은 실제..
하둡 사용에 앞서 가상머신에서 새로운 리눅스 서버를 만들도록 한다. 1. 리눅스 설치(가상머신 서버이름 Hadoop으로) 2. 리눅스 업데이트(yum update) 3. jdk(yum jdk) 4. c드라이브 virtual machine폴더에서 Hadoop폴더 압축하기(나중에 복습용) 1. 빅데이터의 개념과 하둡 더보기 데이터분석- 통계관련 - 표본집단 빅데이터- 저장관련 - 모집단 빅데이터 데이터분석 - 저장 / 통계 관련 - 모집단 -빅데이터관련 할 수 있는 것들 1. 빅데이터 플랫폼 구축- 저장 관련 정형 - 관계형 데이터베이스 반정형 - 몽고DB (json) 비정형 - 하둡 - 하둡 안에는 분석라이브러리도 포함되어 있다. * 에코시스템 : 하둡에 저장되어 있는 데이터를 효율적 처리해주는 시스템 2..
1. 큐(Queue)의 개념 더보기 1.1. 큐의 개념 큐란 컴퓨터의 기본적인 자료 구조의 한 가지로, 먼저 집어넣은 데이터가 가장 먼저 나오는 FIFO(First In First Out)의 구조로 데이터를 저장하는 형식이다. 이러한 큐의 적용사례로는 놀이공원에서 놀이기구를 타기 위해 기다리는 손님들, 은행 대기 고객들 등이 있다. 주로 멀티 태스킹을 위한 프로세스 스케쥴링 방식을 구현하기 위해 많이 사용된다. 1.2. 큐 관련 용어 및 종류 - enqueue : 큐에 데이터를 넣는다. - dequeue : 큐에서 데이터를 꺼낸다. 1.2.1. 큐의 종류 선형큐 (Linear Queue) : 기본적인 큐, 크기가 제한되어 있고 빈 공간을 사용하려면 모든 자료를 꺼내거나 자료를 한 칸씩 앞으로 옮겨야된다...