구조적 API: DataFrame, SQL, Dataset¶ 구조적 API(Structured API)는 비정형 로그파일로부터 반정형 CSV파일, 정형적인 Parquet 파일까지 다양한 데이터를 처리할 수 있다. 구조적 API에는 다음과 같은 3가지 분산 컬렉션 API가 있습니다. Datasets DataFrames SQLtables and Views 배치(Batch)와 스트리밍(Streaming) 처리에 구조적 API를 사용할 수 있습니다. 구조적 API를 활용하면 배치 작업을 스트리밍 작업으로 손쉽게 변환할 수 있습니다. 구조적 API는 데이터 흐름을 정의하는 기본 추상화 개념입니다. 타입형, 비타입형 API 의 개념과 차이점 핵심 용어 스파크가 구조적 API의 데이터 흐름을 해석하고 클러스터에서 실..
3장. 스파크 기능 둘러보기¶이 장에서는 다음과 같은 내용을 설명합니다. spark-submit 명령으로 운영용 어플리케이션 실행 Dataset: 타입 안정성(typr-safe, 타입 세이프)를 제공하는 구조적 API 구조적 스트리밍 머신 러닝과 고급 분석 RDD : 스파크의 저수준 API SparkR 서드파티 패키지 에코 시스템 3.1. 운영용 애플리케이션 실행하기¶스파크를 사용하면 빅데이터 프로그램을 쉽게 개발할 수 있습니다.spark-submit 명령을 사용해 대화형 셸에서 개발한 프로그램을 운영용 애플리케이션으로 쉽게 전환할 수 있습니다. spark-submit 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 합니다. 실행에 필요한 자원과 실행방식, 다양한 옵션을 지정할 수 있습니다..
1장. 아파치 스파크란¶ 아파치 스파크는 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합입니다. 스파크는 널리 쓰이는 파이썬, 자바, 스칼라, R 을 지원하고 SQL 뿐만 아니라 스트리밍, 머신러닝에 이르기 까지 넓은 범위의 라이브러리를 제공합니다. 스파크는 저장소 시스템의 데이터를 연산하는 역할 스파크는 데이터 저장 위치에 관계 없이 처리에 집중하게 만들어졌습니다. (자바 8이어야 돌아감. 파이썬 3.9이하여야한다는 썰이 많음) 2장. 스파크 간단히 살펴보기¶ 2.1. 스파크 기본 아키텍처¶ 컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만듭니다. 컴퓨터 클러스터에서 작업을 조율하는프레임워크가 바로 "스파크"입니다. 스파크는 클러스터의 데..
첫 시작은 문자 출력하기(Hello World) 고전적이지만 "hello world" 단순출력부터 시작해보자. 파일 명을 hello.sh 로 만들고 실행해보자. 안되면 퍼미션을 변경해야하는데 뭔지 모르면 chmod 700 hello.sh 를 해보다. 참고: echo : 문장을 출력하는데 자동으로 줄바꿈됨 printf: C 언어랑 비극함. 주석(Comments) # 기호로 시작하면 주석이다.마자 함수(Function) 형식은 다른 언어와 차이가 없다. 그러나 function 은 생략해도된다. 함수명을 쓰면 함수가 호출되는데, 주의할 것은 호출코드가 함수코드보다 반드시 뒤에 있어야한다. string_test(){ echo "string test" } function string_test2(){ echo "s..
데이터 분석을위한 Python , 2nd Edition, Wes McKinney (O'Reilly) Data Science from Scratch , 2nd Edition, by Joel Grus (O'Reilly) Andreas C. Müller와 Sarah Guido (O'Reilly)의 Python 을 사용한 기계 학습 소개 Aurélien Géron (O'Reilly)의 Scikit-Learn, Keras, TensorFlow 2nd Edition을 사용한 실습 머신 러닝 Kubernetes : Brendan Burns et al. (오라일리) Holden Karau 외 학습 Spark (오라일리) 기계 학습 을 위한 기능 엔지니어링 ( Alice Zheng 및 Amanda Casari (O'Re..
hadoop haddop fs 와 hdfs dfs 명령의 차이 hadoop fs fs는 로컬, HDFS 등과 같은 파일 시스템을 가르킬 수 있는 일반 파일 시스템과 관련이 있다. 따라서 로컬 FS, (S) FTP, S3와 같은 다른 파일 시스템을 처리할 때 사용할 수 있다. hadoop dfs dfs 는 HDFS에만 해당됩니다. HDFS 와 관련해 작동합니다. 이것은 더이상 사용되지 않고, 대신 hdfs dfs 를 이용해야한다. hfs dfs 두 번째 즉, HDFS와 관연된 모든 작업에서 작동하고, haddop dfs 대신 권장되는 명령어이다.
- Total
- Today
- Yesterday
- 마크다운
- 언제나 함께해요
- 패스트 캠퍼스
- 참고 링크
- 배포
- 파이참
- 쿠버네티스
- 세션불일치
- 주피터노트북 설치
- 자바
- 유용한웹사이트
- 크론탭
- django
- 자바인강
- https://cupjoo.tistory.com/96
- AWS
- pycharm
- EC2
- vim
- 디비
- 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
- linter
- 환경세팅
- 자스계의백과사전
- 쉘스크립트
- 자바 인강
- 패스트캠퍼스
- hot
- 스프링 프레임워크 핵심 기술
- CKA
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |