구조적 API 기본 연산¶DataFrame은 Row 타입의 레코드(Record)와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼(Column)으로 구성됩니다. 스키마(Schema)는 각 컬럼명과 데이터타입을 정의합니다. DataFrame의 파티셔닝(Partitioning)은 DataFrame이나 Dataset이 클러스터에서 물리적으로 배치되는 형태를 정의합니다. 파티셔닝 스키마(Partitioning Schema)는 파티션을 배치하는 방법을 정의합니다. 파티셔닝의 분할 기준은 특정 컬럼이나 비결정론적인 값을 기반으로 설정할 수 있습니다. 우선 DataFrame을 생성합니다. In [4]: df = spark.read.format("json").load("./data/flight-data/json/..
구조적 API: DataFrame, SQL, Dataset¶ 구조적 API(Structured API)는 비정형 로그파일로부터 반정형 CSV파일, 정형적인 Parquet 파일까지 다양한 데이터를 처리할 수 있다. 구조적 API에는 다음과 같은 3가지 분산 컬렉션 API가 있습니다. Datasets DataFrames SQLtables and Views 배치(Batch)와 스트리밍(Streaming) 처리에 구조적 API를 사용할 수 있습니다. 구조적 API를 활용하면 배치 작업을 스트리밍 작업으로 손쉽게 변환할 수 있습니다. 구조적 API는 데이터 흐름을 정의하는 기본 추상화 개념입니다. 타입형, 비타입형 API 의 개념과 차이점 핵심 용어 스파크가 구조적 API의 데이터 흐름을 해석하고 클러스터에서 실..
3장. 스파크 기능 둘러보기¶이 장에서는 다음과 같은 내용을 설명합니다. spark-submit 명령으로 운영용 어플리케이션 실행 Dataset: 타입 안정성(typr-safe, 타입 세이프)를 제공하는 구조적 API 구조적 스트리밍 머신 러닝과 고급 분석 RDD : 스파크의 저수준 API SparkR 서드파티 패키지 에코 시스템 3.1. 운영용 애플리케이션 실행하기¶스파크를 사용하면 빅데이터 프로그램을 쉽게 개발할 수 있습니다.spark-submit 명령을 사용해 대화형 셸에서 개발한 프로그램을 운영용 애플리케이션으로 쉽게 전환할 수 있습니다. spark-submit 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 합니다. 실행에 필요한 자원과 실행방식, 다양한 옵션을 지정할 수 있습니다..
1장. 아파치 스파크란¶ 아파치 스파크는 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합입니다. 스파크는 널리 쓰이는 파이썬, 자바, 스칼라, R 을 지원하고 SQL 뿐만 아니라 스트리밍, 머신러닝에 이르기 까지 넓은 범위의 라이브러리를 제공합니다. 스파크는 저장소 시스템의 데이터를 연산하는 역할 스파크는 데이터 저장 위치에 관계 없이 처리에 집중하게 만들어졌습니다. (자바 8이어야 돌아감. 파이썬 3.9이하여야한다는 썰이 많음) 2장. 스파크 간단히 살펴보기¶ 2.1. 스파크 기본 아키텍처¶ 컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만듭니다. 컴퓨터 클러스터에서 작업을 조율하는프레임워크가 바로 "스파크"입니다. 스파크는 클러스터의 데..
데이터 분석을위한 Python , 2nd Edition, Wes McKinney (O'Reilly) Data Science from Scratch , 2nd Edition, by Joel Grus (O'Reilly) Andreas C. Müller와 Sarah Guido (O'Reilly)의 Python 을 사용한 기계 학습 소개 Aurélien Géron (O'Reilly)의 Scikit-Learn, Keras, TensorFlow 2nd Edition을 사용한 실습 머신 러닝 Kubernetes : Brendan Burns et al. (오라일리) Holden Karau 외 학습 Spark (오라일리) 기계 학습 을 위한 기능 엔지니어링 ( Alice Zheng 및 Amanda Casari (O'Re..
1장 . 프로덕트 오너는 미니 CEO 이다. PO 는 중심에 있다. 독재자형 리더는 안된다. 책임은 있지만, 권한은 없다. TIP . PO 가 되기 위해 필요한 자질 2장. 고객의 목소리를 어디까지 반영할 것인가 고객은 제품을 사지 않는다. 고용한다. 서비스 하나여도 사용자 유형은 다양하다. 모든 사람들을 만족시킬 수 없다. 식스 페이저로 모두의 동의를 얻어 기록하라. 고객의 요청과 회사가 정한 목표가 충돌한다면 tip2. 페르소나와 고객을 혼동하지 마라. 3장. 데이터 속에서 진실을 차는 법 자신을 믿지 말고 데이터를 신뢰하라. 대시보드를 통해 정기적으로 확인하라. 행동을 부르지 않은 데이턴, 버린다.
보호되어 있는 글입니다.
사람을 사랑한 기술 기계어에서 객체 지향 프로그래밍 언어로 SOA(Service Oriented Architecture): 기존 서비스를 조합해 하나의 업무를 구현한다.( 소프트웨어의 재사용성과 레고 웨어의 연장선)(=서비스 지향 개발) CBD 개발_방법론(Component Based Development)이란 사용 기능한 *_컴포넌트의 개**발 또는 상용 컴포넌트를 조합해 애플리케이션 _개발_생산성과 품질을 높인다.( = 블록화 개발) 기계어 어셈블리어 C 언어 개발자 코딩 0과 1 일상 단어 수학적 기호 소스 파일 기종별 기종별 단 하나 목적 파일(기계어) 소스 그 자체 어셈블러로 번역 컴파일러 번역 기계어 비교 기계어와 1대1 대응 기계어와 m 대 n 대응 c++ 은 c 에 객체 지향 개념을 도입하..
- Total
- Today
- Yesterday
- 자스계의백과사전
- 디비
- 파이참
- CKA
- 배포
- 주피터노트북 설치
- 환경세팅
- AWS
- 참고 링크
- 크론탭
- 언제나 함께해요
- 자바인강
- hot
- 스프링 프레임워크 핵심 기술
- 자바 인강
- https://cupjoo.tistory.com/96
- 패스트캠퍼스
- 유용한웹사이트
- vim
- 마크다운
- 쉘스크립트
- linter
- 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
- 세션불일치
- EC2
- 쿠버네티스
- 자바
- pycharm
- 패스트 캠퍼스
- django
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |