intro 요즘 스파크 관련해서 빅데이터에 눌린 삶을 살고 있는데,, 스파크 튜닝에 대해 좀 더 자세히 알고자 이 글을 작성해보았습니다. 한달 정도 고통받고 있는 것 같은데, 스파크에 대한 고찰은 상당히 많이 하고 있는 것같아요. 이 글은 내가 언제 보게 되는것일까? 내 스파크 드라이버에서 제공하는 memory, executor 수의 최고점을 알게됐을때, 익스큐터가 더이상 작업 노동자로 보이지 않고, 통신노드로 보일때, 갑자기 spark 익스큐터가 자바이길 포기할때 보면된다. (TB 이상의 데이터를 사용한다면이라는 말과 동일하다.) 우선 우리는 바보가 아니기 때문에 넓은 기간의 데이터를 한 번에 처리하는 것이 아니라, 단기간의 데이터를 먼저 처리하는 것에 성공하고, 이후에 기간을 배수로 처리하고자 할 것..
intro Spark Join전략과 hint라는 주제로 공부를 해보았습니다. 광대한 스파크 세계.. 아직도 너무 모르는게 많네요, 열심히 공부해야겠습니다. -- apache spark 에서 가장 자주 사용되는 변환 중 하나는 join 작업이다. apache spark 에서의 join은 개발자가, 키를 기반으로 두 개 이상의 데이터 프레임을 결합할 수 있게 한다. join 동작 구문은 단순하지만, 그 뒤에 동작하는 내용이 손실되는 경우가 왕왕있다. 내부적으로 apache spark 는 join 알고리즘을 제안해, 그 중 하나(BroadcastHash Join, Sort Merge Join, Shuffle Hash Join,Cartesian Product (=shuffle_replicate_nl))를 선택하..
서론 DataSet을 dataFrame 처럼, 바로 구글링 해서 이용하려고 했더니, 했더니, datafram 이 완벽 호환 되는 개념이 아니라, 써야하는 조인연산, 필터 연산이 너무 달라지는 것 같아 당황해서 롤백한 적이 있습니다. (아마, group 연산을 진행하면서 그렇게 느꼈던 것 같아요.) 한 번 dataframe 과 무슨 차이인지, 배워보려합니다! 고정관념 DataSet vs dataframe vs rdd 속도차이는, 빌드 타임에 DataSet 이 정의되니까 어찌되었던 빠를 것이다. (⇒ 연산에 따라 달라진다.) DataFrame 이랑 동일하게 api 를 이용할 것이다 (⇒ 맞다.) 궁금증 느린데, 왜 만든 것 일까? ⇒ 이용하는 시기 부분에 등장하지만, 타입 안정성을 요구하는 경우를 위해 만든..
안녕하세요~ 이번에는 스파크 공부하면서, 역시 공부 시작은 시초논문이지🧐 하면서 Spark: Cluster Computing with Working Sets 논문 내용 정리와 개인적인 결론(사견) 을 넣어보았습니다. 개인적으로 스파크의 사용법과 메모리 관리에만 신경을 썼었는데, 스파크를 왜 만들었는지에 대한 정수를 이해하게 되는 기분이었습니다. 스파크 이용자라면, 한번쯤 읽어봤거나, 읽어보거나, 저의 블로그를 한번 읽어보시면 좋을거같아요 ☺️ 이 글이 즐거웠거나.. 이 친구 열심히 했자낭...하면 광고 한번 눌러주세요! 내가 생각하는 결론 맵리듀스 사용자 모아놓고 불편해서 내가 이렇게 만들었다! 라는 생각이 시초였던 것같음. 맵리듀스 캐싱을 위한 rdd라는 개념의 도입 +(shared variable )..
- Total
- Today
- Yesterday
- 파이참
- 쿠버네티스
- linter
- vim
- 자바인강
- django
- 참고 링크
- 자스계의백과사전
- EC2
- pycharm
- AWS
- 크론탭
- 주피터노트북 설치
- 패스트 캠퍼스
- 배포
- 세션불일치
- 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
- 마크다운
- 언제나 함께해요
- 자바 인강
- 유용한웹사이트
- 쉘스크립트
- 환경세팅
- 패스트캠퍼스
- 자바
- 디비
- hot
- https://cupjoo.tistory.com/96
- 스프링 프레임워크 핵심 기술
- CKA
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |