spark scala 예제

스칼라는 순수한 기능언어가 아닙니다. 하스켈은 순수한 기능언어의 한 예입니다. 함수형 프로그래밍에 대한 자세한 내용을 보려면 이 문서를 참조하십시오. 아파치 스파크에서 스칼라는 데이터 과학을 위한 PySpark보다 더 많은 라이브러리를 보유하고 있습니다. 그러나 파이썬을 단독으로 비교하려면 확실히 파이썬은 데이터 과학을위한 더 많은 라이브러리를 가지고 있습니다. MLlib는 분류, 회귀, 클러스터링, 협업 필터링 등을 위해 클러스터에서 확장하도록 설계된 다양한 알고리즘을 제공하는 기계 학습 라이브러리입니다(기계 학습에 대한 Toptal의 기사에서 자세한 내용은 주제)를 참조하십시오. 이러한 알고리즘 중 일부는 일반 최소 제곱또는 k-평균 클러스터링을 사용하는 선형 회귀와 같은 스트리밍 데이터에서도 작동합니다(그리고 그 이상). 아파치 마호(Hadoop용 머신 러닝 라이브러리)는 이미 MapReduce에서 외면하고 스파크 MLlib에 힘을 합쳤습니다. 위의 프로그램에서는 먼저 10 개의 요소에 대한 배열을 만든 다음 “병렬화”방법을 사용하여 해당 배열에서 RDD라는 분산 데이터를 만들었습니다. SparkContext에는 드라이버 프로그램에 이미 있는 이터런 에서 스파크 RDD를 만드는 데 사용되는 병렬화 메서드가 있습니다.

기본적으로 변환된 각 RDD는 작업을 실행할 때마다 다시 계산될 수 있습니다. 그러나 지속 또는 캐시 메서드를 사용 하 여 메모리에 RDD를 유지할 수도 있습니다., 이 경우 Spark 는 다음에 쿼리할 때 훨씬 더 빠른 액세스를 위해 클러스터의 요소를 유지 합니다. 아파치 스파크 API에서 지원하는 4 가지 주요 언어를 비교해 보겠습니다. 예제 응용 프로그램은 표준 MapReduce 예제인 WordCount의 향상된 버전입니다. WordCount의이 버전에서 목표는 코퍼스에서 가장 인기있는 단어의 문자 분포를 배우는 것입니다. 응용 프로그램: 스파크는 컴퓨팅 집약적인 작업에도 사용할 수 있습니다. 이 코드는 원에서 “다트를 던지다”로 π를 추정합니다. 단위 정사각형(0, 0)에서 (1,1))까지 임의의 점을 선택하고 단위 원에서 얼마나 많은 가을을 볼 수 있는지 확인합니다. 분수는 π / 4이어야하므로 이를 사용하여 추정치를 얻습니다. 이 자습서는 Scala와 같은 프로그래밍 언어에 관계없이 스파크 및 스파크 에코시스템에 대한 일반적인 이해를 가정합니다. 아파치 스파크를 신이라면, 추천경로는 위쪽에서 시작하여 아래쪽으로 내려가는 것입니다. 설치가 성공적으로 완료된 경우 위의 명령이 스칼라에서 아파치 스파크를 시작합니다.

야, 이것은 경이롭습니다! 그것은 스파크가 무엇인지 매우 공정한 아이디어를 제공합니다 – SCALA 다음 스칼라 스파크 튜토리얼은 더 구체적인 사용 사례에 이전에 적용 된 주제를 기반으로 스파크는 스칼라 API와 개발자와 엔지니어를 제공합니다. 아래에 나열된 스칼라가 포함된 스파크 자습서에서는 스파크 코어, 클러스터링, 스파크 SQL, 스트리밍, 기계 학습 MLLib 등 에서 스칼라 스파크 API를 다룹니다. Spark Streaming은 프로덕션 웹 서버 로그 파일(예: 아파치 수로 및 HDFS/S3), 트위터와 같은 소셜 미디어 및 Kafka와 같은 다양한 메시징 큐와 같은 스트리밍 데이터의 실시간 처리를 지원합니다. Spark Streaming은 입력 데이터 스트림을 수신하고 데이터를 일괄 처리로 나눕니다. 다음으로, 그들은 Spark 엔진에 의해 처리 되 고 배치에서 결과의 최종 스트림을 생성, 아래 설명 된 대로. 변수에 대한 다양한 작업을 수행할 수 있습니다. 스칼라에는 다양한 종류의 연산자가 정의되어 있습니다. 예: 산술 연산자, 관계형 연산자, 논리 연산자, 비트방향 연산자, 할당 연산자.

@Hardik 데이브 아마 세 가지 최고의 자원은 아파치 스파크 프로그래밍 가이드가 될 것입니다 [1], 이는 스파크 쉘 또는 스칼라에서 Zeppelin 노트북에서 실행할 수있는 많은 예를 배치, 파이썬 또는 자바, HDP 스파크 자습서 [2], 그리고 GitHub의 예제 프로그램 [3].