본문 바로 가기

로고

국내 최대 정보 기계·건설 공학연구정보센터
통합검색 화살표
  • ProJet 2500
  • 추천서적

    연구동향집 이미지

    대용량 머신 러닝과 스파크

    레자울 카림 , 마헤디 카이저|2018.07.16

    1장. 스파크를 이용한 데이터 분석의 개요 
    __스파크 개요 
    ____스파크의 기본 사항 
    ____스파크의 장점 
    __스파크를 사용한 새로운 컴퓨팅 패러다임 
    ____전통적인 분산 컴퓨팅 
    ____코드에서 데이터로의 이동 
    ____RDD: 새로운 컴퓨팅 패러다임 
    __스파크 에코시스템 
    ____스파크 코어 엔진 
    ____스파크 SQL 
    ____데이터프레임과 데이터셋 통합 
    ____스파크 스트리밍 
    ____그래프 계산: GraphX 
    ____머신 러닝과 스파크 ML 파이프라인 
    ____통계 계산: 스파크R 
    __스파크 머신 러닝 라이브러리 
    ____스파크를 이용한 머신 러닝 
    ____스파크 MLlib 
    ____스파크 ML 
    __스파크 설치와 시작하기 
    __종속성을 사용해 애플리케이션 패키징 
    __샘플 머신 러닝 애플리케이션 실행 
    ____스파크 셸에서 스파크 애플리케이션 실행 
    ____로컬 클러스터에서 스파크 애플리케이션 실행 
    ____EC2 클러스터에서 스파크 애플리케이션 실행 
    __참고 문헌 
    __요약 

    2장. 머신 러닝 모범 사례 
    __머신 러닝이란? 
    ____현대 문헌에서의 머신 러닝 
    ____일반적인 머신 러닝 워크플로우 
    __머신 러닝 작업 
    ____지도 학습 
    ____비지도 학습 
    ____강화 학습 
    ____추천 시스템 
    ____준지도 학습 
    __실제 머신 러닝 문제 
    ____머신 러닝 클래스 
    ____규칙 추출과 회귀 
    __가장 널리 사용하는 머신 러닝 문제 
    __스파크 대규모 머신 러닝 API 
    ____스파크 머신 러닝 라이브러리 
    __실용적인 머신 러닝 우수 사례 
    ____ML 애플리케이션 개발 전의 우수 사례 
    ____ML 애플리케이션 개발 후 모범 사례 
    __애플리케이션에 알맞은 알고리즘 선택 
    ____알고리즘을 선택할 때 고려 사항 
    ____알고리즘을 선택할 때 데이터를 함께 고려하기 
    ____널리 사용하는 ML 알고리즘에 대한 참고 사항 
    __요약 

    3장. 데이터 이해를 통한 문제 이해 
    __데이터 분석 및 준비 
    ____데이터 준비 프로세스 
    __탄력적 분산 데이터셋의 기본사항 
    ____데이터셋 읽기 
    ____RDD로 사전 처리 
    ____키와 값의 쌍으로 작업하기 
    ____변환에 대한 추가 정보 
    __데이터셋 기본 사항 
    ____데이터셋을 생성하기 위해 데이터셋 읽기 
    ____데이터셋으로 사전 처리 
    ____데이터셋 조작에 대한 추가 정보 
    ____자바빈에서 데이터셋 생성 
    __문자열과 타입 클래스에서 데이터셋 생성 
    ____RDD, DataFrame, Dataset 간의 비교 
    __스파크와 데이터 과학자 워크플로우 
    __스파크에 대해 좀 더 깊게 살펴보기 
    ____공유 변수 
    __요약 

    4장. 피처 엔지니어링을 통한 지식 추출 
    __피처 엔지니어링의 최첨단 기술 
    ____피처 추출 vs. 피처 선택 
    ____피처 엔지니어링의 중요성 
    ____피처 엔지니어링과 데이터 탐색 
    ____피처 추출: 데이터에서 피처 생성 
    ____피처 선택: 데이터에서 필터링 피처 
    __피처 엔지니어링의 모범 사례 
    ____데이터 이해 
    ____혁신적인 피처 추출 방법 
    __스파크로 피처 엔지니어링 
    ____머신 러닝 파이프라인: 개요 
    ____파이프라인: 스파크 ML 예제 
    ____피처 변환, 추출, 선택 
    __고급 피처 엔지니어링 
    ____피처 구성 
    ____피처 학습 
    ____피처 엔지니어링의 반복 프로세스 
    ____딥러닝 
    __요약 

    5장. 예제로 보는 지도 및 비지도 학습 
    __머신 러닝 클래스 
    ____지도 학습 
    __스파크를 이용한 지도 학습: 사례 
    ____스파크를 이용한 항공기 지연 분석 
    __비지도 학습 
    ____비지도 학습 사례 
    __추천 시스템 
    ____스파크에서 협업 필터링 
    __고급 학습과 일반화 
    ____지도 학습의 일반화 
    __요약 

    6장. 확장 가능한 머신 러닝 파이프라인 빌드 
    __스파크 머신 러닝 파이프라인 API 
    ____데이터셋 추상화 
    ____파이프라인 
    __스파크를 사용한 암 진단 파이프라인 
    ____스파크를 사용한 유방암 진단 파이프라인 
    __스파크를 사용한 암 예후 파이프라인 
    ____데이터셋 탐색 
    ____스파크 ML/MLlib를 사용한 유방암 예후 파이프라인 
    __스파크 코어를 이용한 장바구니 분석 
    ____배경 
    ____동기 
    ____데이터셋 탐색 
    ____문제 설명 
    ____스파크를 이용한 대규모 장바구니 분석 
    ____스파크 코어를 사용한 알고리즘 솔루션 
    ____SAMBA에서 올바른 매개변수의 튜닝과 설정 
    __스파크를 이용한 OCR 파이프라인 
    ____데이터 탐색과 준비 
    ____스파크 ML과 스파크 MLlib를 사용한 OCR 파이프라인 
    __스파크 MLlib와 ML을 사용한 토픽 모델링 
    ____스파크 MLlib를 사용한 토픽 모델링 
    ____확장성 
    __스파크를 사용한 신용 위험 분석 파이프라인 
    ____신용 위험 분석이란? 왜 중요한가? 
    ____스파크 ML을 이용한 신용 위험 분석 개발 
    ____스파크 ML을 사용한 신용 위험 파이프라인 
    __ML 파이프라인 확장 
    ____크기의 중요성 
    ____크기 vs. 왜곡 고려 사항 
    ____비용과 인프라 
    __조언 및 성능 고려 사항 
    __요약 

    7장. 머신 러닝 모델 튜닝 
    __머신 러닝 모델 튜닝에 대한 세부 사항 
    __모델 튜닝의 일반적인 문제 
    __머신 러닝 모델 평가 
    ____회귀 모델 평가 
    ____이진 분류 모델 평가 
    ____멀티클래스 분류 모델 평가 
    ____클러스터링 모델 평가 
    __유효성 검사 기술과 평가 기술 
    __머신 러닝 모델을 위한 매개변수 튜닝 
    ____초매개변수 튜닝 
    ____그리드 검색 매개변수 튜닝 
    ____랜덤 검색 매개변수 튜닝 
    ____교차 유효성 검사 
    __가설 테스트 
    ____스파크 MLlib의 ChiSqTestResult를 사용한 가설 테스트 
    ____스파크 MLlib Kolmogorov-Smirnov 테스트를 사용한 가설 테스트 
    ____스파크 MLlib의 스트리밍 유의도 검정 
    __머신 러닝 모델 선택 
    ____교차 검증 기술을 통한 모델 선택 
    ____트레이닝 유효성 검사 분할을 통한 모델 선택 
    __요약 

    8장. 머신 러닝 모델 조정 
    __머신 러닝 모델 적용 
    ____기술 개요 
    __ML 모델의 일반화 
    ____일반화된 선형 회귀 
    ____스파크를 사용한 일반화된 선형 회귀 
    __증분 알고리즘을 통한 적용 
    ____증분 서포트 벡터 머신 
    ____증분 신경망 
    ____증분 베이지안 네트워크 
    __ML 모델 재사용을 통한 적용 
    ____문제 설명과 목적 
    ____데이터 탐색 
    ____심장 질환 예측 모델 개발 
    __동적 환경에서 머신 러닝 
    ____온라인 학습 
    ____통계 학습 모델 
    ____적대 모델 
    __요약 

    9장. 스트리밍 및 그래픽 데이터를 사용한 고급 머신 러닝 
    __실시간 ML 파이프라인 개발 
    ____비구조화된 텍스트 데이터로서 스트리밍 데이터 수집 
    __시계열과 소셜 네트워크 분석 
    ____시계열 분석 
    ____소셜 네트워크 분석 
    __스파크를 사용한 영화 추천 
    ____스파크 MLlib를 사용한 모델 기반 영화 추천 
    __스트리밍에서 실시간 ML 파이프라인 개발 
    ____트위터에서 실시간 트윗 데이터 수집 
    ____8단계: 스트리밍 스위치 제어 
    __스파크를 사용한 토픽 모델링 
    __그래프 데이터와 준지도 그래프 기반 학습에 대한 ML 파이프라인 
    ____GraphX 소개 
    __요약 

    10장. 외부 라이브러리를 이용한 설정 및 작업 
    __스파크가 포함된 서드파티 ML 라이브러리 
    __스파크 코어로 외부 라이브러리 사용 
    __클라우데라 Spark-TS를 사용한 시계열 분석 
    ____시계열 데이터 
    ____Spark-TS 설정 
    ____TimeSeriesRDD 
    __RStudio로 스파크R 설정 
    __윈도우에서 하둡 런타임 설정 
    __요약

    • 페이스북아이콘
    • 트위터 아이콘

    서브 사이드

    서브 우측상단1