NVIDIA acelera Apache Spark, a melhor plataforma de análise de dados do mundo

  • A Comunidade de Código Aberto acelera a Spark 3.0 com suporte nativo para GPU NVIDIA;
  • Processamento de ETL e SQL ultrarrápido com centenas de terabytes de dados;
  • Adobe atinge aceleração de sete vezes no treinamento de modelo com Spark 3.0 em Databricks

Santa Clara, Califórnia, GTC 2020, 14 de maio de 2020 - A NVIDIA Enterprise anuncia que está colaborando com os líderes da comunidade de código aberto para disponibilizar a aceleração de GPU de ponta a ponta pela Apache Spark 3.0, um mecanismo de análise para processamento de dados muito usado por mais de 500 mil cientistas de dados no mundo todo.

Com o tão aguardado lançamento da Spark 3.0, pela primeira vez, os cientistas de dados e engenheiros de machine learning poderão aplicar uma aceleração de GPU revolucionária para as cargas de trabalho de processamento de dados de ETL (extract, transform and load | extrair, transformar e carregar, em português) amplamente conduzida com o uso de operação de bancos de dados SQL.

Em outro feito inédito, o treinamento de modelos de IA poderá ser processado no mesmo cluster da Spark, em vez de executar as cargas de trabalho como processos separados em infraestruturas separadas. Isso possibilita a análise de dados de alto desempenho em todo o pipeline de ciência de dados, acelerando de dezenas a milhares de terabytes de dados, do data lake ao treinamento de modelos, sem qualquer alteração no código existente utilizado para aplicações da Spark executados em instalações e na nuvem.

“A análise de dados é o maior desafio da computação de alto desempenho que as empresas e pesquisadores de hoje enfrentam”, afirma Manuvir Das, chefe de Enterprise Computing da NVIDIA. “A aceleração nativa da GPU para todo o pipeline do Spark 3.0 - do ETL ao treinamento e à inferência - fornece o desempenho e a escala necessários para finalmente conectar o potencial de big data com o poder da IA.”

“Spark 3.0 é mais um grande avanço para aprimorar a análise de dados e economizar no tempo necessário e nos custos. Será uma grande adição ao trabalho dos cientistas brasileiros e em toda América Latina”, explica Marcio Aguiar, gerente sênior da NVIDIA Enterprise para América Latina.

Aproveitando sua parceria de IA estratégica com a NVIDIA, a Adobe é um dos inovadores que tem trabalhado com uma versão de visualização da Spark 3.0 em execução no Databricks. A Adobe atingiu uma melhoria de desempenho sete vezes superior e uma economia de custos de 90% em um teste inicial, usando análise de dados acelerada por GPU para desenvolvimento de produtos no Adobe Experience Cloud e recursos de suporte que impulsionam os negócios digitais.

Os ganhos de desempenho no Spark 3.0 aprimoram a precisão do modelo, permitindo que os cientistas treinem modelos com conjuntos de dados maiores e retreinem com mais frequência. Isso torna possível processar terabytes de novos dados todos os dias, o que é fundamental para os cientistas de dados que oferecem suporte a sistemas de recomendação on-line ou analisam novos dados de pesquisa. Além disso, um processamento mais rápido significa que são necessários menos recursos de hardware para fornecer resultados, proporcionando uma economia significativa de custos.

“Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com o Spark em CPUs”, explica William Yan, diretor sênior de machine learning na Adobe. “Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por IA em nosso conjunto completo de aplicações Adobe Experience Cloud.”

Databricks e a NVIDIA trazem mais velocidade para a Spark

A Apache Spark foi originalmente criada pelos fundadores do Databricks, cuja plataforma unificada de análise de dados com base na nuvem é executada em mais de um milhão de máquinas virtuais todos os dias. A NVIDIA e o Databricks também têm colaborado para otimizar o pacote de software RAPIDS™ para o Databricks, levando a aceleração da GPU às cargas de trabalho de ciência de dados e machine learning executadas no Databricks nos setores de saúde, finanças, varejo e muitos outros.

“Nosso trabalho contínuo com a NVIDIA melhora o desempenho com otimizações de RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe”, conta Matei Zaharia, criador original do Apache Spark e tecnólogo chefe da Databricks. “Essas contribuições levam a pipelines de dados, treinamento e pontuação de modelos mais rápidos, que se traduzem diretamente em mais descobertas e insights para a nossa comunidade de engenheiros de dados e cientistas de dados.”

Transferências de dados e ETL mais rápidos na Spark com as GPUs NVIDIA

A NVIDIA está contribuindo para um novo acelerador RAPIDS™ de código aberto para a Apache Spark para ajudar os cientistas de dados a aumentar o desempenho de seus pipelines de ponta a ponta. O acelerador intercepta as funções operadas anteriormente pelas CPUs e, em vez disso, utiliza GPUs para:

    • Acelerar os pipelines de ETL na Spark, melhorando consideravelmente o desempenho das operações de Spark SQL e DataFrame sem precisar de alterações de código.
    • Acelerar a preparação de dados e o treinamento de modelos no mesmo conjunto de infraestruturas, em que um cluster separado não é necessário para machine learning e deep learning.
    • Acelerar o desempenho da transferência de dados em nós em um cluster distribuído da Spark. Essas bibliotecas utilizam a estrutura de código aberto UCX (Unified Communication X) e minimizam a latência, permitindo que os dados se movimentem diretamente entre a memória da GPU.

Uma versão de visualização do Spark 3.0 está disponível agora pela Apache Software Foundation, com uma disponibilidade geral esperada nos próximos meses. Para obter mais informações, acessehttps://www.nvidia.com/pt-br/deep-learning-ai/solutions/data-science/apache-spark-3/.

Sobre a NVIDIA

Com a invenção da GPU pela NVIDIA (NASDAQ: NVDA), em 1999, redefinimos os gráficos de computadores modernos e revolucionamos a computação paralela. Mais recentemente, o deep learning com base em GPU deu início à inteligência artificial moderna — a próxima era da computação — com a GPU atuando como o cérebro dos computadores, robôs e carros autônomos que podem perceber e compreender o mundo. Saiba mais emhttp://nvidianews.nvidia.com/

Acesse também:

Site oficial da NVIDIA no Brasil: https://www.nvidia.com/pt-br/

Facebook: @NVIDIABrasil

Twitter: @NVIDIABrasil

 Informações para a Imprensa:

Sing Comunicação de Resultados

14/05/2020

# # #

Certas declarações neste comunicado à imprensa, incluindo, entre outras, declarações sobre: NVIDIA e a comunidade de código aberto que colaboram e aceleram o Apache Spark; o lançamento antecipado do Spark 3.0 e permite a aceleração da GPU para cargas de trabalho de processamento de dados ETL usando operações de banco de dados SQL; Treinamento do modelo de IA capaz de ser processado no cluster Spark e permitindo análises de dados de alto desempenho; os benefícios, desempenho e habilidades de nossos produtos e tecnologias, incluindo aceleração de GPU para Spark 3.0; a análise de dados é o maior desafio de computação de alto desempenho e a aceleração nativa da GPU para o pipeline Spark 3.0, capaz de oferecer o desempenho e a escala necessários para conectar grandes dados à IA; o desempenho e os benefícios da Adobe trabalhando com o Spark 3.0 em execução no Databricks, inclusive com o RAPIDS; O Spark 3.0 permite que os cientistas treinem modelos com conjuntos de dados maiores, treinem novamente os modelos com mais freqüência, processem terabytes de dados, exigindo menos recursos de hardware para fornecer resultados e economia de custos; as novas possibilidades que se abrem para recursos orientados por IA nos aplicações Adobe Experience Cloud baseados no Spark 3.0 acelerado pela NVIDIA; os benefícios e desempenho das contribuições da NVIDIA para o RAPIDS Accelerator de código aberto do Apache Spark; e a disponibilidade do Spark 3.0 são declarações prospectivas sujeitas a riscos e incertezas que podem levar a resultados materialmente diferentes das expectativas. Fatores importantes que podem causar resultados reais diferentes materialmente incluem: condições econômicas globais; nossa confiança em terceiros para fabricar, montar, embalar e testar nossos produtos; o impacto do desenvolvimento tecnológico e da concorrência; desenvolvimento de novos produtos e tecnologias ou aprimoramentos de nossos produtos e tecnologias existentes; aceitação no mercado de nossos produtos ou produtos de nossos parceiros; defeitos de projeto, fabricação ou software; mudanças nas preferências ou demandas dos consumidores; mudanças nos padrões e interfaces da indústria; perda inesperada de desempenho de nossos produtos ou tecnologias quando integrada aos sistemas; bem como outros fatores detalhados de tempos em tempos nos relatórios mais recentes que a NVIDIA arquiva com a Securities and Exchange Commission, ou SEC, incluindo, entre outros, seu relatório anual no Formulário 10-K e relatórios trimestrais no Formulário 10-Q . Cópias dos relatórios arquivados na SEC são publicadas no site da empresa e estão disponíveis gratuitamente na NVIDIA. Essas declarações prospectivas não são garantias de desempenho futuro e são válidas apenas até a presente data e, exceto conforme exigido por lei, a NVIDIA se isenta de qualquer obrigação de atualizar essas declarações prospectivas para refletir eventos ou circunstâncias futuras.

© 2020 NVIDIA Corporation. Todos os direitos reservados. NVIDIA, o logotipo NVIDIA e RAPIDS são marcas comerciais e/ou marcas comerciais registradas da NVIDIA Corporation nos EUA e em outros países. Outros nomes de empresas e produtos podem ser marcas comerciais das respectivas empresas às quais estão associados. Recursos, preços, disponibilidade e especificações estão sujeitos a alterações sem aviso prévio.

 
What do you want to do ?
New mail

Também encontrado em: