SlideShare a Scribd company logo
1 of 25
Download to read offline
Uma Estratégia para Representação
e Gerenciamento de Metadados em
Sistemas de Armazenamento nas
Nuvens
Centro de Informática
Universidade Federal de Pernambuco

Marco André Santos Machado
masm@cin.ufpe.br


                                     © 2012 – Marco André Machado
Agenda
•   Computação nas Nuvens
•   Armazenamento nas Nuvens
•   Metadados
•   Projeto Usto.re
•   Estado da Arte
•   Proposta
•   Cronograma


                           Status Report © 2012 - Marco André Machado   2
Universo Digital




                   Status Report © 2012 - Marco André Machado   3
Universo Digital
• Problemas
  – Processar
  – Armazenar
  – Gerenciar
  – Segurança
  – Disponibilidade




                      Status Report © 2012 - Marco André Machado   4
Computação nas Nuvens
• Definição (Vaquero, 2009)
 “Um grande conjunto de recursos virtualizados
 (como hardware, plataformas de desenvolvimento
 e/ou serviços) facilmente usáveis e acessíveis”




                               Status Report © 2012 - Marco André Machado   5
Arquitetura




              Status Report © 2012 - Marco André Machado   6
Armazenamento nas Nuvens
• Armazenamento em discos remotos
• Acesso a partir de qualquer lugar
• Benefícios:
  – Facilidade de gerenciamento
  – Custo X Benefício
  – Interrupções e manutenções
  – Catástrofes
  – Planejamento simplificado


                                  Status Report © 2012 - Marco André Machado   7
Armazenamento nas Nuvens
• Desafios
  – Segurança
  – Integridade de dados
  – Replicação de dados
  – Custos
  – Confiabilidade
  – Desempenho




                           Status Report © 2012 - Marco André Machado   8
Armazenamento nas Nuvens
• Arquitetura Genérica (Jones, 2012)
  – Alta escalabilidade
  – Multi-tenant




                             Status Report © 2012 - Marco André Machado   9
Armazenamento nas Nuvens
• Sistemas de Arquivos Distribuídos
  – Compartilhar arquivos e recursos de
    armazenamento (Levy e Silberschatz, 1990)
  – Replicação
  – Disponibilidade
  – Escalabilidade
  – Segurança
  – Metadados
  (Bzoch e Safarik, 2011)

                                Status Report © 2012 - Marco André Machado   10
Metadados
• Informações estruturadas sobre dados (Duval,
  2002)
• Atributos
  – Nome, tamanho, último acesso/modificação,
    estrutura
• Gerenciamento
  – Mais de 50% dos acessos ao sistema de arquivos
    (Roselli e Lorch, 2000)



                               Status Report © 2012 - Marco André Machado   11
Usto.re
• Evolução de um algoritmo estatístico (Duarte,
  2010)
  – Escolher peers com “perfil compatível” ->
    federações
  – Disponibilidade
• Objetivo: Prover armazenamento na nuvem
  de forma barata



                                 Status Report © 2012 - Marco André Machado   12
Arquitetura do Usto.re
• P2P híbrida (Schollmeier, 2001)
• JXTA (Gong, 2001)
  – Descobrimento de serviços
  – Mensagens
  – Organização de grupos




                                Status Report © 2012 - Marco André Machado   13
Arquitetura do Usto.re
• 3 tipos de peers:
  – Super peer
  – Peer local
  – Peer servidor e proxy




                            Status Report © 2012 - Marco André Machado   14
Usto.re
• Desafios do projeto
  – Gargalos na transferência de arquivos
  – Imprevisibilidade de desempenho
  – Armazenamento escalável
  – Escalar para diferentes cargas
  – Gerenciamento de metadados




                                 Status Report © 2012 - Marco André Machado   15
Estado da Arte
• Network File System
  – Funciona de modo stateless (Sandberg et. Al,
    1985)
• Andrew File System
  – Unidade básica de tráfego é o arquivo completo




                                 Status Report © 2012 - Marco André Machado   16
Estado da Arte
• Lustre
  – Metadados armazenados em servidores de
    metadados (MDSs) e os dados são armazenados em
    objetos (OSDs)
• ZFS
  – Utilizado no Solaris e OpenSolaris
  – Gerenciador de volumes lógicos


 Gerenciamento de metadados ineficiente e
  esquema hierárquico baseado em Hash (Yu et. Al,
  2007)
                                    Status Report © 2012 - Marco André Machado   17
Estado da Arte
• MSFSS
  – Eficiente para Arquivos pequenos
  – Guarda arquivos inteiros
• HDFS e GFS
  – Grandes aplicações distribuídas
  – Alto grau de tolerância a falhas
  – Chunks de 64 Mb




                                  Status Report © 2012 - Marco André Machado   18
Proposta
• Especificar os metadados (atributos)
  – Nome, tamanho, estrutura...
• Gerenciar
• Indexação




                                  Status Report © 2012 - Marco André Machado   19
Proposta
• Atender aos requisitos:
  – Consistência
  – Sincronização de arquivos e diretórios
  – Compartilhamento
  – Segurança
  – Descoberta de arquivos




                                 Status Report © 2012 - Marco André Machado   20
Cronograma
1. Estudo de sistemas de arquivos distribuídos e
   sistemas de armazenamento
  – NFS, AFS, HDFS, GFS, Lustre, MSFSS, Ceph
2. Atributos e Técnicas de Gerenciamento para
   Metadados
3. Especificar e gerenciar os metadados para o
   Usto.re
4. Implementação no Usto.re da solução
   proposta
                                Status Report © 2012 - Marco André Machado   21
Cronograma
5. Definição e execução de um estudo
   experimental.
6. Melhoria na solução proposta de acordo com
   os resultados do experimento.
7. Escrita e elaboração da dissertação.
8. Escrita de artigos com os resultados obtidos.
9. Defesa da Dissertação.



                              Status Report © 2012 - Marco André Machado   22
Cronograma




             Status Report © 2012 - Marco André Machado   23
Referências
•   BZOCH, P., AND SAFARIK, J. State of the Art in Distributed File Systems: Increasing
    Performance. 2011 Second Eastern European Regional Conference on the
    Engineering of Computer Based Systems (Sept. 2011), 153–154.
•   Duval, E., Hodgins, W., Sutton, S., and Weibel, S. 2002. Metadata Principles and
    Practicalities. D-Lib Magazine http://www.dlib.org/dlib/april02/weibel/04weibel.
    html.
•   DUARTE, M. Um algoritmo de disponibilidade em sistemas de backup distribuído
    seguro usando a plataforma peer-to-peer. Master’s thesis, Centro de Informática/
    UFPE, 2010.
•   GANTZ, J., AND REINSEL, D. Extracting Value from Chaos State of the Universe : An
    Executive Summary. 1–12.
•   GONG, L., AND OTHERS. Project JXTA: A technology overview. Tech.rep., Technical
    report, SUN Microsystems, April 2001.
    http://www.jxta.org/project/www/docs/TechOverview. pdf, 2001
•   JONES, T. Anatomy of a cloud storage infrastructure. Tech. rep., IBM, 2010.
    "Disponível em http://www.ibm.com/developerworks/cloud/library/cl-
    cloudstorage/. Acessado em: Fevereivo/2012".



                                                       Status Report © 2012 - Marco André Machado   24
Referências
•   Levy , E. e Silberschatz, A., "Distributed File Systems: Concepts and Examples",
    ACM Computing Surveys, Vol. 22, No. 4, December 1990
•   ROSELLI, D., AND LORCH, J. A comparison of file system workloads. Proceedings of
    the annual (2000).
•   SCHOLLMEIER, R. A definition of peer-to-peer networking for the classification of
    peer-to-peer architectures and applications. In Peer-to-Peer Computing, 2001.
    Proceedings. First International Conference on (2001), IEEE, pp. 101–102.
•   VAQUERO, L. M., RODERO-MERINO, L., CACERES, J., AND LINDNER, M. A Break in
    the Clouds : Towards a Cloud Definition. Computer Communication Review 39, 1
    (2009), 50–55.
•   YU, L., CHEN, G., AND WANG, W. MSFSS: A Storage System for Mass Small Files.
    International Conference on Computer Supported Cooperative Work in Design
    (2007), 1087–1092.
•   ZENG, W., ZHAO, Y., AND OU, K. Research on cloud storage architecture and key
    technologies. Technology, Culture and Human (2009), 4–8.



                                                     Status Report © 2012 - Marco André Machado   25

More Related Content

Similar to Uma estratégia para gerenciamento de metadados

Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Introdução a SGBDs
Introdução a SGBDsIntrodução a SGBDs
Introdução a SGBDsUFRN
 
Aula 1 - Introducao.pdf
Aula 1 - Introducao.pdfAula 1 - Introducao.pdf
Aula 1 - Introducao.pdfRoberto Aragy
 
Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...
Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...
Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...Marcos Alves Vieira
 
Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Sugizo Akino
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
 
Aula 2 - SGBDs e Modelos de Bancos de Dados.pptx
Aula 2 - SGBDs e Modelos de Bancos de Dados.pptxAula 2 - SGBDs e Modelos de Bancos de Dados.pptx
Aula 2 - SGBDs e Modelos de Bancos de Dados.pptxJoseph Donald
 
Capítulo1 - Introdução a Sistemas Distribuídos - Coulouris
Capítulo1 - Introdução a Sistemas Distribuídos - CoulourisCapítulo1 - Introdução a Sistemas Distribuídos - Coulouris
Capítulo1 - Introdução a Sistemas Distribuídos - CoulourisWindson Viana
 
Preservação digital em repositórios confiáveis (PART II)
Preservação digital em repositórios confiáveis (PART II)Preservação digital em repositórios confiáveis (PART II)
Preservação digital em repositórios confiáveis (PART II)Miguel Angel Mardero Arellano
 
Apostila redes locais de computadores
Apostila redes locais de computadoresApostila redes locais de computadores
Apostila redes locais de computadoresfernandao777
 
Apostila de Banco dados
Apostila de Banco dadosApostila de Banco dados
Apostila de Banco dadosFernando Palma
 
TP5-FAA-grupo1
TP5-FAA-grupo1TP5-FAA-grupo1
TP5-FAA-grupo1Cristiana
 
Aula banco de dados (1)
Aula banco de dados (1)Aula banco de dados (1)
Aula banco de dados (1)Felipe Pereira
 

Similar to Uma estratégia para gerenciamento de metadados (20)

Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Grids computacionais
Grids computacionaisGrids computacionais
Grids computacionais
 
Introdução à sistemas distribuídos
Introdução à sistemas distribuídosIntrodução à sistemas distribuídos
Introdução à sistemas distribuídos
 
Introdução a SGBDs
Introdução a SGBDsIntrodução a SGBDs
Introdução a SGBDs
 
Aula 1 - Introducao.pdf
Aula 1 - Introducao.pdfAula 1 - Introducao.pdf
Aula 1 - Introducao.pdf
 
Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...
Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...
Engenharia Dirigida por Modelos no Desenvolvimento de Aplicações Ubíquas: Tec...
 
Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
Aula 2 - SGBDs e Modelos de Bancos de Dados.pptx
Aula 2 - SGBDs e Modelos de Bancos de Dados.pptxAula 2 - SGBDs e Modelos de Bancos de Dados.pptx
Aula 2 - SGBDs e Modelos de Bancos de Dados.pptx
 
Capítulo1 - Introdução a Sistemas Distribuídos - Coulouris
Capítulo1 - Introdução a Sistemas Distribuídos - CoulourisCapítulo1 - Introdução a Sistemas Distribuídos - Coulouris
Capítulo1 - Introdução a Sistemas Distribuídos - Coulouris
 
Preservação digital em repositórios confiáveis (PART II)
Preservação digital em repositórios confiáveis (PART II)Preservação digital em repositórios confiáveis (PART II)
Preservação digital em repositórios confiáveis (PART II)
 
Apostila redes locais de computadores
Apostila redes locais de computadoresApostila redes locais de computadores
Apostila redes locais de computadores
 
Apostila de Banco dados
Apostila de Banco dadosApostila de Banco dados
Apostila de Banco dados
 
Apostila de banco de dados da ucg
Apostila de banco de dados da ucgApostila de banco de dados da ucg
Apostila de banco de dados da ucg
 
TP5-FAA-grupo1
TP5-FAA-grupo1TP5-FAA-grupo1
TP5-FAA-grupo1
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Aula banco de dados (1)
Aula banco de dados (1)Aula banco de dados (1)
Aula banco de dados (1)
 

Uma estratégia para gerenciamento de metadados

  • 1. Uma Estratégia para Representação e Gerenciamento de Metadados em Sistemas de Armazenamento nas Nuvens Centro de Informática Universidade Federal de Pernambuco Marco André Santos Machado masm@cin.ufpe.br © 2012 – Marco André Machado
  • 2. Agenda • Computação nas Nuvens • Armazenamento nas Nuvens • Metadados • Projeto Usto.re • Estado da Arte • Proposta • Cronograma Status Report © 2012 - Marco André Machado 2
  • 3. Universo Digital Status Report © 2012 - Marco André Machado 3
  • 4. Universo Digital • Problemas – Processar – Armazenar – Gerenciar – Segurança – Disponibilidade Status Report © 2012 - Marco André Machado 4
  • 5. Computação nas Nuvens • Definição (Vaquero, 2009) “Um grande conjunto de recursos virtualizados (como hardware, plataformas de desenvolvimento e/ou serviços) facilmente usáveis e acessíveis” Status Report © 2012 - Marco André Machado 5
  • 6. Arquitetura Status Report © 2012 - Marco André Machado 6
  • 7. Armazenamento nas Nuvens • Armazenamento em discos remotos • Acesso a partir de qualquer lugar • Benefícios: – Facilidade de gerenciamento – Custo X Benefício – Interrupções e manutenções – Catástrofes – Planejamento simplificado Status Report © 2012 - Marco André Machado 7
  • 8. Armazenamento nas Nuvens • Desafios – Segurança – Integridade de dados – Replicação de dados – Custos – Confiabilidade – Desempenho Status Report © 2012 - Marco André Machado 8
  • 9. Armazenamento nas Nuvens • Arquitetura Genérica (Jones, 2012) – Alta escalabilidade – Multi-tenant Status Report © 2012 - Marco André Machado 9
  • 10. Armazenamento nas Nuvens • Sistemas de Arquivos Distribuídos – Compartilhar arquivos e recursos de armazenamento (Levy e Silberschatz, 1990) – Replicação – Disponibilidade – Escalabilidade – Segurança – Metadados (Bzoch e Safarik, 2011) Status Report © 2012 - Marco André Machado 10
  • 11. Metadados • Informações estruturadas sobre dados (Duval, 2002) • Atributos – Nome, tamanho, último acesso/modificação, estrutura • Gerenciamento – Mais de 50% dos acessos ao sistema de arquivos (Roselli e Lorch, 2000) Status Report © 2012 - Marco André Machado 11
  • 12. Usto.re • Evolução de um algoritmo estatístico (Duarte, 2010) – Escolher peers com “perfil compatível” -> federações – Disponibilidade • Objetivo: Prover armazenamento na nuvem de forma barata Status Report © 2012 - Marco André Machado 12
  • 13. Arquitetura do Usto.re • P2P híbrida (Schollmeier, 2001) • JXTA (Gong, 2001) – Descobrimento de serviços – Mensagens – Organização de grupos Status Report © 2012 - Marco André Machado 13
  • 14. Arquitetura do Usto.re • 3 tipos de peers: – Super peer – Peer local – Peer servidor e proxy Status Report © 2012 - Marco André Machado 14
  • 15. Usto.re • Desafios do projeto – Gargalos na transferência de arquivos – Imprevisibilidade de desempenho – Armazenamento escalável – Escalar para diferentes cargas – Gerenciamento de metadados Status Report © 2012 - Marco André Machado 15
  • 16. Estado da Arte • Network File System – Funciona de modo stateless (Sandberg et. Al, 1985) • Andrew File System – Unidade básica de tráfego é o arquivo completo Status Report © 2012 - Marco André Machado 16
  • 17. Estado da Arte • Lustre – Metadados armazenados em servidores de metadados (MDSs) e os dados são armazenados em objetos (OSDs) • ZFS – Utilizado no Solaris e OpenSolaris – Gerenciador de volumes lógicos  Gerenciamento de metadados ineficiente e esquema hierárquico baseado em Hash (Yu et. Al, 2007) Status Report © 2012 - Marco André Machado 17
  • 18. Estado da Arte • MSFSS – Eficiente para Arquivos pequenos – Guarda arquivos inteiros • HDFS e GFS – Grandes aplicações distribuídas – Alto grau de tolerância a falhas – Chunks de 64 Mb Status Report © 2012 - Marco André Machado 18
  • 19. Proposta • Especificar os metadados (atributos) – Nome, tamanho, estrutura... • Gerenciar • Indexação Status Report © 2012 - Marco André Machado 19
  • 20. Proposta • Atender aos requisitos: – Consistência – Sincronização de arquivos e diretórios – Compartilhamento – Segurança – Descoberta de arquivos Status Report © 2012 - Marco André Machado 20
  • 21. Cronograma 1. Estudo de sistemas de arquivos distribuídos e sistemas de armazenamento – NFS, AFS, HDFS, GFS, Lustre, MSFSS, Ceph 2. Atributos e Técnicas de Gerenciamento para Metadados 3. Especificar e gerenciar os metadados para o Usto.re 4. Implementação no Usto.re da solução proposta Status Report © 2012 - Marco André Machado 21
  • 22. Cronograma 5. Definição e execução de um estudo experimental. 6. Melhoria na solução proposta de acordo com os resultados do experimento. 7. Escrita e elaboração da dissertação. 8. Escrita de artigos com os resultados obtidos. 9. Defesa da Dissertação. Status Report © 2012 - Marco André Machado 22
  • 23. Cronograma Status Report © 2012 - Marco André Machado 23
  • 24. Referências • BZOCH, P., AND SAFARIK, J. State of the Art in Distributed File Systems: Increasing Performance. 2011 Second Eastern European Regional Conference on the Engineering of Computer Based Systems (Sept. 2011), 153–154. • Duval, E., Hodgins, W., Sutton, S., and Weibel, S. 2002. Metadata Principles and Practicalities. D-Lib Magazine http://www.dlib.org/dlib/april02/weibel/04weibel. html. • DUARTE, M. Um algoritmo de disponibilidade em sistemas de backup distribuído seguro usando a plataforma peer-to-peer. Master’s thesis, Centro de Informática/ UFPE, 2010. • GANTZ, J., AND REINSEL, D. Extracting Value from Chaos State of the Universe : An Executive Summary. 1–12. • GONG, L., AND OTHERS. Project JXTA: A technology overview. Tech.rep., Technical report, SUN Microsystems, April 2001. http://www.jxta.org/project/www/docs/TechOverview. pdf, 2001 • JONES, T. Anatomy of a cloud storage infrastructure. Tech. rep., IBM, 2010. "Disponível em http://www.ibm.com/developerworks/cloud/library/cl- cloudstorage/. Acessado em: Fevereivo/2012". Status Report © 2012 - Marco André Machado 24
  • 25. Referências • Levy , E. e Silberschatz, A., "Distributed File Systems: Concepts and Examples", ACM Computing Surveys, Vol. 22, No. 4, December 1990 • ROSELLI, D., AND LORCH, J. A comparison of file system workloads. Proceedings of the annual (2000). • SCHOLLMEIER, R. A definition of peer-to-peer networking for the classification of peer-to-peer architectures and applications. In Peer-to-Peer Computing, 2001. Proceedings. First International Conference on (2001), IEEE, pp. 101–102. • VAQUERO, L. M., RODERO-MERINO, L., CACERES, J., AND LINDNER, M. A Break in the Clouds : Towards a Cloud Definition. Computer Communication Review 39, 1 (2009), 50–55. • YU, L., CHEN, G., AND WANG, W. MSFSS: A Storage System for Mass Small Files. International Conference on Computer Supported Cooperative Work in Design (2007), 1087–1092. • ZENG, W., ZHAO, Y., AND OU, K. Research on cloud storage architecture and key technologies. Technology, Culture and Human (2009), 4–8. Status Report © 2012 - Marco André Machado 25