Menu principal
Powered by <TEI:TOK>
Maarten Janssen, 2014-
Os investigadores que preferirem lidar com os nossos dados usando ferramentas próprias encontram no quadro abaixo os ficheiros de texto apropriados.
Tabela 1: Distribução do corpus por língua, século e formato:
(1) Os ficheiros PSD são pesquisáveis com a ferramenta CorpusSearch. Os ficheiros PSDX estão alojados no TEITOK e são pesquisáveis online.
(2) A anotação POS do corpus espanhol está ainda em processo de revisão.
Tabela 2: Distribução do corpus por sexo, língua, século e formato:
Tabela 3: Distribução do corpus por estatuto social3, língua, século e formato:
Santo Ofício | |||||
---|---|---|---|---|---|
Língua | Século | Texto original ISLRN: 375-405-009-147-2 | Texto normalizado ISLRN: 375-405-009-147-2 | Anotação POS ISLRN: 321-583-358-829-1 | Anotação sintática ISLRN: 662-489-499-707-7 |
Português | XVI | PT1500inq_ORIG_TXT.ZIP | PT1500inq_MOD_TXT.ZIP | PT1500inq_POS.ZIP | PT1500inq_PSD.ZIP |
Português | XVII | PT1600inq_ORIG_TXT.ZIP | PT1600inq_MOD_TXT.ZIP | PT1600inq_POS.ZIP | PT1600inq_PSD.ZIP |
Português | XVIII | PT1700inq_ORIG_TXT.ZIP | PT1700inq_MOD_TXT.ZIP | PT1700inq_POS.ZIP | PT1700inq_PSD.ZIP |
Português | XIX | Não há dados | Não há dados | Não há dados | Não há dados |
Língua | Século | Texto original ISLRN: 305-406-112-712-3 | Texto normalizado ISLRN: 305-406-112-712-3 | Anotação POS ISLRN: 042-997-465-008-9 | Anotação sintática ISLRN: |
Espanhol | XVI | ES1500inq_ORIG_TXT.ZIP | ES1500inq_MOD_TXT.ZIP | ES1500inq_POS.ZIP | ES1500inq_PSD.ZIP |
Espanhol | XVII | ES1600inq_ORIG_TXT.ZIP | ES1600inq_MOD_TXT.ZIP | ES1600inq_POS.ZIP | ES1600inq_PSD.ZIP |
Espanhol | XVIII | ES1700inq_ORIG_TXT.ZIP | ES1700inq_MOD_TXT.ZIP | ES1700inq_POS.ZIP | Não há dados |
Espanhol | XIX | Não há dados | Não há dados | Não há dados | Não há dados |
Cavaleiros de hábito | |||||
---|---|---|---|---|---|
Língua | Século | Texto original ISLRN: 375-405-009-147-2 | Texto normalizado ISLRN: 375-405-009-147-2 | Anotação POS ISLRN: 321-583-358-829-1 | Anotação sintática ISLRN: 662-489-499-707-7 |
Português | XVI | PT1500kni_ORIG_TXT.ZIP | PT1500kni_MOD_TXT.ZIP | PT1500kni_POS.ZIP | PT1500kni_PSD.ZIP |
Português | XVII | PT1600kni_ORIG_TXT.ZIP | PT1600kni_MOD_TXT.ZIP | PT1600kni_POS.ZIP | PT1600kni_PSD.ZIP |
Português | XVIII | PT1700kni_ORIG_TXT.ZIP | PT1700kni_MOD_TXT.ZIP | PT1700kni_POS.ZIP | Não há dados |
Português | XIX | PT1800kni_ORIG_TXT.ZIP | PT1800kni_MOD_TXT.ZIP | PT1800kni_POS.ZIP | PT1800kni_PSD.ZIP |
Língua | Século | Texto original ISLRN: 305-406-112-712-3 | Texto normalizado ISLRN: 305-406-112-712-3 | Anotação POS ISLRN: 042-997-465-008-9 | Anotação sintática ISLRN: 306-113-341-591-4 |
Espanhol | XVI | Não há dados | Não há dados | Não há dados | Não há dados |
Espanhol | XVII | ES1600kni_ORIG_TXT.ZIP | ES1600kni_MOD_TXT.ZIP | ES1600kni_POS.ZIP | ES1600kni_PSD.ZIP |
Espanhol | XVIII | ES1700kni_ORIG_TXT.ZIP | ES1700kni_MOD_TXT.ZIP | ES1700kni_POS.ZIP | Não há dados |
Espanhol | XIX | Não há dados | Não há dados | Não há dados | Não há dados |
Universitários | |||||
---|---|---|---|---|---|
Língua | Século | Texto original ISLRN: 375-405-009-147-2 | Texto normalizado ISLRN: 375-405-009-147-2 | Anotação POS ISLRN: 321-583-358-829-1 | Anotação sintática ISLRN: 662-489-499-707-7 |
Português | XVI | PT1500uni_ORIG_TXT.ZIP | PT1500uni_MOD_TXT.ZIP | PT1500uni_POS.ZIP | PT1500uni_PSD.ZIP |
Português | XVII | PT1600uni_ORIG_TXT.ZIP | PT1600uni_MOD_TXT.ZIP | PT1600uni_POS.ZIP | Não há dados |
Português | XVIII | PT1700uni_ORIG_TXT.ZIP | PT1700uni_MOD_TXT.ZIP | PT1700uni_POS.ZIP | Não há dados |
Português | XIX | PT1800uni_ORIG_TXT.ZIP | PT1800uni_MOD_TXT.ZIP | PT1800uni_POS.ZIP | Não há dados |
Língua | Século | Texto original ISLRN: 305-406-112-712-3 | Texto normalizado ISLRN: 305-406-112-712-3 | Anotação POS ISLRN: 042-997-465-008-9 | Anotação sintática ISLRN: 306-113-341-591-4 |
Espanhol | XVI | ES1500uni_ORIG_TXT.ZIP | ES1500uni_MOD_TXT.ZIP | ES1500uni_POS.ZIP | ES1500uni_PSD.ZIP |
Espanhol | XVII | ES1600uni_ORIG_TXT.ZIP | ES1600uni_MOD_TXT.ZIP | ES1600uni_POS.ZIP | ES1600uni_PSD.ZIP |
Espanhol | XVIII | ES1700uni_ORIG_TXT.ZIP | ES1700uni_MOD_TXT.ZIP | ES1700uni_POS.ZIP | ES1700uni_PSD.ZIP |
Espanhol | XIX | ES1800uni_ORIG_TXT.ZIP | ES1800uni_MOD_TXT.ZIP | ES1800uni_POS.ZIP | Não há dados |
(3) Para além dos sete tipos de estatuto social incluídos nesta tabela, ocorre no corpus um oitavo tipo, escravos, para o qual só há uma autora (Teresa de Jesus Faria), que conta com uma única carta (PSCR0620).
Tabela 4: Corpus equilibrado (uma carta por autor). distribuído por língua, século e formato:
Tabela 5: Acesso aos documentos em versão XML-TEI P5:
A tabela abaixo contém o arquivo digital do Post Scriptum na versão XML-TEIP5, a validar mediante recurso à versão personalizada do esquema TEI do mesmo projeto. Tal esquema de validação pode obter-se automaticamente a partir do ficheiro ODD do Post Scriptum (recorrendo à ferramenta Roma, por exemplo) ou então diretamente no formato Relax NG se se selecionar Esquema TEI do Post Scriptum. O esquema deve guardar-se na mesma pasta dos demais ficheiros XML. Para além do arquivo digital, este recurso também permite validar as versões XML-TEIP5 da Base de Datos Biográficos (acessível em cdd.xml ) e da classificação socio-histórica (acessível em kw.xml ).
Para uma informação detalhada das versões TEIP5 do Post Scriptum, consulte-se o documento em espanhol P.S. Post Scriptum: Archivo digital de escritura cotidiana. Personalización del esquema TEI y documentación.
Língua | Século | XML-TEI: P5. Corpus integral | XML-TEI: P5. Corpus equilibrado(4) |
---|---|---|---|
Português | XVI | PT1500_XML-TEI_P5.ZIP | PT1500bal_XML-TEI_P5.ZIP |
Português | XVII | PT1600_XML-TEI_P5.ZIP | PT1600bal_XML-TEI_P5.ZIP |
Português | XVIII | PT1700_XML-TEI_P5.ZIP | PT1700bal_XML-TEI_P5.ZIP |
Português | XIX | PT1800_XML-TEI_P5.ZIP | PT1800bal_XML-TEI_P5.ZIP |
Língua | Século | XML-TEI: P5. Corpus integral | XML-TEI: P5. Corpus equilibrado |
Espanhol | XVI | ES1500_XML-TEI_P5.ZIP | ES1500bal_XML-TEI_P5.ZIP |
Espanhol | XVII | ES1600_XML-TEI_P5.ZIP | ES1600bal_XML-TEI_P5.ZIP |
Espanhol | XVIII | ES1700_XML-TEI_P5.ZIP | ES1700bal_XML-TEI_P5.ZIP |
Espanhol | XIX | ES1800_XML-TEI_P5.ZIP | ES1800bal_XML-TEI_P5.ZIP |
(4) O corpus equilibrado é um subcorpus criado a partir da seleção automática de uma única carta por autor, que geralmente é a que possui um número maior de tipos diferentes de palavras na sua versão estandardizada (cf. secção 1.3.1.3. do Manual de Edición y Anotación en TEITOK de los Materiales de P.S. Post Scriptum).
As estatísticas sobre a versão estandardizada de 478 cartas portuguesas, contrastada com a versão original, podem ser consultadas no site da ferramenta DICER, de Alistair Baron, sob o nome Portuguese Post Scriptum by eDictor. Como se vê pelo nome, a estandardização manual apoiou-se na ferramenta eDictor.