Google Books verkümmert.

Beiträge zu Themen, die in keine andere Kategorie passen

Moderatoren: Zythophilus, marcus03, Tiberis, ille ego qui, consus, e-latein: Team

Re: Google Books verkümmert.

Beitragvon Platon » Do 9. Jul 2009, 06:39

Nur hat sich noch niemand daran gewagt


Stimmt nicht, ist nur nicht kostenlos verfügbar. In Brepolis' Database of Latin Dictionaries ist der Forcellini im Volltext durchsuchbar.
Platon
 

Re: Google Books verkümmert.

Beitragvon RM » Do 9. Jul 2009, 07:05

Das ist richtig, kostet aber jährlich einen nicht unerheblichen Betrag.

8) RM
RM
Augustus
 
Beiträge: 4522
Registriert: So 22. Sep 2002, 22:08
Wohnort: Bayern

Re: Google Books verkümmert.

Beitragvon Platon » Do 9. Jul 2009, 07:08

Richtig, ist aber aus manchen Uninetzen verfügbar. Wenn man den Forcellini öffentlich und kostenlos im Volltext zugänglich machen will, sollte man das wohl am ehesten über Wikisource machen, ein ähnliches Projekt gibt es z.B. auch für die RE, müssten sich nur genügend Leute bereitfinden, die Scans durch den OCR zu schicken, zu transkribieren und zu korrigieren... :)
Platon
 

Re: Google Books verkümmert.

Beitragvon Laptop » Fr 10. Jul 2009, 07:50

Man nehme alle Scans, zerlege sie per Software automatisiert so, daß der Text zerschnitten wird, jedes Wort wird als separates JPEG abgespeichert. Nun läßt man diese Bildchen automatisch bei Portalen laden, um Spam abzuwehren (jeder kennt diese "Bildchen", weiß nicht genau wie sie heißen), die Benutzer tippen den Text ein, ohne zu wissen, daß nicht auf "Richtigkeit" überprüft wird. Nun muß eine Datenbank nur noch alles zusammensetzen. Müßte korrekter als OCR sein, da sich die Leute ja Mühe geben, nichts falsches einzutippen. So könnte man im großen Stil Bücher buchstabisieren. ;-)

Oder so: Man erstellt eine Web-Site die sich mit dem Projekt befaßt. Zugriff auf den Volltext haben nur diejenigen, die vorher eine Seite des Buches sauber und fehlerfrei abtippen. Sie erhalten ein Login für das spätere Gesamtwerk.
SI·CICERONEM·ÆMVLARIS·VERE·NON·VIVAS (get a life!) OBITER·DICTVM·BREVITAS·DELECTAT (keep it short and simple = kiss)
Benutzeravatar
Laptop
Augustus
 
Beiträge: 5737
Registriert: Sa 12. Mai 2007, 03:38

Re: Google Books verkümmert.

Beitragvon chefren » Fr 10. Jul 2009, 08:28

Viele schoene Dinge sind nur uebers Uni Netz verfuegbar. Ein hoch auf VPN und den Uni Zugang von zu Hause :)
Bild

Donec eris sospes, multos numerabis amicos: Tempora si fuerint nubila, solus eris.
Benutzeravatar
chefren
e-Latein Administrator
 
Beiträge: 2689
Registriert: Mi 14. Aug 2002, 20:31
Wohnort: Bonn / Duisburg

Re: Google Books verkümmert.

Beitragvon RM » Fr 10. Jul 2009, 08:33

@Laptop: Wie viele Jahrtausende dürfen sich die User damit abmühen? In Südostasien abschreiben lassen (solange es gedruckte Texte sind), ist schneller, einfacher, zuverlässiger und wahrscheinlich auch billiger.
@chefren: Und was ist mit der Zeit nach der Uni (ja, so was soll's geben ... :wink: )

8) RM
RM
Augustus
 
Beiträge: 4522
Registriert: So 22. Sep 2002, 22:08
Wohnort: Bayern

Re: Google Books verkümmert.

Beitragvon chefren » Fr 10. Jul 2009, 09:28

dann hab ich ein problem :D aber darueber mag ich mir jetzt noch keine gedanken machen, wer weiss ob ich nicht mein leben lang dort bleibe :)
Bild

Donec eris sospes, multos numerabis amicos: Tempora si fuerint nubila, solus eris.
Benutzeravatar
chefren
e-Latein Administrator
 
Beiträge: 2689
Registriert: Mi 14. Aug 2002, 20:31
Wohnort: Bonn / Duisburg

Re: Google Books verkümmert.

Beitragvon philistion » Sa 14. Nov 2009, 14:51

Laptop hat geschrieben:Man nehme alle Scans, zerlege sie per Software automatisiert so, daß der Text zerschnitten wird, jedes Wort wird als separates JPEG abgespeichert. Nun läßt man diese Bildchen automatisch bei Portalen laden, um Spam abzuwehren (jeder kennt diese "Bildchen", weiß nicht genau wie sie heißen), die Benutzer tippen den Text ein, ohne zu wissen, daß nicht auf "Richtigkeit" überprüft wird. Nun muß eine Datenbank nur noch alles zusammensetzen. Müßte korrekter als OCR sein, da sich die Leute ja Mühe geben, nichts falsches einzutippen. So könnte man im großen Stil Bücher buchstabisieren. ;-)


Sehr schöne Idee, wenn das bei den großen Forensoftware-Projekten wie phpBB oder vBulletin implementiert würde.. allerdings hat man dann keinen Schutz gegenüber Spambots.

Es sollte vielleicht über 2 Stufen gehen.
Die erste ist ein richtiges Captcha, um die Bots abzuwehren. Hat man dieses richtig, kommt man zum zweiten, welches wie Laptop beschrieben hat dem verteilten Rechnernetz dient und nicht korrekt sein muss. Hier bemühen sich dann die Leute um so mehr, da sie denken, das erste sei falsch gewesen.
ἓν οἶδα ὅτι οὐδὲν οἶδα
Benutzeravatar
philistion
Censor
 
Beiträge: 733
Registriert: Mi 10. Dez 2008, 11:05
Wohnort: Prope oenipontum

Re: Google Books verkümmert.

Beitragvon RM » Sa 14. Nov 2009, 15:06

Wie gesagt, wird bei den meisten Digitalisierungsprojekten von Büchern, die man nicht automatisch erfassen kann, in Südostasien manuell abgeschrieben - kostet ja nicht besonders viel. Alles andere ist i.d.R. zu langsam (es geht ja schließlich um viele MB). Bei Texten in nichtlateinischer Schrift (z.B. Altgriechisch) ist es sowieso hoffnungslos, irgendwelche Leute den Text von den JPEGs abtippen zu lassen. Außerdem benötigt man für richtige Digitalisierung nicht nur Buchstaben und Wörter, sondern auch Satzzeichen, Zeilenumbrüche, Sonderzeichen etc.

8) RM
RM
Augustus
 
Beiträge: 4522
Registriert: So 22. Sep 2002, 22:08
Wohnort: Bayern

Re: Google Books verkümmert.

Beitragvon Marcus » Sa 14. Nov 2009, 21:14

Das, was Laptop und Clayman da beschreiben, gibt es doch schon lange:
http://recaptcha.net/

Wird inzwischen sogar bei studivz verwendet.
οἱ γὰρ ῾Ελλήνων λόγοι πολλοί τε καὶ γελοῖοι, ὡς ἐμοὶ φαίνονται, εἰσίν
Benutzeravatar
Marcus
e-Latein Administrator
 
Beiträge: 1054
Registriert: Do 11. Nov 2004, 18:43
Wohnort: Islebia / Lipsia

Re: Google Books verkümmert.

Beitragvon RM » Sa 14. Nov 2009, 22:39

Natürlich gibt es das - gleichwohl wäre es sehr mühsam, damit größere Bestände an Büchern digitalisieren zu wollen - und glaubt nur nicht, daß es bei gedruckten Werken besser ist als eine gute OCR-Software oder südostasiatische Schreiber.

8) RM
RM
Augustus
 
Beiträge: 4522
Registriert: So 22. Sep 2002, 22:08
Wohnort: Bayern

Re: Google Books verkümmert.

Beitragvon Marcus » So 15. Nov 2009, 04:27

Könnte mir vorstellen, dass alle 3 Methoden gewisse Probleme mit anderen Schriften haben könnten? :>

Bei sauberen Texten in lateinischen Buchstaben habe ich mit Standard-OCR-Software bereits gute Erfahrungen gemacht.
οἱ γὰρ ῾Ελλήνων λόγοι πολλοί τε καὶ γελοῖοι, ὡς ἐμοὶ φαίνονται, εἰσίν
Benutzeravatar
Marcus
e-Latein Administrator
 
Beiträge: 1054
Registriert: Do 11. Nov 2004, 18:43
Wohnort: Islebia / Lipsia

Re: Google Books verkümmert.

Beitragvon Laptop » So 15. Nov 2009, 05:31

Die älteren (interessanten) Texte sind meist voll von Abbreviaturen, einige davon tauchen nur sehr sporadisch auf, und das Korrekturlesen ist dann meist aufwendiger als das Abtippen selbst. Man übersieht leichter etwas beim Lesen, als beim Abschreiben. Letztlich möchte ich immer ein Endergebnis, daß 100%ig ist, und kein Geschluder, von daher kommt OCR für mich nicht in Frage. Ich wüßte gerne wohin man sich wenden muß um die von RM erwähnte Dienstleistung der händischen Texterfassung in Anspruch zu nehmen?
SI·CICERONEM·ÆMVLARIS·VERE·NON·VIVAS (get a life!) OBITER·DICTVM·BREVITAS·DELECTAT (keep it short and simple = kiss)
Benutzeravatar
Laptop
Augustus
 
Beiträge: 5737
Registriert: Sa 12. Mai 2007, 03:38

Vorherige

Zurück zu Sonstige Diskussionen



Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 8 Gäste