Descargador de ficheros web

 

Hace tiempo me puse a hacer en perl, por aquello de aprender perl, un script que me pasara tipos de ficheros .h de C a clases java, de forma que pudiera enviarlas y recibirlas por socket desde un ejecutable C a uno Java y viceversa. Con ese experimento, aprendí el tema de expresiones regulares algo más en serio. Luego, para sorpresa mía, vi que en java las expresiones regulares son calcaditas a las de perl, y que se parecen mucho a las del editor vi y que finalmente supongo que vienen del mundo unix. Así que me quedé con las ganas de hacer algo un poco más en serio con expresiones regulares en java.

Otra cosa que tenía pendiente es la de conectarme desde java a una URL y ver cómo bajar el fichero correspondiente a esa URL, bien sea un html, bien sea un doc, un pdf o una foto.

Así que junté lo uno con lo otro y para probar más que por otro motivo, decidí hacer un descargardor de ficheros de páginas web. La idea es darle una página html, que se la descargue, que busque dentro todos los href y que si apuntan a ficheros con determinadas extensiones, que se las descargue también. Eso cumple ambos requisitos, jugar con las expresiones regulares y descargar ficheros de una URL.

Me puse con ello y he estado en ello hasta que me ha aburrido el tema (ya no iba a aprender nada más sin meterme en camisa de once varas) y he probado un poco para ver que más o menos funciona, pero a pesar de todo ello, me he decidido a ponerlo en la web.

Así que en el repositorio maven de chuidiang.com están los jar y los fuentes empaquetados en un jar del descargador.

En la parte de proyectos, he puesto la documentación generada por maven de dicho descargador.

Y finalmente, para rizar el rizo, he creado en google code el proyecto chuidiang-descargador, para que los fuentes estén accesibles vía subversion. La verdad es que mi primera intención era meterlos en el repositorio launchpad de bazaar, pero no me funcionó a la primera por problemas de seguridad, firmas digitales, claves públicas y privadas y como no sé del tema más que lo básico, pero nada de lo práctico y como encima windows no ayuda a estas cosas, pues lo dejé en subversion de google-code.

 

Esta entrada ha sido publicada en java, varios y etiquetada como , . Guarda el enlace permanente.

3 respuestas a Descargador de ficheros web

  1. Con un simpe wget -O -q url no es suficinete?

    Salute

  2. Chuidiang dijo:

    Pues supongo que sí, pero como comento, mi objetivo era jugar con las expresiones regulares y con java/url. Por supuesto, descargardores mucho mejores y más completos que este los hay a patadas por internet, así que lo más probable es que nunca use este descargador en serio.

    Se bueno.

  3. ¡Hola! Felicidades por tu alcance. Desde hace tres semanas estoy trabajando con el tiempo libre que me queda en Java, y veo en Java capacidades enormes que hay que explotar. ¡Hasta pronto y éxitos!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.