<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>
<channel>
	<title>Comentarios en: Stemmer en castellano para SPHINX</title>
	<atom:link href="http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/</link>
	<description>descarga internet en un CD</description>
	<pubDate>Thu, 24 Jul 2008 00:01:33 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.5.1</generator>
		<item>
		<title>Por: Miguel</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-667</link>
		<dc:creator>Miguel</dc:creator>
		<pubDate>Fri, 04 Apr 2008 21:47:54 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-667</guid>
		<description>Para 0.9.8 no hace falta ya que este puede utilizar libstemmer de C el cual es el mismo y es muy facil de utilizar de integrar.

Considera estos pasos para una instalacion empezando de nada:
1. baja sphinx a tu ordenador
2. tar -xzf 
3. cd sphinx-0.9.8/
4. wget http://snowball.tartarus.org/dist/libstemmer_c.tgz
5. tar -xzf libstemmer_c.tgz
6. ./configure --with-libstemmer


En este caso se declara el stemmer como libstemmer_spanish en la configuracion de sphinx (sphinx.conf).</description>
		<content:encoded><![CDATA[<p>Para 0.9.8 no hace falta ya que este puede utilizar libstemmer de C el cual es el mismo y es muy facil de utilizar de integrar.</p>
<p>Considera estos pasos para una instalacion empezando de nada:<br />
1. baja sphinx a tu ordenador<br />
2. tar -xzf<br />
3. cd sphinx-0.9.8/<br />
4. wget <a href="http://snowball.tartarus.org/dist/libstemmer_c.tgz" rel="nofollow">http://snowball.tartarus.org/dist/libstemmer_c.tgz</a><br />
5. tar -xzf libstemmer_c.tgz<br />
6. ./configure &#8211;with-libstemmer</p>
<p>En este caso se declara el stemmer como libstemmer_spanish en la configuracion de sphinx (sphinx.conf).</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: victor</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-654</link>
		<dc:creator>victor</dc:creator>
		<pubDate>Tue, 25 Mar 2008 17:20:00 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-654</guid>
		<description>Un estupendo tutorial!!. Tienes info acerca de qué es lo que hay que cambiar para la versión 0.98?. No se pueden identificar algunas partes. Muchas gracias de todas formas por tu ayuda.</description>
		<content:encoded><![CDATA[<p>Un estupendo tutorial!!. Tienes info acerca de qué es lo que hay que cambiar para la versión 0.98?. No se pueden identificar algunas partes. Muchas gracias de todas formas por tu ayuda.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: Mateo</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-590</link>
		<dc:creator>Mateo</dc:creator>
		<pubDate>Sat, 15 Mar 2008 18:55:57 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-590</guid>
		<description>CompuGlobalHiperMegaNet puedes poner el tutorial para la versión 0.9.8 ?

Gracias!</description>
		<content:encoded><![CDATA[<p>CompuGlobalHiperMegaNet puedes poner el tutorial para la versión 0.9.8 ?</p>
<p>Gracias!</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: CompuGlobalHiperMegaNet</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-305</link>
		<dc:creator>CompuGlobalHiperMegaNet</dc:creator>
		<pubDate>Thu, 20 Dec 2007 13:44:09 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-305</guid>
		<description>Revisaré un poco el parche y su funcionamiento con sphinx 0.9.8 y publicaré la versión definitiva estos días. 

Muchas gracias por el feedback.

Un saludo</description>
		<content:encoded><![CDATA[<p>Revisaré un poco el parche y su funcionamiento con sphinx 0.9.8 y publicaré la versión definitiva estos días. </p>
<p>Muchas gracias por el feedback.</p>
<p>Un saludo</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: ricardo galli</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-304</link>
		<dc:creator>ricardo galli</dc:creator>
		<pubDate>Thu, 20 Dec 2007 00:00:35 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-304</guid>
		<description>Hola Jose,
     adapté tu código para que funcione en el último snapshot del Sphinx (0.9.8-svn-r985). Lo compilé y está funcionando en el buscado de Menéame (http://meneame.net).

El patch lo puedes bajar en mnm.uib.es/gallir/tmp/sphinx-0.9.8-svn-r985-ES.patch
 
¿Qué te parece? (dejé el código tal cuál, si lo ves bien se puede enviar el parche para que lo incluyan en la versión oficial después de arreglar un poco la estética).

Gracias por el curro.</description>
		<content:encoded><![CDATA[<p>Hola Jose,<br />
     adapté tu código para que funcione en el último snapshot del Sphinx (0.9.8-svn-r985). Lo compilé y está funcionando en el buscado de Menéame (http://meneame.net).</p>
<p>El patch lo puedes bajar en mnm.uib.es/gallir/tmp/sphinx-0.9.8-svn-r985-ES.patch</p>
<p>¿Qué te parece? (dejé el código tal cuál, si lo ves bien se puede enviar el parche para que lo incluyan en la versión oficial después de arreglar un poco la estética).</p>
<p>Gracias por el curro.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: Pau Iglesias</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-47</link>
		<dc:creator>Pau Iglesias</dc:creator>
		<pubDate>Thu, 31 May 2007 07:17:26 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-47</guid>
		<description>Muy buen trabajo, Jose. En cuanto pueda actualizaré a la última versión del stemmer en agregax.</description>
		<content:encoded><![CDATA[<p>Muy buen trabajo, Jose. En cuanto pueda actualizaré a la última versión del stemmer en agregax.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: javi</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-43</link>
		<dc:creator>javi</dc:creator>
		<pubDate>Wed, 30 May 2007 10:58:17 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-43</guid>
		<description>La lástima de estos stemmers es que es bastante complicado afinar al 100%.  En la aplicación searchpedia que das basada en el stemmer quizás no sea tan crítico pero en otras ese nivel de acierto sí es necesario.
Un ejemplo en el que el corte no funciona correctamente, entre otros, es pena.
Si  no estoy equivocado pena lo resumirá a pen e identificará a igual nivel de similitud todas las palabras que tengan ese lexema.
Esto hace que buscar pena en la searchpedia devuelva como 5 primeros resultados:
1.- Pena de muerte
2.- Pene
3.- Pena de muerte (desambiguación)
4.- Pen Pen
5.- Pena
En principio no parece un mal resultado, ya que 1,3,5 están directamente relacionados, aunque el término exacto de búsqueda aparezca en quinta posición. Este es un comportamiento que también se da en el stemmer que he utilizado para java utilizando una implementación de snowball en castellano.

El problema es que en caso de necesitar buscar este término en contenido de artículos sin un filtro previo tendríamos bastantos artículos no relevantes entre los primeros.

El objetivo es obtener un mecanismo de reducción de palabras para el índice que resuma todo lo posible pero que no identifique palabras claramente diferentes. Quizás lo optimo, aunque el stemmer te resuelva un alto número de casos, es implementar un mecanismo que sea mezcla de algoritmo de reducción+diccionario.
Otra opción es utilizar un lematizador.
El objetivo de un lematizador, es encontrar el lema de una palabra p, esto es, buscar la palabra l del diccionario que te explica p. Por ejemplo para p=jardineros, l=jadinero el problema es que jardín quedaría fuera de la búsqueda. Quizás estos resultados, en caso de querer considerarlos se deberían tratar mediante el uso de familias de palabras, pero es complejo.

Si a partir de jardinero quieres obtener jardín se necesita el mecanismo que te devuelva la raiz de la palabra (Lexematizador? o stemmer ). De todas formas esto es reducir demasiado la información para una búsqueda porque en el ejemplo que has propocionado de fontanería y fontanero también podrías incluir fontana o incluso fuente si consideras las irregularidades(como en puede y poder o árbol y arbóreo) todo esto hace que se expanda mucho más el problema de los homógrafos en las búsquedas, ya que si este problema se da entre palabras, se da mucho más entre lexemas, con lo que la aparición de resultados no relevantes en una búsqueda puede aumentar.

Yo de momento en el mecanismo que estoy utilizando en mi apliación de búsqueda utilizo un stemmer, aunque he eliminado algunas de las reducciones que me proporcionaba snowball y he añadido alguna otra(si no estoy equivocado implementa tambien el algoritmo de Porter) los resultados como en tu caso bastante correctos, El problema es que tiene deficiencias difíciles de afrontar.

Si consideramos los dos errores de las búsquedas:
1.- Obtener resultados no relevantes respecto a la cadena de búsqueda c.
2.- Omitir resultados relevantes respecto a la cadena de búsqueda c.

El uso de un Stemmer o \'Lexematizador\' reduce 2 a cambio de aumentar 1.
Un Lematizador reduciría tambien 2(aunque muchísimo menos que un stemmer) pero apenas aumentaría 1.
Dependiendo de la cantidad de documentos resultado de la búsqueda y de la funcionalidad que queremos dar podemos considerar cual de estos errores es más importante y, por tanto, decidir que tipo de reductor de palabras será mejor en cada caso.

Realmente es todavía un problema bastante abierto.

Un saludo.</description>
		<content:encoded><![CDATA[<p>La lástima de estos stemmers es que es bastante complicado afinar al 100%.  En la aplicación searchpedia que das basada en el stemmer quizás no sea tan crítico pero en otras ese nivel de acierto sí es necesario.<br />
Un ejemplo en el que el corte no funciona correctamente, entre otros, es pena.<br />
Si  no estoy equivocado pena lo resumirá a pen e identificará a igual nivel de similitud todas las palabras que tengan ese lexema.<br />
Esto hace que buscar pena en la searchpedia devuelva como 5 primeros resultados:<br />
1.- Pena de muerte<br />
2.- Pene<br />
3.- Pena de muerte (desambiguación)<br />
4.- Pen Pen<br />
5.- Pena<br />
En principio no parece un mal resultado, ya que 1,3,5 están directamente relacionados, aunque el término exacto de búsqueda aparezca en quinta posición. Este es un comportamiento que también se da en el stemmer que he utilizado para java utilizando una implementación de snowball en castellano.</p>
<p>El problema es que en caso de necesitar buscar este término en contenido de artículos sin un filtro previo tendríamos bastantos artículos no relevantes entre los primeros.</p>
<p>El objetivo es obtener un mecanismo de reducción de palabras para el índice que resuma todo lo posible pero que no identifique palabras claramente diferentes. Quizás lo optimo, aunque el stemmer te resuelva un alto número de casos, es implementar un mecanismo que sea mezcla de algoritmo de reducción+diccionario.<br />
Otra opción es utilizar un lematizador.<br />
El objetivo de un lematizador, es encontrar el lema de una palabra p, esto es, buscar la palabra l del diccionario que te explica p. Por ejemplo para p=jardineros, l=jadinero el problema es que jardín quedaría fuera de la búsqueda. Quizás estos resultados, en caso de querer considerarlos se deberían tratar mediante el uso de familias de palabras, pero es complejo.</p>
<p>Si a partir de jardinero quieres obtener jardín se necesita el mecanismo que te devuelva la raiz de la palabra (Lexematizador? o stemmer ). De todas formas esto es reducir demasiado la información para una búsqueda porque en el ejemplo que has propocionado de fontanería y fontanero también podrías incluir fontana o incluso fuente si consideras las irregularidades(como en puede y poder o árbol y arbóreo) todo esto hace que se expanda mucho más el problema de los homógrafos en las búsquedas, ya que si este problema se da entre palabras, se da mucho más entre lexemas, con lo que la aparición de resultados no relevantes en una búsqueda puede aumentar.</p>
<p>Yo de momento en el mecanismo que estoy utilizando en mi apliación de búsqueda utilizo un stemmer, aunque he eliminado algunas de las reducciones que me proporcionaba snowball y he añadido alguna otra(si no estoy equivocado implementa tambien el algoritmo de Porter) los resultados como en tu caso bastante correctos, El problema es que tiene deficiencias difíciles de afrontar.</p>
<p>Si consideramos los dos errores de las búsquedas:<br />
1.- Obtener resultados no relevantes respecto a la cadena de búsqueda c.<br />
2.- Omitir resultados relevantes respecto a la cadena de búsqueda c.</p>
<p>El uso de un Stemmer o \&#8217;Lexematizador\&#8217; reduce 2 a cambio de aumentar 1.<br />
Un Lematizador reduciría tambien 2(aunque muchísimo menos que un stemmer) pero apenas aumentaría 1.<br />
Dependiendo de la cantidad de documentos resultado de la búsqueda y de la funcionalidad que queremos dar podemos considerar cual de estos errores es más importante y, por tanto, decidir que tipo de reductor de palabras será mejor en cada caso.</p>
<p>Realmente es todavía un problema bastante abierto.</p>
<p>Un saludo.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: CompuGlobalHiperMegaNet</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-41</link>
		<dc:creator>CompuGlobalHiperMegaNet</dc:creator>
		<pubDate>Wed, 30 May 2007 07:29:37 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-41</guid>
		<description>En la parte con stemmer, la lematización hace su trabajo reduciendo la palabra a su lexema teniendo en cuenta los acentos (de hecho algunas palabras no se lematizan igual si no tiene acento, sobre todo algunas conjugaciones). Una vez reducida la palabra a su lexema se convierten los acentos a sus equivalentes sin acentuar (fase final).

La mayúsculas se convierten a minúsculas directamente desde sphinx, ya que semánticamente no ofrecen nada.

Un saludo</description>
		<content:encoded><![CDATA[<p>En la parte con stemmer, la lematización hace su trabajo reduciendo la palabra a su lexema teniendo en cuenta los acentos (de hecho algunas palabras no se lematizan igual si no tiene acento, sobre todo algunas conjugaciones). Una vez reducida la palabra a su lexema se convierten los acentos a sus equivalentes sin acentuar (fase final).</p>
<p>La mayúsculas se convierten a minúsculas directamente desde sphinx, ya que semánticamente no ofrecen nada.</p>
<p>Un saludo</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: mike</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-40</link>
		<dc:creator>mike</dc:creator>
		<pubDate>Wed, 30 May 2007 07:11:29 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-40</guid>
		<description>Una palabra en mayúsculas también debe acentuarse.</description>
		<content:encoded><![CDATA[<p>Una palabra en mayúsculas también debe acentuarse.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: jmrrva</title>
		<link>http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-38</link>
		<dc:creator>jmrrva</dc:creator>
		<pubDate>Tue, 29 May 2007 18:16:28 +0000</pubDate>
		<guid isPermaLink="false">http://www.compuglobalhipermega.net/mysql/stemmer-sphinx-castellano/#comment-38</guid>
		<description>Hola,

Una tonteria: Has tenido en cuenta el rollo de los acentos? Muchas veces no se acentua, por error ortografico o porque el texto esta en mayusculas. 

fastidiándole -&#62; fastid
fastidiandole -&#62; fastid

Salu2</description>
		<content:encoded><![CDATA[<p>Hola,</p>
<p>Una tonteria: Has tenido en cuenta el rollo de los acentos? Muchas veces no se acentua, por error ortografico o porque el texto esta en mayusculas. </p>
<p>fastidiándole -&gt; fastid<br />
fastidiandole -&gt; fastid</p>
<p>Salu2</p>
]]></content:encoded>
	</item>
</channel>
</rss>

<!-- Dynamic Page Served (once) in 0.481 seconds -->
