Merge pull request #43 from pointhi/news

Adding News-sites
2014-03-04 14:16:29 +01:00 · 2014-03-04 14:16:29 +01:00 · 2d42208e83
commit 2d42208e83
parent 4627788834 dcd1b99a52
4 changed files with 152 additions and 0 deletions
--- a/searx/engines/bing_news.py
+++ b/searx/engines/bing_news.py
@ -0,0 +1,51 @@
 from urllib import urlencode
 from cgi import escape
 from lxml import html
 categories = ['news']
 base_url = 'http://www.bing.com/'
 search_string = 'news/search?{query}&first={offset}'
 paging = True
 language_support = True
 def request(query, params):
    offset = (params['pageno'] - 1) * 10 + 1
    if params['language'] == 'all':
        language = 'en-US'
    else:
        language = params['language'].replace('_', '-')
    search_path = search_string.format(
        query=urlencode({'q': query, 'setmkt': language}),
        offset=offset)
    params['cookies']['SRCHHPGUSR'] = \
        'NEWWND=0&NRSLT=-1&SRCHLANG=' + language.split('-')[0]
    #if params['category'] == 'images':
    # params['url'] = base_url + 'images/' + search_path
    params['url'] = base_url + search_path
    return params
 def response(resp):
    global base_url
    results = []
    dom = html.fromstring(resp.content)
    for result in dom.xpath('//div[@class="sa_cc"]'):
        link = result.xpath('.//h3/a')[0]
        url = link.attrib.get('href')
        title = ' '.join(link.xpath('.//text()'))
        content = escape(' '.join(result.xpath('.//p//text()')))
        results.append({'url': url, 'title': title, 'content': content})
    if results:
        return results
    for result in dom.xpath('//li[@class="b_algo"]'):
        link = result.xpath('.//h2/a')[0]
        url = link.attrib.get('href')
        title = ' '.join(link.xpath('.//text()'))
        content = escape(' '.join(result.xpath('.//p//text()')))
        results.append({'url': url, 'title': title, 'content': content})
    return results
--- a/searx/engines/google_news.py
+++ b/searx/engines/google_news.py
@ -0,0 +1,37 @@
 #!/usr/bin/env python
 from urllib import urlencode
 from json import loads
 categories = ['news']
 url = 'https://ajax.googleapis.com/'
 search_url = url + 'ajax/services/search/news?v=2.0&start={offset}&rsz=large&safe=off&filter=off&{query}&hl={language}' # noqa
 paging = True
 language_support = True
 def request(query, params):
    offset = (params['pageno'] - 1) * 8
    language = 'en-US'
    if params['language'] != 'all':
        language = params['language'].replace('_', '-')
    params['url'] = search_url.format(offset=offset,
                                      query=urlencode({'q': query}),
                                      language=language)
    return params
 def response(resp):
    results = []
    search_res = loads(resp.text)
    if not search_res.get('responseData', {}).get('results'):
        return []
    for result in search_res['responseData']['results']:
        results.append({'url': result['unescapedUrl'],
                        'title': result['titleNoFormatting'],
                        'content': result['content']})
    return results
--- a/searx/engines/yahoo_news.py
+++ b/searx/engines/yahoo_news.py
@ -0,0 +1,51 @@
 #!/usr/bin/env python
 from urllib import urlencode
 from urlparse import unquote
 from lxml import html
 from searx.engines.xpath import extract_text, extract_url
 categories = ['news']
 search_url = 'http://news.search.yahoo.com/search?{query}&b={offset}'
 results_xpath = '//div[@class="res"]'
 url_xpath = './/h3/a/@href'
 title_xpath = './/h3/a'
 content_xpath = './/div[@class="abstr"]'
 suggestion_xpath = '//div[@id="satat"]//a'
 paging = True
 def request(query, params):
    offset = (params['pageno'] - 1) * 10 + 1
    if params['language'] == 'all':
        language = 'en'
    else:
        language = params['language'].split('_')[0]
    params['url'] = search_url.format(offset=offset,
                                      query=urlencode({'p': query}))
    params['cookies']['sB'] = 'fl=1&vl=lang_{lang}&sh=1&rw=new&v=1'\
        .format(lang=language)
    return params
 def response(resp):
    results = []
    dom = html.fromstring(resp.text)
    for result in dom.xpath(results_xpath):
        url_string = extract_url(result.xpath(url_xpath), search_url)
        start = url_string.find('/RU=')+4
        end = url_string.rfind('/RS')
        url = unquote(url_string[start:end])
        title = extract_text(result.xpath(title_xpath)[0])
        content = extract_text(result.xpath(content_xpath)[0])
        results.append({'url': url, 'title': title, 'content': content})
    if not suggestion_xpath:
        return results
    for suggestion in dom.xpath(suggestion_xpath):
        results.append({'suggestion': extract_text(suggestion)})
    return results
--- a/searx/settings.yml
+++ b/searx/settings.yml
@ -17,6 +17,11 @@ engines:
    locale : en-US
    shortcut : bi
  - name : bing news
    engine : bing_news
    locale : en-US
    shortcut : bin
  - name : currency
    engine : currency_convert
    categories : general
@ -61,6 +66,10 @@ engines:
    engine : google_images
    shortcut : goi
  - name : google news
    engine : google_news
    shortcut : gon
  - name : piratebay
    engine : piratebay
    categories : videos, music, files
@ -112,6 +121,10 @@ engines:
    engine : yahoo
    shortcut : yh
  - name : yahoo news
    engine : yahoo_news
    shortcut : yhn
  - name : youtube
    engine : youtube
    categories : videos