248 languages

typo
Merge pull request #1 from ralgozino/docs/improve-v0.6.0-instructions
2025-06-08 12:40:25 -03:00 · 2024-08-23 14:49:01 -03:00 · 2024-08-23 14:46:26 -03:00 · 2024-08-23 14:45:56 -03:00 · 2024-08-23 18:30:14 +02:00 · 2024-08-23 10:39:08 -03:00
19 changed files with 1613 additions and 1150 deletions
--- a/.gitignore
+++ b/.gitignore
@ -8,3 +8,4 @@ pygments/
 shard.lock
 .vscode/
 .crystal/
 venv/
--- a/README.md
+++ b/README.md
@ -29,7 +29,7 @@ This only covers the RegexLexers, which are the most common ones,
 but it means the supported languages are a subset of Chroma's, which
 is a subset of Pygments'.
-Currently Tartrazine supports ... 241 languages.
+Currently Tartrazine supports ... 248 languages.
 It has 331 themes (63 from Chroma, the rest are base16 themes via
 [Sixteen](https://github.com/ralsina/sixteen)
@ -49,9 +49,17 @@ To build from source:
 ## Usage as a CLI tool
 Show a syntax highlighted version of a C source file in your terminal:
 ```shell
 $ tartrazine whatever.c -l c -t catppuccin-macchiato --line-numbers -f terminal
 ```
 Generate a standalone HTML file from a C source file with the syntax highlighted:
 ```shell
 $ tartrazine whatever.c -l c -t catppuccin-macchiato --line-numbers \
-  --standalone -o whatever.html 
+  --standalone -f html -o whatever.html 
 ```
 ## Usage as a Library
--- a/TODO.md
+++ b/TODO.md
@ -9,4 +9,5 @@
 * ✅ Implement lexer loader by file extension
 * ✅ Add --line-numbers to terminal formatter
 * Implement lexer loader by mime type
-* Implement Delegating lexers
+* ✅ Implement Delegating lexers
 * Add RstLexer maybe others?
--- a/lexers/LiquidLexer.xml
+++ b/lexers/LiquidLexer.xml
@ -0,0 +1,130 @@
 <lexer>
  <config>
    <name>liquid</name>
    <alias>liquid</alias>
    <filename>*.liquid</filename>
  </config>
  <rules>
    <state name="root">
      <rule pattern="[^{]+"><token type="Text"/></rule>
      <rule pattern="(\{%)(\s*)"><bygroups><token type="Punctuation"/><token type="TextWhitespace"/></bygroups><push state="tag-or-block"/></rule>
      <rule pattern="(\{\{)(\s*)([^\s}]+)"><bygroups><token type="Punctuation"/><token type="TextWhitespace"/><usingself state="generic"/></bygroups><push state="output"/></rule>
      <rule pattern="\{"><token type="Text"/></rule>
    </state>
    <state name="tag-or-block">
      <rule pattern="(if|unless|elsif|case)(?=\s+)"><token type="KeywordReserved"/><push state="condition"/></rule>
      <rule pattern="(when)(\s+)"><bygroups><token type="KeywordReserved"/><token type="TextWhitespace"/></bygroups><combined state="end-of-block" state="whitespace" state="generic"/></rule>
      <rule pattern="(else)(\s*)(%\})"><bygroups><token type="KeywordReserved"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups><pop depth="1"/></rule>
      <rule pattern="(capture)(\s+)([^\s%]+)(\s*)(%\})"><bygroups><token type="NameTag"/><token type="TextWhitespace"/><usingself state="variable"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups><pop depth="1"/></rule>
      <rule pattern="(comment)(\s*)(%\})"><bygroups><token type="NameTag"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups><push state="comment"/></rule>
      <rule pattern="(raw)(\s*)(%\})"><bygroups><token type="NameTag"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups><push state="raw"/></rule>
      <rule pattern="(end(case|unless|if))(\s*)(%\})"><bygroups><token type="KeywordReserved"/>None<token type="TextWhitespace"/><token type="Punctuation"/></bygroups><pop depth="1"/></rule>
      <rule pattern="(end([^\s%]+))(\s*)(%\})"><bygroups><token type="NameTag"/>None<token type="TextWhitespace"/><token type="Punctuation"/></bygroups><pop depth="1"/></rule>
      <rule pattern="(cycle)(\s+)(?:([^\s:]*)(:))?(\s*)"><bygroups><token type="NameTag"/><token type="TextWhitespace"/><usingself state="generic"/><token type="Punctuation"/><token type="TextWhitespace"/></bygroups><push state="variable-tag-markup"/></rule>
      <rule pattern="([^\s%]+)(\s*)"><bygroups><token type="NameTag"/><token type="TextWhitespace"/></bygroups><push state="tag-markup"/></rule>
    </state>
    <state name="output">
      <rule><include state="whitespace"/></rule>
      <rule pattern="\}\}"><token type="Punctuation"/><pop depth="1"/></rule>
      <rule pattern="\|"><token type="Punctuation"/><push state="filters"/></rule>
    </state>
    <state name="filters">
      <rule><include state="whitespace"/></rule>
      <rule pattern="\}\}"><token type="Punctuation"/><push state="#pop" state="#pop"/></rule>
      <rule pattern="([^\s|:]+)(:?)(\s*)"><bygroups><token type="NameFunction"/><token type="Punctuation"/><token type="TextWhitespace"/></bygroups><push state="filter-markup"/></rule>
    </state>
    <state name="filter-markup">
      <rule pattern="\|"><token type="Punctuation"/><pop depth="1"/></rule>
      <rule><include state="end-of-tag"/></rule>
      <rule><include state="default-param-markup"/></rule>
    </state>
    <state name="condition">
      <rule><include state="end-of-block"/></rule>
      <rule><include state="whitespace"/></rule>
      <rule pattern="([^\s=!&gt;&lt;]+)(\s*)([=!&gt;&lt;]=?)(\s*)(\S+)(\s*)(%\})"><bygroups><usingself state="generic"/><token type="TextWhitespace"/><token type="Operator"/><token type="TextWhitespace"/><usingself state="generic"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups></rule>
      <rule pattern="\b!"><token type="Operator"/></rule>
      <rule pattern="\bnot\b"><token type="OperatorWord"/></rule>
      <rule pattern="([\w.\&#x27;&quot;]+)(\s+)(contains)(\s+)([\w.\&#x27;&quot;]+)"><bygroups><usingself state="generic"/><token type="TextWhitespace"/><token type="OperatorWord"/><token type="TextWhitespace"/><usingself state="generic"/></bygroups></rule>
      <rule><include state="generic"/></rule>
      <rule><include state="whitespace"/></rule>
    </state>
    <state name="generic-value">
      <rule><include state="generic"/></rule>
      <rule><include state="end-at-whitespace"/></rule>
    </state>
    <state name="operator">
      <rule pattern="(\s*)((=|!|&gt;|&lt;)=?)(\s*)"><bygroups><token type="TextWhitespace"/><token type="Operator"/>None<token type="TextWhitespace"/></bygroups><pop depth="1"/></rule>
      <rule pattern="(\s*)(\bcontains\b)(\s*)"><bygroups><token type="TextWhitespace"/><token type="OperatorWord"/><token type="TextWhitespace"/></bygroups><pop depth="1"/></rule>
    </state>
    <state name="end-of-tag">
      <rule pattern="\}\}"><token type="Punctuation"/><pop depth="1"/></rule>
    </state>
    <state name="end-of-block">
      <rule pattern="%\}"><token type="Punctuation"/><push state="#pop" state="#pop"/></rule>
    </state>
    <state name="end-at-whitespace">
      <rule pattern="\s+"><token type="TextWhitespace"/><pop depth="1"/></rule>
    </state>
    <state name="param-markup">
      <rule><include state="whitespace"/></rule>
      <rule pattern="([^\s=:]+)(\s*)(=|:)"><bygroups><token type="NameAttribute"/><token type="TextWhitespace"/><token type="Operator"/></bygroups></rule>
      <rule pattern="(\{\{)(\s*)([^\s}])(\s*)(\}\})"><bygroups><token type="Punctuation"/><token type="TextWhitespace"/><usingself state="variable"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups></rule>
      <rule><include state="string"/></rule>
      <rule><include state="number"/></rule>
      <rule><include state="keyword"/></rule>
      <rule pattern=","><token type="Punctuation"/></rule>
    </state>
    <state name="default-param-markup">
      <rule><include state="param-markup"/></rule>
      <rule pattern="."><token type="Text"/></rule>
    </state>
    <state name="variable-param-markup">
      <rule><include state="param-markup"/></rule>
      <rule><include state="variable"/></rule>
      <rule pattern="."><token type="Text"/></rule>
    </state>
    <state name="tag-markup">
      <rule pattern="%\}"><token type="Punctuation"/><push state="#pop" state="#pop"/></rule>
      <rule><include state="default-param-markup"/></rule>
    </state>
    <state name="variable-tag-markup">
      <rule pattern="%\}"><token type="Punctuation"/><push state="#pop" state="#pop"/></rule>
      <rule><include state="variable-param-markup"/></rule>
    </state>
    <state name="keyword">
      <rule pattern="\b(false|true)\b"><token type="KeywordConstant"/></rule>
    </state>
    <state name="variable">
      <rule pattern="[a-zA-Z_]\w*"><token type="NameVariable"/></rule>
      <rule pattern="(?&lt;=\w)\.(?=\w)"><token type="Punctuation"/></rule>
    </state>
    <state name="string">
      <rule pattern="&#x27;[^&#x27;]*&#x27;"><token type="LiteralStringSingle"/></rule>
      <rule pattern="&quot;[^&quot;]*&quot;"><token type="LiteralStringDouble"/></rule>
    </state>
    <state name="number">
      <rule pattern="\d+\.\d+"><token type="LiteralNumberFloat"/></rule>
      <rule pattern="\d+"><token type="LiteralNumberInteger"/></rule>
    </state>
    <state name="generic">
      <rule><include state="keyword"/></rule>
      <rule><include state="string"/></rule>
      <rule><include state="number"/></rule>
      <rule><include state="variable"/></rule>
    </state>
    <state name="whitespace">
      <rule pattern="[ \t]+"><token type="TextWhitespace"/></rule>
    </state>
    <state name="comment">
      <rule pattern="(\{%)(\s*)(endcomment)(\s*)(%\})"><bygroups><token type="Punctuation"/><token type="TextWhitespace"/><token type="NameTag"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups><push state="#pop" state="#pop"/></rule>
      <rule pattern="."><token type="Comment"/></rule>
    </state>
    <state name="raw">
      <rule pattern="[^{]+"><token type="Text"/></rule>
      <rule pattern="(\{%)(\s*)(endraw)(\s*)(%\})"><bygroups><token type="Punctuation"/><token type="TextWhitespace"/><token type="NameTag"/><token type="TextWhitespace"/><token type="Punctuation"/></bygroups><pop depth="1"/></rule>
      <rule pattern="\{"><token type="Text"/></rule>
    </state>
  </rules>
 </lexer>
--- a/lexers/TwigLexer.xml
+++ b/lexers/TwigLexer.xml
@ -0,0 +1,47 @@
 <lexer>
  <config>
    <name>Twig</name>
    <alias>twig</alias>
    <mime_type>application/x-twig</mime_type>
    <dot_all>true</dot_all>
  </config>
  <rules>
    <state name="root">
      <rule pattern="[^{]+"><token type="Other"/></rule>
      <rule pattern="\{\{"><token type="CommentPreproc"/><push state="var"/></rule>
      <rule pattern="\{\#.*?\#\}"><token type="Comment"/></rule>
      <rule pattern="(\{%)(-?\s*)(raw)(\s*-?)(%\})(.*?)(\{%)(-?\s*)(endraw)(\s*-?)(%\})"><bygroups><token type="CommentPreproc"/><token type="Text"/><token type="Keyword"/><token type="Text"/><token type="CommentPreproc"/><token type="Other"/><token type="CommentPreproc"/><token type="Text"/><token type="Keyword"/><token type="Text"/><token type="CommentPreproc"/></bygroups></rule>
      <rule pattern="(\{%)(-?\s*)(verbatim)(\s*-?)(%\})(.*?)(\{%)(-?\s*)(endverbatim)(\s*-?)(%\})"><bygroups><token type="CommentPreproc"/><token type="Text"/><token type="Keyword"/><token type="Text"/><token type="CommentPreproc"/><token type="Other"/><token type="CommentPreproc"/><token type="Text"/><token type="Keyword"/><token type="Text"/><token type="CommentPreproc"/></bygroups></rule>
      <rule pattern="(\{%)(-?\s*)(filter)(\s+)((?:[\\_a-z]|[^\x00-\x7f])(?:[\\\w-]|[^\x00-\x7f])*)"><bygroups><token type="CommentPreproc"/><token type="Text"/><token type="Keyword"/><token type="Text"/><token type="NameFunction"/></bygroups><push state="tag"/></rule>
      <rule pattern="(\{%)(-?\s*)([a-zA-Z_]\w*)"><bygroups><token type="CommentPreproc"/><token type="Text"/><token type="Keyword"/></bygroups><push state="tag"/></rule>
      <rule pattern="\{"><token type="Other"/></rule>
    </state>
    <state name="varnames">
      <rule pattern="(\|)(\s*)((?:[\\_a-z]|[^\x00-\x7f])(?:[\\\w-]|[^\x00-\x7f])*)"><bygroups><token type="Operator"/><token type="Text"/><token type="NameFunction"/></bygroups></rule>
      <rule pattern="(is)(\s+)(not)?(\s*)((?:[\\_a-z]|[^\x00-\x7f])(?:[\\\w-]|[^\x00-\x7f])*)"><bygroups><token type="Keyword"/><token type="Text"/><token type="Keyword"/><token type="Text"/><token type="NameFunction"/></bygroups></rule>
      <rule pattern="(?i)(true|false|none|null)\b"><token type="KeywordPseudo"/></rule>
      <rule pattern="(in|not|and|b-and|or|b-or|b-xor|isif|elseif|else|importconstant|defined|divisibleby|empty|even|iterable|odd|sameasmatches|starts\s+with|ends\s+with)\b"><token type="Keyword"/></rule>
      <rule pattern="(loop|block|parent)\b"><token type="NameBuiltin"/></rule>
      <rule pattern="(?:[\\_a-z]|[^\x00-\x7f])(?:[\\\w-]|[^\x00-\x7f])*"><token type="NameVariable"/></rule>
      <rule pattern="\.(?:[\\_a-z]|[^\x00-\x7f])(?:[\\\w-]|[^\x00-\x7f])*"><token type="NameVariable"/></rule>
      <rule pattern="\.[0-9]+"><token type="LiteralNumber"/></rule>
      <rule pattern=":?&quot;(\\\\|\\[^\\]|[^&quot;\\])*&quot;"><token type="LiteralStringDouble"/></rule>
      <rule pattern=":?&#x27;(\\\\|\\[^\\]|[^&#x27;\\])*&#x27;"><token type="LiteralStringSingle"/></rule>
      <rule pattern="([{}()\[\]+\-*/,:~%]|\.\.|\?|:|\*\*|\/\/|!=|[&gt;&lt;=]=?)"><token type="Operator"/></rule>
      <rule pattern="[0-9](\.[0-9]*)?(eE[+-][0-9])?[flFLdD]?|0[xX][0-9a-fA-F]+[Ll]?"><token type="LiteralNumber"/></rule>
    </state>
    <state name="var">
      <rule pattern="\s+"><token type="Text"/></rule>
      <rule pattern="(-?)(\}\})"><bygroups><token type="Text"/><token type="CommentPreproc"/></bygroups><pop depth="1"/></rule>
      <rule><include state="varnames"/></rule>
    </state>
    <state name="tag">
      <rule pattern="\s+"><token type="Text"/></rule>
      <rule pattern="(-?)(%\})"><bygroups><token type="Text"/><token type="CommentPreproc"/></bygroups><pop depth="1"/></rule>
      <rule><include state="varnames"/></rule>
      <rule pattern="."><token type="Punctuation"/></rule>
    </state>
  </rules>
 </lexer>
--- a/lexers/VelocityLexer.xml
+++ b/lexers/VelocityLexer.xml
@ -0,0 +1,55 @@
 <lexer>
  <config>
    <name>Velocity</name>
    <alias>velocity</alias>
    <filename>*.vm</filename>
    <filename>*.fhtml</filename>
    <dot_all>true</dot_all>
  </config>
  <rules>
    <state name="root">
      <rule pattern="[^{#$]+"><token type="Other"/></rule>
      <rule pattern="(#)(\*.*?\*)(#)"><bygroups><token type="CommentPreproc"/><token type="Comment"/><token type="CommentPreproc"/></bygroups></rule>
      <rule pattern="(##)(.*?$)"><bygroups><token type="CommentPreproc"/><token type="Comment"/></bygroups></rule>
      <rule pattern="(#\{?)([a-zA-Z_]\w*)(\}?)(\s?\()"><bygroups><token type="CommentPreproc"/><token type="NameFunction"/><token type="CommentPreproc"/><token type="Punctuation"/></bygroups><push state="directiveparams"/></rule>
      <rule pattern="(#\{?)([a-zA-Z_]\w*)(\}|\b)"><bygroups><token type="CommentPreproc"/><token type="NameFunction"/><token type="CommentPreproc"/></bygroups></rule>
      <rule pattern="\$!?\{?"><token type="Punctuation"/><push state="variable"/></rule>
    </state>
    <state name="variable">
      <rule pattern="[a-zA-Z_]\w*"><token type="NameVariable"/></rule>
      <rule pattern="\("><token type="Punctuation"/><push state="funcparams"/></rule>
      <rule pattern="(\.)([a-zA-Z_]\w*)"><bygroups><token type="Punctuation"/><token type="NameVariable"/></bygroups><push/></rule>
      <rule pattern="\}"><token type="Punctuation"/><pop depth="1"/></rule>
      <rule><pop depth="1"/></rule>
    </state>
    <state name="directiveparams">
      <rule pattern="(&amp;&amp;|\|\||==?|!=?|[-&lt;&gt;+*%&amp;|^/])|\b(eq|ne|gt|lt|ge|le|not|in)\b"><token type="Operator"/></rule>
      <rule pattern="\["><token type="Operator"/><push state="rangeoperator"/></rule>
      <rule pattern="\b[a-zA-Z_]\w*\b"><token type="NameFunction"/></rule>
      <rule><include state="funcparams"/></rule>
    </state>
    <state name="rangeoperator">
      <rule pattern="\.\."><token type="Operator"/></rule>
      <rule><include state="funcparams"/></rule>
      <rule pattern="\]"><token type="Operator"/><pop depth="1"/></rule>
    </state>
    <state name="funcparams">
      <rule pattern="\$!?\{?"><token type="Punctuation"/><push state="variable"/></rule>
      <rule pattern="\s+"><token type="Text"/></rule>
      <rule pattern="[,:]"><token type="Punctuation"/></rule>
      <rule pattern="&quot;(\\\\|\\[^\\]|[^&quot;\\])*&quot;"><token type="LiteralStringDouble"/></rule>
      <rule pattern="&#x27;(\\\\|\\[^\\]|[^&#x27;\\])*&#x27;"><token type="LiteralStringSingle"/></rule>
      <rule pattern="0[xX][0-9a-fA-F]+[Ll]?"><token type="LiteralNumber"/></rule>
      <rule pattern="\b[0-9]+\b"><token type="LiteralNumber"/></rule>
      <rule pattern="(true|false|null)\b"><token type="KeywordConstant"/></rule>
      <rule pattern="\("><token type="Punctuation"/><push/></rule>
      <rule pattern="\)"><token type="Punctuation"/><pop depth="1"/></rule>
      <rule pattern="\{"><token type="Punctuation"/><push/></rule>
      <rule pattern="\}"><token type="Punctuation"/><pop depth="1"/></rule>
      <rule pattern="\["><token type="Punctuation"/><push/></rule>
      <rule pattern="\]"><token type="Punctuation"/><pop depth="1"/></rule>
    </state>
  </rules>
 </lexer>
--- a/lexers/bbcode.xml
+++ b/lexers/bbcode.xml
@ -0,0 +1,22 @@
 <lexer>
  <config>
    <name>BBCode</name>
    <alias>bbcode</alias>
    <mime_type>text/x-bbcode</mime_type>
  </config>
  <rules>
    <state name="root">
      <rule pattern="[^[]+"><token type="Text"/></rule>
      <rule pattern="\[/?\w+"><token type="Keyword"/><push state="tag"/></rule>
      <rule pattern="\["><token type="Text"/></rule>
    </state>
    <state name="tag">
      <rule pattern="\s+"><token type="Text"/></rule>
      <rule pattern="(\w+)(=)(&quot;?[^\s&quot;\]]+&quot;?)"><bygroups><token type="NameAttribute"/><token type="Operator"/><token type="LiteralString"/></bygroups></rule>
      <rule pattern="(=)(&quot;?[^\s&quot;\]]+&quot;?)"><bygroups><token type="Operator"/><token type="LiteralString"/></bygroups></rule>
      <rule pattern="\]"><token type="Keyword"/><pop depth="1"/></rule>
    </state>
  </rules>
 </lexer>
--- a/lexers/markdown.xml
+++ b/lexers/markdown.xml
@ -0,0 +1,56 @@
 <lexer>
  <config>
    <name>Markdown</name>
    <alias>markdown</alias>
    <alias>md</alias>
    <filename>*.md</filename>
    <filename>*.markdown</filename>
    <mime_type>text/x-markdown</mime_type>
  </config>
  <rules>
    <state name="root">
      <rule pattern="(^#[^#].+)(\n)"><bygroups><token type="GenericHeading"/><token type="Text"/></bygroups></rule>
      <rule pattern="(^#{2,6}[^#].+)(\n)"><bygroups><token type="GenericSubheading"/><token type="Text"/></bygroups></rule>
      <rule pattern="^(.+)(\n)(=+)(\n)"><bygroups><token type="GenericHeading"/><token type="Text"/><token type="GenericHeading"/><token type="Text"/></bygroups></rule>
      <rule pattern="^(.+)(\n)(-+)(\n)"><bygroups><token type="GenericSubheading"/><token type="Text"/><token type="GenericSubheading"/><token type="Text"/></bygroups></rule>
      <rule pattern="^(\s*)([*-] )(\[[ xX]\])( .+\n)"><bygroups><token type="TextWhitespace"/><token type="Keyword"/><token type="Keyword"/><usingself state="inline"/></bygroups></rule>
      <rule pattern="^(\s*)([*-])(\s)(.+\n)"><bygroups><token type="TextWhitespace"/><token type="Keyword"/><token type="TextWhitespace"/><usingself state="inline"/></bygroups></rule>
      <rule pattern="^(\s*)([0-9]+\.)( .+\n)"><bygroups><token type="TextWhitespace"/><token type="Keyword"/><usingself state="inline"/></bygroups></rule>
      <rule pattern="^(\s*&gt;\s)(.+\n)"><bygroups><token type="Keyword"/><token type="GenericEmph"/></bygroups></rule>
      <rule pattern="^(```\n)([\w\W]*?)(^```$)">
      <bygroups>
        <token type="LiteralStringBacktick"/>
        <token type="Text"/>
        <token type="LiteralStringBacktick"/>
      </bygroups>
      </rule>
      <rule pattern="^(```)(\w+)(\n)([\w\W]*?)(^```$)">
        <bygroups>
          <token type="LiteralStringBacktick"/>
          <token type="NameLabel"/>  
          <token type="TextWhitespace"/>
          <UsingByGroup lexer="2" content="4"/>  
          <token type="LiteralStringBacktick"/>
        </bygroups>
      </rule>
      <rule><include state="inline"/></rule>
    </state>
    <state name="inline">
      <rule pattern="\\."><token type="Text"/></rule>
      <rule pattern="([^`]?)(`[^`\n]+`)"><bygroups><token type="Text"/><token type="LiteralStringBacktick"/></bygroups></rule>
      <rule pattern="([^\*]?)(\*\*[^* \n][^*\n]*\*\*)"><bygroups><token type="Text"/><token type="GenericStrong"/></bygroups></rule>
      <rule pattern="([^_]?)(__[^_ \n][^_\n]*__)"><bygroups><token type="Text"/><token type="GenericStrong"/></bygroups></rule>
      <rule pattern="([^\*]?)(\*[^* \n][^*\n]*\*)"><bygroups><token type="Text"/><token type="GenericEmph"/></bygroups></rule>
      <rule pattern="([^_]?)(_[^_ \n][^_\n]*_)"><bygroups><token type="Text"/><token type="GenericEmph"/></bygroups></rule>
      <rule pattern="([^~]?)(~~[^~ \n][^~\n]*~~)"><bygroups><token type="Text"/><token type="GenericDeleted"/></bygroups></rule>
      <rule pattern="[@#][\w/:]+"><token type="NameEntity"/></rule>
      <rule pattern="(!?\[)([^]]+)(\])(\()([^)]+)(\))"><bygroups><token type="Text"/><token type="NameTag"/><token type="Text"/><token type="Text"/><token type="NameAttribute"/><token type="Text"/></bygroups></rule>
      <rule pattern="(\[)([^]]+)(\])(\[)([^]]*)(\])"><bygroups><token type="Text"/><token type="NameTag"/><token type="Text"/><token type="Text"/><token type="NameLabel"/><token type="Text"/></bygroups></rule>
      <rule pattern="^(\s*\[)([^]]*)(\]:\s*)(.+)"><bygroups><token type="Text"/><token type="NameLabel"/><token type="Text"/><token type="NameAttribute"/></bygroups></rule>
      <rule pattern="[^\\\s]+"><token type="Text"/></rule>
      <rule pattern="."><token type="Text"/></rule>
    </state>
  </rules>
 </lexer>
--- a/lexers/moinwiki.xml
+++ b/lexers/moinwiki.xml
@ -0,0 +1,34 @@
 <lexer>
  <config>
    <name>MoinMoin/Trac Wiki markup</name>
    <alias>trac-wiki</alias>
    <alias>moin</alias>
    <mime_type>text/x-trac-wiki</mime_type>
    <case_insensitive>true</case_insensitive>
  </config>
  <rules>
    <state name="root">
      <rule pattern="^#.*$"><token type="Comment"/></rule>
      <rule pattern="(!)(\S+)"><bygroups><token type="Keyword"/><token type="Text"/></bygroups></rule>
      <rule pattern="^(=+)([^=]+)(=+)(\s*#.+)?$"><bygroups><token type="GenericHeading"/><usingself state="root"/><token type="GenericHeading"/><token type="LiteralString"/></bygroups></rule>
      <rule pattern="(\{\{\{)(\n#!.+)?"><bygroups><token type="NameBuiltin"/><token type="NameNamespace"/></bygroups><push state="codeblock"/></rule>
      <rule pattern="(\&#x27;\&#x27;\&#x27;?|\|\||`|__|~~|\^|,,|::)"><token type="Comment"/></rule>
      <rule pattern="^( +)([.*-])( )"><bygroups><token type="Text"/><token type="NameBuiltin"/><token type="Text"/></bygroups></rule>
      <rule pattern="^( +)([a-z]{1,5}\.)( )"><bygroups><token type="Text"/><token type="NameBuiltin"/><token type="Text"/></bygroups></rule>
      <rule pattern="\[\[\w+.*?\]\]"><token type="Keyword"/></rule>
      <rule pattern="(\[[^\s\]]+)(\s+[^\]]+?)?(\])"><bygroups><token type="Keyword"/><token type="LiteralString"/><token type="Keyword"/></bygroups></rule>
      <rule pattern="^----+$"><token type="Keyword"/></rule>
      <rule pattern="[^\n\&#x27;\[{!_~^,|]+"><token type="Text"/></rule>
      <rule pattern="\n"><token type="Text"/></rule>
      <rule pattern="."><token type="Text"/></rule>
    </state>
    <state name="codeblock">
      <rule pattern="\}\}\}"><token type="NameBuiltin"/><pop depth="1"/></rule>
      <rule pattern="\{\{\{"><token type="Text"/><push/></rule>
      <rule pattern="[^{}]+"><token type="CommentPreproc"/></rule>
      <rule pattern="."><token type="CommentPreproc"/></rule>
    </state>
  </rules>
 </lexer>
--- a/scripts/lexer_metadata.py
+++ b/scripts/lexer_metadata.py
@ -40,15 +40,18 @@ for fname in glob.glob("lexers/*.xml"):
 with open("src/constants/lexers.cr", "w") as f:
    f.write("module Tartrazine\n")
    f.write("  LEXERS_BY_NAME = {\n")
-    for k, v in lexer_by_name.items():
+    for k in sorted(lexer_by_name.keys()):
        v = lexer_by_name[k]
        f.write(f'"{k}" => "{v}", \n')
    f.write("}\n")
    f.write("  LEXERS_BY_MIMETYPE = {\n")
-    for k, v in lexer_by_mimetype.items():
+    for k in sorted(lexer_by_mimetype.keys()):
        v = lexer_by_mimetype[k]
        f.write(f'"{k}" => "{v}", \n')
    f.write("}\n")
    f.write("  LEXERS_BY_FILENAME = {\n")
-    for k, v in lexer_by_filename.items():
+    for k in sorted(lexer_by_filename.keys()):
        v = lexer_by_filename[k]
        f.write(f'"{k}" => {str(list(v)).replace("'", "\"")}, \n')
    f.write("}\n")
    f.write("end\n")
--- a/shard.yml
+++ b/shard.yml
@ -1,5 +1,5 @@
 name: tartrazine
-version: 0.5.1
+version: 0.6.0
 authors:
  - Roberto Alsina <roberto.alsina@gmail.com>
--- a/spec/tartrazine_spec.cr
+++ b/spec/tartrazine_spec.cr
@ -72,8 +72,7 @@ end
 # Helper that creates lexer and tokenizes
 def tokenize(lexer_name, text)
-  lexer = Tartrazine.lexer(lexer_name)
+  tokenizer = Tartrazine.lexer(lexer_name).tokenizer(text)
  tokenizer = Tartrazine::Tokenizer.new(lexer, text)
  Tartrazine::Lexer.collapse_tokens(tokenizer.to_a)
 end
--- a/src/actions.cr
+++ b/src/actions.cr
@ -16,13 +16,16 @@ module Tartrazine
    Push
    Token
    Using
    Usingbygroup
    Usingself
  end
  struct Action
    property actions : Array(Action) = [] of Action
    @content_index : Int32 = 0
    @depth : Int32 = 0
    @lexer_index : Int32 = 0
    @lexer_name : String = ""
    @states : Array(String) = [] of String
    @states_to_push : Array(String) = [] of String
@ -62,6 +65,9 @@ module Tartrazine
        @states = xml.attributes.select { |attrib|
          attrib.name == "state"
        }.map &.content
      when ActionType::Usingbygroup
        @lexer_index = xml["lexer"].to_i
        @content_index = xml["content"].to_i
      end
    end
@ -115,15 +121,13 @@ module Tartrazine
      when ActionType::Using
        # Shunt to another lexer entirely
        return [] of Token if match.empty?
-        Tokenizer.new(
+        Tartrazine.lexer(@lexer_name).tokenizer(
          Tartrazine.lexer(@lexer_name),
          String.new(match[match_group].value),
          secondary: true).to_a
      when ActionType::Usingself
        # Shunt to another copy of this lexer
        return [] of Token if match.empty?
-        Tokenizer.new(
+        tokenizer.lexer.tokenizer(
          tokenizer.lexer,
          String.new(match[match_group].value),
          secondary: true).to_a
      when ActionType::Combined
@ -136,6 +140,12 @@ module Tartrazine
        tokenizer.lexer.states[new_state.name] = new_state
        tokenizer.state_stack << new_state.name
        [] of Token
      when ActionType::Usingbygroup
        # Shunt to content-specified lexer
        return [] of Token if match.empty?
        Tartrazine.lexer(String.new(match[@lexer_index].value)).tokenizer(
          String.new(match[@content_index].value),
          secondary: true).to_a
      else
        raise Exception.new("Unknown action type: #{@type}")
      end
--- a/src/constants/lexers.cr
+++ b/src/constants/lexers.cr
--- a/src/formatters/ansi.cr
+++ b/src/formatters/ansi.cr
@ -17,8 +17,8 @@ module Tartrazine
      outp.to_s
    end
-    def format(text : String, lexer : Lexer, outp : IO) : Nil
+    def format(text : String, lexer : BaseLexer, outp : IO) : Nil
-      tokenizer = Tokenizer.new(lexer, text)
+      tokenizer = lexer.tokenizer(text)
      i = 0
      outp << line_label(i) if line_numbers?
      tokenizer.each do |token|
--- a/src/formatters/html.cr
+++ b/src/formatters/html.cr
@ -40,7 +40,7 @@ module Tartrazine
      outp.to_s
    end
-    def format(text : String, lexer : Lexer, io : IO) : Nil
+    def format(text : String, lexer : BaseLexer, io : IO) : Nil
      pre, post = wrap_standalone
      io << pre if standalone?
      format_text(text, lexer, io)
@ -64,8 +64,8 @@ module Tartrazine
      "<span #{line_id} #{line_class} style=\"user-select: none;\">#{line_label} </span>"
    end
-    def format_text(text : String, lexer : Lexer, outp : IO)
+    def format_text(text : String, lexer : BaseLexer, outp : IO)
-      tokenizer = Tokenizer.new(lexer, text)
+      tokenizer = lexer.tokenizer(text)
      i = 0
      if surrounding_pre?
        pre_style = wrap_long_lines? ? "style=\"white-space: pre-wrap; word-break: break-word;\"" : ""
--- a/src/formatters/json.cr
+++ b/src/formatters/json.cr
@ -4,14 +4,14 @@ module Tartrazine
  class Json < Formatter
    property name = "json"
-    def format(text : String, lexer : Lexer) : String
+    def format(text : String, lexer : BaseLexer) : String
      outp = String::Builder.new("")
      format(text, lexer, outp)
      outp.to_s
    end
-    def format(text : String, lexer : Lexer, io : IO) : Nil
+    def format(text : String, lexer : BaseLexer, io : IO) : Nil
-      tokenizer = Tokenizer.new(lexer, text)
+      tokenizer = lexer.tokenizer(text)
      io << Tartrazine::Lexer.collapse_tokens(tokenizer.to_a).to_json
    end
  end
--- a/src/lexer.cr
+++ b/src/lexer.cr
@ -9,17 +9,27 @@ module Tartrazine
  # Get the lexer object for a language name
  # FIXME: support mimetypes
-  def self.lexer(name : String? = nil, filename : String? = nil) : Lexer
+  def self.lexer(name : String? = nil, filename : String? = nil) : BaseLexer
-    if name.nil? && filename.nil?
+    return lexer_by_name(name) if name && name != "autodetect"
-      lexer_file_name = LEXERS_BY_NAME["plaintext"]
+    return lexer_by_filename(filename) if filename
-    elsif name && name != "autodetect"
+
-      lexer_file_name = LEXERS_BY_NAME[name.downcase]
+    Lexer.from_xml(LexerFiles.get("/#{LEXERS_BY_NAME["plaintext"]}.xml").gets_to_end)
-    else
+  end
-      # Guess by filename
+
  private def self.lexer_by_name(name : String) : BaseLexer
    lexer_file_name = LEXERS_BY_NAME.fetch(name.downcase, nil)
    return create_delegating_lexer(name) if lexer_file_name.nil? && name.includes? "+"
    raise Exception.new("Unknown lexer: #{name}") if lexer_file_name.nil?
    Lexer.from_xml(LexerFiles.get("/#{lexer_file_name}.xml").gets_to_end)
  end
  private def self.lexer_by_filename(filename : String) : BaseLexer
    candidates = Set(String).new
    LEXERS_BY_FILENAME.each do |k, v|
-        candidates += v.to_set if File.match?(k, File.basename(filename.to_s))
+      candidates += v.to_set if File.match?(k, File.basename(filename))
    end
    case candidates.size
    when 0
      lexer_file_name = LEXERS_BY_NAME["plaintext"]
@ -28,10 +38,17 @@ module Tartrazine
    else
      raise Exception.new("Multiple lexers match the filename: #{candidates.to_a.join(", ")}")
    end
-    end
+
    Lexer.from_xml(LexerFiles.get("/#{lexer_file_name}.xml").gets_to_end)
  end
  private def self.create_delegating_lexer(name : String) : BaseLexer
    language, root = name.split("+", 2)
    language_lexer = lexer(language)
    root_lexer = lexer(root)
    DelegatingLexer.new(language_lexer, root_lexer)
  end
  # Return a list of all lexers
  def self.lexers : Array(String)
    LEXERS_BY_NAME.keys.sort!
@ -40,15 +57,18 @@ module Tartrazine
  # A token, the output of the tokenizer
  alias Token = NamedTuple(type: String, value: String)
-  struct Tokenizer
+  abstract class BaseTokenizer
  end
  class Tokenizer < BaseTokenizer
    include Iterator(Token)
-    property lexer : Lexer
+    property lexer : BaseLexer
    property text : Bytes
    property pos : Int32 = 0
    @dq = Deque(Token).new
    property state_stack = ["root"]
-    def initialize(@lexer : Lexer, text : String, secondary = false)
+    def initialize(@lexer : BaseLexer, text : String, secondary = false)
      # Respect the `ensure_nl` config option
      if text.size > 0 && text[-1] != '\n' && @lexer.config[:ensure_nl] && !secondary
        text += "\n"
@ -106,13 +126,7 @@ module Tartrazine
    end
  end
-  # This implements a lexer for Pygments RegexLexers as expressed
+  abstract class BaseLexer
  # in Chroma's XML serialization.
  #
  # For explanations on what actions and states do
  # the Pygments documentation is a good place to start.
  # https://pygments.org/docs/lexerdevelopment/
  struct Lexer
    property config = {
      name:             "",
      priority:         0.0,
@ -123,6 +137,18 @@ module Tartrazine
    }
    property states = {} of String => State
    def tokenizer(text : String, secondary = false) : BaseTokenizer
      Tokenizer.new(self, text, secondary)
    end
  end
  # This implements a lexer for Pygments RegexLexers as expressed
  # in Chroma's XML serialization.
  #
  # For explanations on what actions and states do
  # the Pygments documentation is a good place to start.
  # https://pygments.org/docs/lexerdevelopment/
  class Lexer < BaseLexer
    # Collapse consecutive tokens of the same type for easier comparison
    # and smaller output
    def self.collapse_tokens(tokens : Array(Tartrazine::Token)) : Array(Tartrazine::Token)
@ -204,6 +230,60 @@ module Tartrazine
    end
  end
  # A lexer that takes two lexers as arguments. A root lexer
  # and a language lexer. Everything is scalled using the
  # language lexer, afterwards all `Other` tokens are lexed
  # using the root lexer.
  #
  # This is useful for things like template languages, where
  # you have Jinja + HTML or Jinja + CSS and so on.
  class DelegatingLexer < BaseLexer
    property language_lexer : BaseLexer
    property root_lexer : BaseLexer
    def initialize(@language_lexer : BaseLexer, @root_lexer : BaseLexer)
    end
    def tokenizer(text : String, secondary = false) : DelegatingTokenizer
      DelegatingTokenizer.new(self, text, secondary)
    end
  end
  # This Tokenizer works with a DelegatingLexer. It first tokenizes
  # using the language lexer, and "Other" tokens are tokenized using
  # the root lexer.
  class DelegatingTokenizer < BaseTokenizer
    include Iterator(Token)
    @dq = Deque(Token).new
    @language_tokenizer : BaseTokenizer
    def initialize(@lexer : DelegatingLexer, text : String, secondary = false)
      # Respect the `ensure_nl` config option
      if text.size > 0 && text[-1] != '\n' && @lexer.config[:ensure_nl] && !secondary
        text += "\n"
      end
      @language_tokenizer = @lexer.language_lexer.tokenizer(text, true)
    end
    def next : Iterator::Stop | Token
      if @dq.size > 0
        return @dq.shift
      end
      token = @language_tokenizer.next
      if token.is_a? Iterator::Stop
        return stop
      elsif token.as(Token).[:type] == "Other"
        root_tokenizer = @lexer.root_lexer.tokenizer(token.as(Token).[:value], true)
        root_tokenizer.each do |root_token|
          @dq << root_token
        end
      else
        @dq << token.as(Token)
      end
      self.next
    end
  end
  # A Lexer state. A state has a name and a list of rules.
  # The state machine has a state stack containing references
  # to states to decide which rules to apply.
--- a/src/main.cr
+++ b/src/main.cr
@ -20,7 +20,8 @@ Usage:
 Options:
  -f <formatter>      Format to use (html, terminal, json)
  -t <theme>          Theme to use, see --list-themes [default: default-dark]
-  -l <lexer>          Lexer (language) to use, see --list-lexers [default: autodetect]
+  -l <lexer>          Lexer (language) to use, see --list-lexers. Use more than
                      one lexer with "+" (e.g. jinja+yaml) [default: autodetect]
  -o <output>         Output file. Default is stdout.
  --standalone        Generate a standalone HTML file, which includes
                      all style information. If not given, it will generate just
Author	SHA1	Message	Date
Roberto Alsina	c6cd74e339	248 languages	2024-08-23 14:49:01 -03:00
Roberto Alsina	17c66a6572	typo	2024-08-23 14:46:26 -03:00
Roberto Alsina	cd7e150aae	Merge pull request #1 from ralgozino/docs/improve-v0.6.0-instructions docs: improve readme and help message	2024-08-23 14:45:56 -03:00
Ramiro Algozino	176b8e9bc9	docs: improve readme and help message - Add example for printing output to the terminal - Fix example for usage as CLI tool (missing -f flag) - Add instructions in the help message for combining lexers	2024-08-23 18:30:14 +02:00
Roberto Alsina	d8ddf5d8b6	v0.6.0	2024-08-23 10:39:08 -03:00
Roberto Alsina	06556877ef	Merge branch 'more_lexers'	2024-08-23 10:34:17 -03:00
Roberto Alsina	3d5d073471	Implemented usingbygroup action, so code-in-markdown works	2024-08-23 10:20:03 -03:00
Roberto Alsina	a2884c4c78	Refactor	2024-08-22 21:58:21 -03:00
Roberto Alsina	bd3df10d2c	Use classes instead of structs to allow properties of the same type	2024-08-22 21:52:59 -03:00
Roberto Alsina	0f3b7fc3c5	Initial implementation of delegatinglexer	2024-08-22 20:55:08 -03:00
Roberto Alsina	7f4296e9d7	Some template lexers	2024-08-22 16:11:30 -03:00
Roberto Alsina	746abe53ea	Fix weird bug	2024-08-22 14:58:05 -03:00
Roberto Alsina	90971e8f1b	Generate constants sorted so git diffs are smaller	2024-08-22 10:24:09 -03:00
Roberto Alsina	057879c6ee	oops	2024-08-22 10:11:36 -03:00
Roberto Alsina	215d53e173	3 more lexers (markdown moinwiki bbcode)	2024-08-21 22:21:38 -03:00